Mann bringt den Voice-Bot von OpenAI dazu, ein Duett von „Eleanor Rigby“ der Beatles zu singen

Vergrößern / Ein Screenshot von AJ Smith bei seinem Eleanor Rigby-Duett mit dem Advanced Voice Mode von OpenAI über die ChatGPT-App.

OpenAIs neuer Advanced Voice Mode (AVM) seines ChatGPT-KI-Assistenten wurde am Dienstag für Abonnenten eingeführt, und die Leute finden bereits neue Möglichkeiten, ihn zu nutzen, auch gegen den Willen von OpenAI. Am Donnerstag ein Softwarearchitekt namens AJ Smith hat ein Video getwittert von sich selbst, wie er mit AVM ein Duett des Beatles-Songs „Eleanor Rigby“ von 1966 spielt. Im Video spielt Smith Gitarre und singt, wobei die KI-Stimme sporadisch einspringt und mitsingt und seine Interpretation lobt.

„Ehrlich gesagt war es überwältigend. Als ich es das erste Mal machte, habe ich nicht aufgenommen und bekam buchstäblich Gänsehaut“, sagte Smith per SMS zu Ars Technica. „Ich habe es nicht einmal gebeten, mitzusingen.“

Smith ist kein Unbekannter in Bezug auf KI-Themen. In seinem Hauptberuf arbeitet er als stellvertretender Direktor für KI-Engineering bei S&P Global. „Ich nutze (KI) ständig und leite ein Team, das KI tagtäglich nutzt“, erzählte er uns.

Im Video ist AVMs Stimme ein wenig zitternd und nicht ganz perfekt, aber sie scheint etwas über die Melodie von „Eleanor Rigby“ zu wissen, als sie zum ersten Mal singt: „Ah, schau dir all die einsamen Leute an.“ Danach scheint es beim Rezitieren von Liedtexten die Melodie und den Rhythmus zu erraten. Wir haben auch den Advanced Voice Mode zum Singen überredet, und nach einigem Überreden lieferte er eine perfekte melodische Wiedergabe von „Happy Birthday“.

AJ Smiths Video zum Singen eines Duetts mit dem Advanced Voice Mode von OpenAI.

Wenn Sie AVM zum Singen auffordern, antwortet es normalerweise etwa: „M„Das liegt daran, dass OpenAI in den ersten Anweisungen des Chatbots (sogenannte „Systemaufforderung“) den Sprachassistenten anweist, nicht zu singen oder Soundeffekte zu erzeugen („Nicht singen oder summen“, heißt es in den Richtlinien). zu einem System-Prompt-Leck).

OpenAI hat diese Einschränkung möglicherweise hinzugefügt, weil AVM andernfalls urheberrechtlich geschützte Inhalte vervielfältigen könnte, beispielsweise Lieder, die in den Trainingsdaten gefunden wurden, die zur Erstellung des KI-Modells selbst verwendet wurden. Dies geschieht hier in begrenztem Umfang. In gewisser Weise hat Smith eine Form dessen entdeckt, was Forscher als „prompte Injektion“ bezeichnen. Dabei handelt es sich um eine Möglichkeit, ein KI-Modell davon zu überzeugen, Ausgaben zu erzeugen, die seinen Systemanweisungen widersprechen.

Wie hat Smith das gemacht? Er hat sich ein Spiel ausgedacht, das zeigt, dass AVM mehr über Musik weiß, als man im Gespräch vermuten lässt. „Ich habe nur gesagt, dass wir ein Spiel spielen würden. Ich würde die vier Pop-Akkorde spielen und es würden Lieder laut werden, damit ich zu diesen Akkorden mitsingen kann“, erzählte uns Smith. „Was ziemlich gut funktioniert hat! Aber nach ein paar Liedern fing es an mitzusingen. Es war schon ein einzigartiges Erlebnis, aber das hat es wirklich auf die nächste Stufe gebracht.“

Dies ist nicht das erste Mal, dass Menschen musikalische Duette mit Computern spielen. Diese Art von Forschung streckt sich nach hinten bis in die 1970er Jahre, beschränkte sich jedoch typischerweise auf die Reproduktion von Musiknoten oder Instrumentalklängen. Aber dies ist das erste Mal, dass wir jemanden in Echtzeit mit einem Audio-Synthesizer-Sprach-Chatbot duettieren sehen.

Share this:

Must Read

Leave a Comment Cancel Reply