OpenAI legt nach Sora direkt mit der nächsten kontroversen, neuen Technologie nach, die eine solche Gefahr für die Allgemeinheit darstellen könnte, dass sie bis auf weiteres aufgrund von Sicherheitsbedenken nicht veröffentlicht wird.
Am 29. März 2024 hat das Unternehmen hinter ChatGPT nämlich in einem Blogartikel erste Erfahrungen aus Tests mit der sogenannten Voice Engine, dem hauseigenen KI-Modell für das Klonen und Erzeugen von künstlichen Stimmen vorgestellt. Ausgerechnet in einer Zeit, in der die Ausbreitung von Deep Fakes immer größer wird und gerade in Jahren wie diesem Superwahljahr in den USA eine echte Gefahr darstellt.
Im verlinkten Blogartikel gibt es jede Menge Beispiele, die man sich anhören kann und die auf beeindruckende Art und Weise demonstrieren, wie gut die Stimmerzeugung funktioniert.
Was ist Voice Engine und wann wird es veröffentlicht?
Laut Jeff Harris, einem Mitglied des Produkt-Teams von OpenAI, der in einem TechCrunch Interview einige Informationen zu Voice Engine preisgegeben hat, existiert das Modell schon eine ganze Weile “gut versteckt” wie er sagt.
Es wurde seit etwa 2 Jahren entwickelt und aktuell schon bei den Stimmen von ChatGPT in den Smartphone Apps und der Vorlese-Funktion in ChatGPT verwendet – einige von uns sind also schon einmal damit in Berührung gekommen.
Wenn man die Voice Funktion der ChatGPT App kennt, weiß man wie echt sich diese Stimmen oft anhören.
In der Text-to-Speech API wird Voice Engine ebenfalls verwendet und Spotify verwendet die Technologie für die Übersetzungen ihrer Top-Podcaster, die seit einiger Zeit beim Streaming-Anbieter verfügbar sind.
Das Erzeugen von künstlichen Stimmen an sich ist nichts Neues, es gibt schon jetzt Möglichkeiten das bei anderen Anbietern zu nutzen. Erst kürzlich haben wir hier auf dem Kanal als KI-Tool der Woche ElevenLabs vorgestellt, bei dem wir unsere Stimme schon jetzt klonen können und dann jeglichen Text als Audio-Datei erzeugen.
Bei ElevenLabs läuft es beispielsweise so, dass wir ein Sample der eigenen Stimme hochgeladen und dann eine Art “Mini-Modell” erzeugt wird, das die eigene Stimme abbildet. Dieses Modell können wir dann verwenden und übergeben dann einfach nur einen Text, den wir als Audiodatei haben möchten. Das Modell erzeugt die Audiodatei und kann immer wieder verwendet werden, in dem wir es als “Stimme” auswählen.
Bei Voice Engine ist der Prozess anders:
Man lädt 15 Sekunden der eigenen Stimme hoch und dann wird laut Harris eine Mischung aus Diffusion und Transformer Technologie verwendet, um aus diesem Sample direkt die Audio-Datei mit dem gewünschten Text zu erzeugen. Ohne jetzt tiefer in die Definition dieser Begriffe einzutauchen: Das Modell bekommt unsere Stimmprobe und den zu erzeugenden Text und erstellt dann aus beidem die Audio-Datei, ohne ein eigenes KI-Modell für diese Stimme zu trainieren.
Nach der Generierung wird das bereitgestellte Sample dann gelöscht und wird nicht mehr benötigt. OpenAI gibt an, diese Daten überhaupt nicht für das Training des eigenen Modells zu verwenden. Ob das jetzt bedeutet, das für jedes Erzeugen von Audio wieder ein neues Sample hochgeladen werden muss ist aktuell nicht ganz klar.
Ein Punkt für den OpenAI insgesamt bekannt ist und der wohl auch bei Voice Engine so bleiben wird, ist eine sehr aggressive Preispolitik. Laut einem Marketingdokument, das TechCrunch wohl kurzzeitig vorlag sind Kosten von ca. 15 US Dollar pro eine Million Tokens geplant. Das sind umgerechnet in etwa 162.000 Wörter oder etwa 18 Stunden Audio, was den Preis pro Stunde unter einem Dollar platziert.
Gerade, wenn man jetzt an die Vertonung eines Buchs denkt, oder andere Anwendungen, in denen viel Text in Stimme umgewandelt werden muss, ist das vermutlich ein unschlagbarer Preis und sogar noch etwas unter den schon relativ günstigen Preisen von ElevenLabs angesiedelt.
Risiken und Gefahren von Voice Cloning KI-Tools
Soweit klingt das alles erst einmal spannend und interessant, aber es gibt hier eine relativ offensichtliche Kehrseite und das ist die riesige Gefahr, die KI-Stimmen in Bezug auf Deepfakes und Desinformation mitbringen.
Echt klingende, menschliche Stimmen, die durch Software erzeugt werden waren schon immer und sind aktuell ein riesiges Problem. Man braucht nur an die Beispiele aus der jüngsten Vergangenheit denken: Die User des berüchtigten 4Chan Forums, die mit ElevenLabs geklonte Stimmen von Prominenten wie Emma Watson verwendet haben, um scheinbar von diesen Personen stammende Hassbotschaften im Netz zu verbreiten.
Ein weiteres Beispiel ist der Reporter Joseph Cox, der es für Vice geschafft hat einen so glaubwürdigen Stimmklon zu erschaffen, dass er damit die Sicherheitssysteme seiner Bank aushebeln konnte und sich mit einer künstlichen Stimme authentifizieren.
Der aktuelle Stand und die Nicht-Veröffentlichung der Technologie zeigen, dass sich OpenAI dieser Gefahren bewusst ist, aber was hat das Unternehmen konkret vor, um diese Risiken zu minimieren?
Zunächst werden alle Audio-Dateien, die von Voice Engine erzeugt werden mit einem unhörbaren Wasserzeichen gekennzeichnet. Laut Harris soll OpenAI damit leicht in der Lage sein, einen gefälschten Audio-Clip sofort zu erkennen, wenn er mit der eigenen Technologie generiert wurde.
Ob das jetzt auch eine deutsche Bank kann, wenn versucht wird mit einem Stimmklon eine Sicherheitsabfrage zu überlisten ist aber natürlich fragwürdig. Außerdem hat selbst Harris nicht zweifelsfrei ausgeschlossen, dass dieses Wasserzeichen nicht überlistbar ist.
Wie das Wasserzeichen final aussieht, ist nicht bekannt, da OpenAI das hinter verschlossenen Türen hält. Es soll zwar irgendwann Open Source werden, aber dazu gibt es aktuell keine konkreten Angaben.
Als weitere Maßnahme hat OpenAI das eigene Red Teaming Netzwerk genannt. Diese Gruppe von Experten testet Technologien direkt auf möglichen Missbrauch oder Probleme und hilft dabei, diese vor einer Veröffentlichung zu entfernen. Obwohl das natürlich ein guter Ansatz ist, sagen viele Experten zurecht, dass eine kleine Gruppe von Red Team Testerinnen und Testern unmöglich alle potenziellen Missbrauchsfälle erkennen kann.
Ein Mechanismus der außerdem getestet wird ist, dass User immer mal wieder zufällige Text-Passagen vorlesen müssen, um zu “beweisen”, dass sie wirklich anwesend sind und es ihre eigene Stimme ist, die hier gerade verwendet wird, und nicht etwa versucht wird, Sprache von einer dritten Person zu imitieren.
Dieser Ansatz ist wiederum etwas vielversprechender, vor allem auch in Kombination mit der sogenanten No-Go Liste von OpenAI, die das Erzeugen von Stimmen die bekannten Persönlichkeiten ähnlich sind, komplett untersagt sein soll.
Momentan nimmt sich das Unternehmen Zeit, Voice Engine aktuell mit einer sehr kleinen Gruppe von Partnern zu testen. Das sind dabei hauptsächlich Unternehmen, die laut Harris wenig Risiko und einen großen sozialen Nutzen mitbringen, zum Beispiel Livox, ein Unternehmen, das die Technlogie dafür einsetzt, dass Menschen mit Einschränkungen oder gar keinen Möglichkeiten selbst zu sprechen sich verständlich machen können.
Diese Partnerauswahl ist strategisch geschickt, denn so greift sich OpenAI eine Sparte heraus, die hauptsächlich den Nutzen künstlich erzeugter Stimmen in den Vordergrund stellt und kaum die Probleme und Risiken beleuchtet.
Andere Partner sind wie gesagt Spotify für die Podcasts und interessanterweise das KI-Unternehmen HeyGen, das Video-Avatare generieren kann. Hier wird Voice Engine für die Übersetzung in andere Sprachen verwendet.
Hier erkennt man auch, dass OpenAI einen entscheidenden Vorteil gegenüber ElevenLabs hat. Voice Engine ist Teil eines umfangreicheren Angebots von KI Tools und nicht das einzige Programm, dass sie den eigenen Kunden anbieten können. Die Zusammenarbeit mit HeyGen suggeriert für uns, dass OpenAI vollkommen zufrieden damit ist, auf einer Zulieferer-Basis mit konkurrierenden Unternehmen zusammenzuarbeiten.
Es verhält sich hier schon sehr ähnlich wie bei ChatGPT. Natürlich haben viele Unternehmen mittlerweile “eigene Chatbots” im Angebot aber häufiger als nicht, steckt unter der Haube die Technologie von OpenAI. Mit Voice Engine haben sie jetzt das eigene Angebot um solch eine Schnittstelle erweitert und können damit ein ganzheitlicheres Paket schnüren, als es eine Konkurrenz wie ElevenLabs jemals könnte.
Mit welchen Daten hat OpenAI Voice Engine trainiert?
Ein Thema, das immer ein bisschen sensibel ist, sind Trainingsdaten von KI-Modellen. Und gerade auch im Bereich der Spracherzeugung stellt sich natürlich die Frage: Wie wurde Voice Engine trainiert und mit welchen Daten? Dazu gibt es von OpenAI aktuell keine klare Auskunft, außer, dass eine Mischung aus öffentlich verfügbaren und lizensierten Materialien verwendet wurde.
Dass man hier nicht mehr Infos bekommt, ist eigentlich normal, denn viele KI-Unternehmen sehen vor allem die Trainingsdaten der Modelle als einen kritischen Punkt und Wettbewerbsvorteil, denn je besser die Trainingsdaten, desto besser vermutlich auch später die Ergebnisse.
Es ist aber auch ein sehr kritischer Bereich, da hier dann doch oftmals Urheberrechte verletzt werden, ohne dass man das direkt nachweisen kann.
OpenAI selbst hat diesbezüglich aktuell einige Klagen am Hals, da sie angeblich eigene Modelle mit urheberrechtlich geschützten Fotos, Code, E-Books und Artikeln trainiert haben. Die eigentlichen Erschaffer des Materials werden dabei dann weder genannt noch für die Arbeit bezahlt. Das Motto scheint hier ein bisschen zu sein, lieber um Entschuldigung als um Erlaubnis bitten.
Vor allem die immer wieder verwendete Aussage “öffentlich verfügbares Material” kann man hier durchaus ein bisschen kritisch sehen und es ist nicht ganz klar, welche Daten wirklich zum Training einer Sprach-KI herangezogen werden.
Im Gegensatz zu Text, wo es eben mit Wikipedia oder Common Crawl sehr große Datensätze gibt, ist es vermutlich nicht ganz so leicht so viele Sprachbeispiele zu finden, die man einfach verwenden kann. Und vor allem für das Training wirklich guter KI-Modelle brauch man eben genau das: Unverstellbare große Mengen von Daten.
In Bezug auf ein konkretes Veröffentlichungsdatum hält sich OpenAI aktuell noch sehr bedeckt. Da wir uns momentan in einem Wahljahr in den USA befinden und man schon ohne Voice Engine sehr viele Bedenken in Bezug auf Deep Fakes hat, ist das auch sehr nachvollziehbar.
Ob wir tatsächlich bis November warten müssen, bevor wir Zugriff auf das Tool erhalten, ist allerdings ebenfalls fragwürdig, da die Konkurrenz nicht schläft und OpenAI sicherlich nicht kampflos das Feld räumen wird.
Das zeigt auch der Fakt, dass es bereits eine konkrete Preisvorstellung für das Tool gibt und das wäre wohl kaum der Fall, wenn ein Marktstart für die nahe Zukunft völlig ausgeschlossen ist.