Willkommen bei unserer KI-Tool der Woche Reihe, in der wir euch immer ein Tool vorstellen. Mithilfe von künstlicher Intelligenz Stimmen erzeugen, die klingen wie echt – und das auch noch auf mehreren Sprachen? Elevenlabs macht das möglich. In diesem Artikel stellen wir dir die aktuell beste Sprach-KI vor und zeigen was alles damit möglich ist.
Neben dem Erzeugen von Audio aus Text, bietet ElevenLabs die Möglichkeit Videos zu dubben, das bedeutet ich kann ein Video nachträglich auf einer anderen Sprache synchronisieren und ich denke, die Ergebnisse sind auch hier beeindruckend.
Wie kann ich das nutzen und was kostet es?
Bei Elevenlabs handelt es sich um eine Browseranwendung. Das bedeutet um die KI-Spracherzeugung zu verwenden, muss man lediglich auf die Website elevenlabs.io gehen. Dort gibt es dann ein Eingabefeld und oft kann man einfach direkt hier etwas eingeben und das Tool einmal live testen – ganz ohne Registrierung.
Werbung
Wenn Du dich über diesen Link anmeldest und ein Abo bei ElevenLabs abschließt bekommen wir eine kleine Provision. Damit kannst du unsere Arbeit unterstützen. Für Dich ändert sich dadurch nichts.
Aber auch wenn der Service aktuell mal wieder überlastet ist und das Dialogfeld auf der Startseite nicht funktioniert, können wir ohne zu Bezahlen loslegen.
Dazu müssen wir einen kostenlosen Account erstellen, den wir entweder mit unserem Google Konto oder klassisch mit einer Email-Adresse einrichten können. Sobald der Account erstellt wurde befinden wir uns automatisch im Forever Free Plan von Elevenlabs und bekommen damit jeden Monat 10.000 Credits, die wir verbrauchen können – das entspricht dabei ungefähr 10 Minuten Audio, die so erzeugt werden können.
Auf der Preis-Seite sehen wir, dass es einige Abstufungen für Premiumpläne gibt. Es geht schon bei 5 Dollar im Monat los, damit kann dann eine halbe Stunde erstellt werden, für 22 Dollar sogar zwei Stunden.
Kernfunktionen und Merkmale
Wenn wir uns mit unserem Account angemeldet haben dann sieht man aktuell, dass man die Wahl hat zwischen zwei unterschiedlichen Modi: Text to Speech und Speech to Speech. Das sind eigentlich nur zwei unterschiedliche Möglichkeiten Inhalte in Elevenlabs hochzuladen: man kann den gewünschten Text entweder tippen oder eben als Audiodatei bereitstellen.
Die Bedienung ist eigentlich ganz simpel und es gibt gar nicht so viele Optionen, wie man vielleicht erwarten würde. Als erstes können wir uns aussuchen welches Modell wir für die Erzeugung verwenden möchten. Hier gibt es keine Unterschiede zwischen normalen und Premiumaccounts, auch ohne zu bezahlen sind hier alle Modelle verfügbar.
ElevenLabs selbst empfiehlt hier die neueren Modelle erkennbar am Namen V2 zu verwenden, da sie laut Unternehmen “in allen Belangen besser sind”.
Was die Kosten angeht: Wir haben im kostenlosen Plan 10.000 Credits, die Modelle sind alle gleich “teuer”. Ein Zeichen Text kostet bei der Erzeugung immer einen Credit, egal ob ein V2 oder V1 Modell verwendet wird.
Nach dem Modell wählen wir die Stimme aus. Hier haben wir eine ganz schöne Liste zur Auswahl und können immer auch eine kurze Vorschau anhören, wie die jeweilige Stimme klingt. Nachdem ich mich für eine Stimme entschieden habe gibt es noch einige Einstellungen dazu, die nicht mehr wirklich ändern, wie die Stimme klingt, sondern mehr die Sprechweise und Konsistenz.
Dann müssen wir eigentlich nur noch den Text eingeben, bzw. Unser Ausgangsaudio hochladen und unten auf Generate klicken und schon wird unsere Audiodatei erzeugt. Nach kurzer Zeit können wir die Datei abspielen und hier auf der rechten Seite direkt herunterladen.
Dort finden wir auch den Verlauf aller unserer erzeugten Dateien und können sie wieder anhören, herunterladen und löschen.
Neben der Erzeugung haben wir in der linken Seitenleiste noch weitere Punkte und der nächste ist Voices. Dort können wir eigene Stimmen erzeugen.
Im kostenlosen Plan besteht nur die Möglichkeit verschiedene Paramter einzustellen und dann wird eine einzigartige Stimme auf Grundlage dieser Einstellungen für uns generiert. Diese können wir abspeichern, einen Namen vergeben und die Stimme dann für neue Audios verwenden.
Wenn wir einen bezahlten Plan haben, dann können wir auch unsere eigene Stimme klonen, das bedeutet wir laden Audiomaterial von uns hoch und erstellen uns so einen Sprachklon, mit dem wir alle unsere Texte vertonen können.
Dabei gibt es einen Unterschied vom Instant Cloning, bei dem schon 1 Minute Audio reicht um direkt einen Klon zu haben und der Möglichkeit des Professional Voice Clonings. Dafür brauchen wir mindestens den Creator Plan und am besten lädt man mehrere Stunden Audio hoch. Dann wird ein Modell nur mit diesen Daten trainiert, das kann auch mehrere Wochen dauern, dafür bekommen wir am Ende einen Klon, der wirklich täuschend echt wie wir klingt.
Im Bereich Voices finden wir die sogenannte Voice Library, eine riesige Sammlung mit verschiedenen Stimmen, die auch von anderen Usern kommen. Manche davon können wir sogar mit dem kostenlosen Plan verwenden, das sieht man direkt, wenn man mit der Maus über “Add to Voice Lab” hovert.
Der nächste Punkt in der Seitenleiste ist Projects, dafür brauchen wir allerdings einen bezahlten Plan. Mit einem Projekt bekommen wir einfach mehr Möglichkeiten zur Steuerung auch bei langen Texten mit mehreren Kapiteln. Das lohnt sich zum Beispiel bei der Vertonung von Hörbüchern oder Ähnlichem.
Dann haben wir mit Dubbing wieder einen interessanten Punkt, gerade für Creator. Hier können wir nämlich ein existierendes Video in eine andere Sprache übersetzen, dazu sagt man auch dubben, und Elevenlabs wird dabei versuchen die Dynamik und Sprechweise des Originaltons beizubehalten.
Der letzte Punkt Payouts ist nur dann interessant, wenn wir einen professionellen Klon unserer Stimme erstellt haben. Denn dann können wir finanziell daran beteiligt werden, wenn unsere Stimme von anderen Usern verwendet wird.
Seit neuestem bietet Elevenlabs auch eine Funktion zur Erzeugung von Soundeffekten an. Die Funktion ist Stand jetzt noch nur eine Vorschau, aber wir konnten es schon testen und die Ergebnisse sind eigentlich ganz gut.
Und damit sind wir eigentlich mit den grundlegenden Funktionen schon durch, ich möchte aber auch jeden Fall noch die Dokumentation von ElevenLabs erwähnen, denn dort finden wir wirklich viele hilfreiche Infos und Tipps.
Viel der Dokumentation bezieht sich auf die API von ElevenLabs also die Schnittstelle mit der ich die Technologie in meine eigenen Apps und Produkte integrieren kann, aber wir haben eben gerade unter dem Punkt Speech Synthesis hier viele nützliche Tutorials, beispielsweise auch für die Einstellungen der Stimmen.
Lizenzen und Rechte
Wichtiger Hinweis zuerst: Gerade bei dem Thema lohnt es sich natürlich immer auf der Website direkt die aktuellsten Infos einzuholen.
Unsere Inhalte, die die wir hochladen und die, die wir erzeugen sind unser Eigentum. ElevenLabs bekommt eine Lizenz, die sich aber nach aktuellem Wissenstand darauf beschränkt, die Funktionalität zu gewährleisten, also Inhalte zu speichern oder zum Download für uns selbst verfügbar zu machen und für das Training und die Weiterentwicklung der eigenen Technologie.
Für das Training gibt es aber auch ein Opt-Out Formular, mit dem wir dieser Verwendung widersprechen können.
Das ist der aktuelle Stand, Dinge können sich ändern, außerdem bin ich natürlich kein Anwalt und kann nicht zu 100% versprechen, dass diese Interpretation der Nutzungsbedingungen absolut korrekt ist.
Zielgruppe
Elevenlabs hat wie viele Tools im Bereich künstliche Intelligenz eine breit gefächerte Zielgruppe. Aktuell wird die Spracherzeugung sehr viel von Personen genutzt, die Inhalte, zum Beispiel für Soziale Medien erstellen, da es extrem einfach ist, hochqualitatives Audio zu erzeugen – und das direkt auf mehreren Sprachen.
Elevenlabs kann aber natürlich auch ganze Bücher vertonen als Hörbuch, es gibt erste Radio-Shows die komplett aus ChatGPT erzeugtem Dialog entstanden sind, der mit Elevenlabs umgesetzt wurde.
Auch im Bereich Video-Dubbing ist das Tool eine Riesenunterstützung. Wenn man ein Video beispielsweise auf Deutsch produziert hat, ist es jetzt ein leichtes, das zum Beispiel noch auf englisch oder spanisch übersetzen zu lassen.
Vor- und Nachteile
✅ Die Stärken von ElevenLabs
- Unglaublich echt klingende Stimmen
- Viele Sprachen unterstützt
- Kostenloser Plan zum Ausprobieren
- Parameter für Feinabstimmung der Stimmen
- Klonen der eigenen Stimme möglich
❌ DIe Schwächen von ElevenLabs
- Kleine Fehler oder falsche Betonungen bei nicht-englischen Texten
- Ausführliche Nutzung nur mit bezahltem Plan möglich
- Allgemeine Gefahr von Betrug und Desinformation durch Sprach-KIs
Wer steckt eigentlich hinter Elevenlabs?
Elevenlabs wurde 2022 zusammen von einem ehemaligen Google Machine Learning Mitarbeiter namens Piotr Dąbkowski und ehemaligen Palantir Mitarbeiter Mateusz Staniszewski gegründet.
Seitdem konnte das Unternehmen in mehreren Finanzierungsrunden jede Menge Kapital von Investoren einsammeln, zuletzt 80 Millionen US Dollar im Januar 2024 was einer Unternehmensbewertung von über einer Milliarde entspricht.
Vermutlich wird ihnen also das Geld nicht so schnell ausgehen und wir dürfen uns noch über weitere, neue Innovationen, zum Beispiel im Bereich Apps freuen, die auch schon angekündigt wurden.
Abschlussbewertung
Wer unser Video zu den Kosten von verschiedenen KI-Tools und ob sich das wirklich lohnt auf dem YouTube-Kanal angeschaut hat, der weiß vielleicht noch, dass wir tatsächlich bei Elevenlabs als eines von sehr wenigen KI-Tools einen Premium-Account haben.
Das hat auch mit “beruflichem” Interesse zu tun, da wir auch viel experimentieren und in Zukunft sicher auch noch mehr Videos, die diese Technologie und ihre Einsatzgebiete beleuchten veröffentlichen werden.
Aber die Qualität der erzeugten Audiodateien ist wirklich enorm gut, schon beim kostenlosen Plan und bietet damit vor allem auch wirklich konkrete Anwendungsfelder, während es bei einigen anderen KI-Tools oft doch eher nur Spielerei ist – was natürlich auch völlig in Ordnung ist und jede Menge Spaß machen kann.
Alternativen zu ElevenLabs gibt es zwar einige, HeyGen oder Murf.ai um nur zwei zu nennen, aber die Qualität und vor allem auch die Vielfalt und die Möglichkeiten mit sehr unterschiedlichen Stimmen, die auf so vielen Sprachen gut funktionieren reicht meiner Meinung nach nicht an Elevenlabs heran.
Für die ChatGPT User unter euch habe ich noch einen heißen Tipp: Es gibt auch ein Custom GPT, bei dem ihr direkt von ChatGPT Text erzeugen lassen könnt und diesen mit ElevenLabs vertonen – ganz ohne eigenen Account.
Alternativ kann auch ein Text übergeben werden und dieser vertont. Hier gibt es nicht alle Auswahlmöglichkeiten der Plattform selbst, aber man kann gut einfach mal ausprobieren, wie gut das funktioniert.