Die KI-News der Woche vom 05.07.2024

Die KI-News der Woche vom 05.07.2024

Melde Dich für unseren Newsletter an und erhalte alle wichtigen News direkt in dein Postfach!

OpenAI bekommt Konkurrenz aus Frankreich, Huggingface testet Sprachmodelle jetzt gründlicher, das neue Flagschiff KI-Modell von Meta steht kurz vor der Veröffentlichung und vieles mehr.

🍻 MUC GPT (München GPT)

Die Stadt München hat eine eigene Version eines KI-Chatbots auf Basis von Microsoft Azure mit dem GPT 3.5 Modell als Open Source Projekt auf Github veröffentlicht. Damit geht München in Sachen KI mit einem guten Beispiel voran und ermöglicht es so anderen Städten ähnliche Lösungen zu implementieren. 

Der Chatbot funktioniert im Moment in drei Varianten. Chat, Zusammenfassen und Brainstorming. Auf der Github-Seite kann man auch die Roadmap für die Zukunft einsehen und dort sieht man, dass für August beispielsweise weitere Modelle und im Dezember eine Dateiupload Funktion geplant sind.

Die Roadmap des MUCGPT für 2024
Quelle: https://github.com/it-at-m/mucgpt

Von uns gibts dafür auf jeden Fall einen Daumen nach oben und wir sind gespannt, ob weitere Städte folgen werden.

📰 Kyutai Moshi

Das französische KI-Startup Kyutai hat Moshi vorgestellt. Einen Echtzeit-Sprachassistenten, der es versucht mit dem neuen Voice-Mode von OpenAI aufzunehmen – welcher übrigens noch einmal nach hinten verschoben wurde und erst Ende Juli ersten Alpha-Testern zur Verfügung gestellt wird. 

Die Demovideos sehen sehr überzeugend aus und die Latenz zwischen den Eingaben und Ausgaben ist wirklich extrem kurz.

Allerdings haben wir mittlerweile auch schon durchwachsene Tests gesehen, bei denen die KI dem Gesprächsverlauf nicht zuverlässig folgen konnte, den User unterbrochen hat oder scheinbar nicht verstanden hat, was der User eigentlich genau wollte.

Trotzdem soll das auf keinen Fall schmälern, wie beeindruckend das Tool schon in seiner jetzigen Form ist. Man kann es aktuell auch hier kostenlos ausprobieren.

Interessant ist, dass das Non-Profit Unternehmen Kyutai vorhat, das Modell als Open Source Alternative zu den großen Sprachassistenten zu veröffentlichen, was die Forschung und Entwicklung in diesem Bereich natürlich um einiges beschleunigen kann.

🌃 Scene Transfer von Krea.AI 

Das KI-Tool Krea.ai hat eine neue Funktion mit dem Namen Scene Transfer vorgestellt, die man ab sofort kostenlos auf der Website verwenden kann. Mit Scene Transfer kann man für ein Bild den Hintergrund und die Belichtung komplett anpassen, ohne das eigentliche Subjekt zu verändern. Das Demo-Video und die darunter kommentierten Beispiele von Usern sehen extrem gut aus, und man muss sagen, auch unser erster Test, hat bis auf Kleinigkeiten richtig gut funktioniert.

Diese Funktion finden wir besonders spannend, weil es mal wieder etwas ist, das einfach einen direkten Nutzen und Anwendungsgebiete hat. Man kann damit wirklich arbeiten, zum Beispiel reicht mir jetzt ein guter Product-Shot und den kann ich dann ganz leicht in verschiedenen Szenen und mit verschiedenen Belichtungen weiterverarbeiten. 

🖥️ Huggingface stellt neue Benchmark-Tests für LLMs vor

Nachdem in der Vergangenheit mehrfach kritisiert wurde, dass die neuesten Versionen der Sprachmodelle so trainiert wurde, dass sie extrem gute Testergebnisse bei den Benchmarks erreichen und deren Sinn damit etwas verloren gegangen ist, hat Huggingface eine neue Reihe von Tests vorgestellt. Diese neuen Benchmarks sollen eine objektivere Bewertung der Sprachmodelle ermöglichen und so Nutzern einen Überblick darüber geben, welches Modell in welcher Disziplin aktuell die Nase vorn hat.  

Neben einer erhöhten Schwierigkeit werden außerdem die Resultate zukünftig anders gewichtet, bevor sie miteinander verrechnet werden. Das hat den Sinn, dass so Benchmarks mit unterschiedlichen Schwierigkeitsstufen entsprechend dem Ergebnis nicht mehr verzerren. In der vergangenen Version kam es vor, dass bestimmte Sprachmodelle höher eingestuft wurden, einfach nur, weil sie in den weniger komplexen Benchmarks eine hohe Punktzahl erzielen konnten. Das hat zum Teil zu verfälschten Ranglisten geführt und wird durch die neuen Gewichtungen deutlich erschwert.  

🤖 Elevenlabs stellt Iconic Voices vor

Elevenlabs hat für seine Reader-App eine neue Funktion vorgestellt, bei der man aus einer Reihe von prominenten Personen bzw. deren Stimme wählen und sich Texte, Artikel und sogar Dokumente vorlesen lassen kann.  

Das Unternehmen sagt in seinem Video, dass es sich hierbei um exklusive KI-Versionen handelt und man kann vermutlich erahnen, dass die Auswahl in Zukunft um einige Prominente erweitert werden wird. Momentan gibt es unter anderem Burt Reynolds, James Dean, Judy Garland und mehr.  

ElevenLabs Iconic Voices - Judy Garland

Möglicherweise gibt es aber auch schon bald die ersten Verträge mit bekannten Synchronsprecher:innen, damit wir dann auch auf Deutsch unsere Nachrichten zukünftig von Arnold Schwarzenegger oder Bruce Willis vorgelesen bekommen.  

🗓️ Llama 405B kurz vor dem Release?

Auf Twitter sind jetzt die ersten Screenshots aufgetaucht, auf denen Llama 405B in Whatsapp als KI-Modell zur Verfügung steht. Das KI-Modell wählt man dabei nicht für Whatsapp selbst, sondern für die integrierte KI von Meta “Meta AI” aus. Diese soll Nutzern die Möglichkeit bieten, innerhalb von Whatsapp mit einem Chatbot zu kommunizieren.

Aktuell gibt es noch kein fixes Datum, wann Meta AI in der EU verfügbar sein wird, und Meta hat bis auf Weiteres hier die Veröffentlichung aufgrund der strengen Datenschutzrichtlinien auf Eis gelegt.  

Trotzdem ist es natürlich spannend zu sehen, dass das neue Flaggschiff-Modell von Meta scheinbar kurz vor der Fertigstellung steht. Insbesondere weil wir dann endlich wissen, ob es unter einer Open-Source-Lizenz veröffentlicht wird oder die Gerüchte wahr sind und Llama 405B ein internes kommerzielles Modell von Meta sein wird.  

🔇 GPT4All 3.0 Update

GPT4All, die Software, mit der man sich Sprachmodelle offline installieren und nutzen kann, hat ein Update bekommen. In der neuen 3.0 Version hat man jetzt nicht nur eine größere Auswahl an Modellen zur Verfügung, man kann jetzt auch mit Dateien und Dokumenten arbeiten und bekommt eine überarbeitete Oberfläche, die sich wirklich sehen lassen kann.  

GPT4All gibt es für Mac, Windows und Linux. Unsere ersten Tests waren allerdings etwas durchwachsen und nicht immer konstant, was die Qualität angeht. Deshalb werden wir da nochmal ausführlich in einem eigenen Video drüber sprechen, nachdem wir noch einige weitere Tests gemacht haben.  

⌨️ RunwayML Gen-3 Alpha für alle verfügbar

Nachdem wir letzte Woche über die neue Version von Runway berichtet haben, steht das Video-KI-Tool jetzt allen zur Verfügung (ab dem Standard-Plan) und man kann sich selbst einen Eindruck machen. Die Qualität ist wie vermutet wirklich sehr gut und wir sind begeistert, was da jetzt schon für Videos erstellt wurden.

Gen-3 Alpha: Available Now | Runway

Das Prompting funktioniert aktuell noch nicht immer zuverlässig und insbesondere, wenn man wirklich komplexe Anweisungen eintippt, werden diese bisweilen elegant ignoriert, aber das ist unserer Meinung nach verschmerzbar. Wir haben es hier schlussendlich mit einer Alpha und nicht der finalen Version zu tun, deshalb kann man hier schon mal ein Auge zudrücken, wenn nicht immer alles rund läuft.  

✏️ Suno stellt iOS App vor und wird verklagt

Die Musik-KI Suno hat eine iOS-App vorgestellt, mit der man vom Handy aus eigene Songs erstellen kann. Die App ist zunächst nur in den USA verfügbar und soll nach und nach in weiteren Ländern veröffentlicht werden. Eine Android-Version ist ebenfalls in Arbeit und soll schon bald folgen.  

Das sind allerdings nicht alle Nachrichten in Bezug auf Suno und KI-Musik. Die ersten Labels haben jetzt eine Klage gegen Suno und Konkurrent Udio eingereicht und unterstellen den KI-Firmen urheberrechtlich geschütztes Material für das Training verwendet zu haben. Die Klage kommt nicht wirklich überraschend und es ist sehr spannend, wie hier die rechtliche Situation in den kommenden Monaten und Jahren aussehen wird. Für den Moment würde ich eher davon abraten, KI-generierte Musik für kommerzielle Projekte zu verwenden.  

Autor

  • Timothy Meixner

    Timothy Meixner ist Mitgründer und Geschäftsführer der Meixner & Ruof UG. Als KI- und Office-Experte betreibt er zusammen mit Johannes Ruof den erfolgreichen YouTube-Kanal Digitale Profis (80.000+ Abonnent:innen).

    Alle Beiträge ansehen
Nach oben scrollen