Melde Dich für unseren Newsletter an und erhalte alle wichtigen News direkt in dein Postfach!
Eine Video-KI schafft es alle zu täuschen, Flux bringt neue Bild-Modelle mit beeindruckenden Funktionen, DeepSeeks neues R1-Modell ist ein Riesensprung und mit einer neuen Google App kann man KI lokal auf dem Smartphone nutzen.
Das und vieles mehr gibt es diese Woche im KI-Update, wie immer kompakt für euch zusammengefasst.
📱 Google KI-App Edge
Google hat ohne große Ankündigung eine richtig coole, neue Open Source App veröffentlicht. Aktuell nur für Android die iOS-Version soll aber wohl bald schon folgen. AI Edge heißt die App und ermöglicht es Sprachmodelle auf dem eigenen Smartphone komplett lokal und offline auszuführen und so eine wirklich zu 100 Prozent private Unterhaltung mit der KI zu führen.
Natürlich muss man dazu sagen: Durch die im Vergleich doch immer noch relativ geringe Rechenleistung auch der neuesten Handys kann man hier kein DeepSeek R1 ausführen, aber zum Beispiel die auf Effizienz getrimmten Gemma-Modelle von Google selbst sollen in akzeptablen Geschwindigkeiten laufen. Aber auch andere, kleine Open Source Modelle sind natürlich nutzbar, man ist nicht auf die Google-Modelle beschränkt.
🏟️ LMArena in neuem Look
Die Chatbot Arena hat ein deutlich moderneres Layout bekommen. Unter der normalen Adresse lmarena.ai sieht man jetzt direkt den neuen Chat, der sehr viel aufgeräumter ist, aber immer noch diesselben Funktionen bietet. Man kann im “Battle-Modus” zwei anonyme Modelle gegeneinander antreten lassen und dann abstimmen, welches der beiden die bessere Antwort gegeben hat. Aus all diesen Stimmen von Usern wird dann das Leaderboard, also die Rangliste der Sprachmodelle gebildet, das ebenfalls ein wenig übersichtlicher gestaltet wurde.
An dieser Stelle übrigens auch nochmal der Tipp, vor allem für diejenigen unter euch, die noch nicht die alten Videos von uns zum Thema kennen. Wenn wir im Chat-Bereich auf “Direct Chat” wechseln, dann können wir ein Modell aussuchen und mit diesem chatten. Dabei sind auch viele Modelle, die sonst beim jeweiligen Anbieter nur im kostenpflichtigen Plan enthalten sind, zum Beispiel Claude 4 Opus oder OpenAIs o3. Hier kann man einfach unverbindlich und ohne Anmeldung oder Kosten alle guten und aktuellen Modelle ausprobieren und schauen, ob es sich vielleicht lohnen könnte, einen Premiumplan beim entsprechenden Anbieter zu bezahlen.
🎤 Anthropic bringt Sprachmodus
Anthropic hat einen Sprachmodus für den eigenen Chatbot Claude angekündigt, der in allen Plänen verfügbar sein soll. Leider ist das Ganze zunächst einmal nur Englisch möglich und auch das offizielle Demo-Video hat uns persönlich jetzt nicht extrem überzeugt.
Man merkt hier irgendwie doch deutlich mehr als bei der Konkurrenz, dass es sich um eine KI-Stimme handelt und auch die Verzögerung vor einer Antwort ist im Vergleich zu OpenAI oder Google deutlich größer. Da muss das Team also noch deutlich nachbessern, wenn es ein konkurrenzfähiges Produkt werden soll.
🗣️ Elevenlabs Conversational Agents 2.0
Bleiben wir noch kurz beim Thema und wechseln nur von Anthropic zum absouten Spezialisten: ElevenLabs hat eine neue Version ihrer Conversational Agents vorgestellt, mit denen sie DIE Lösung für Dinge wie Kundenservice Chatbots sein sollen. Diese Sprachassistenten waren schon bis jetzt eigentlich so das Maß der Dinge und haben durch das Update auf 2.0 nochmal einige wichtige Funktionen und Verbesserungen bekommen, die für einen reibungslosen Einsatz sorgen sollen.
Vor allem die Fähigkeit der Agenten zu verstehen, wann ein User vielleicht nur eine kurze Pause zu Nachdenken macht und nicht ständig reinzureden ist für diese Art von KI enorm wichtig. Und auch die neue integrierte Möglichkeit auf Wissen aus eigenen Quellen mithilfe von Retrieval Augmented Generation zurückzugreifen ist sehr sinnvoll. Dabei legt ElevenLabs einen großen Fokus auf Datenschutz und Sicherheit, was natürlich sehr zu begrüßen ist.
🆕 DeepSeek R1 Update
Nachdem es ja lange Gerüchte um ein R2-Modell des chinesischen Anbieters DeepSeek gab, wurde jetzt einfach nur das existierende Modell R1 aktualisiert und verbessert. Was erst einmal nach einer Enttäuschung klingt, ist aber keineswegs zu belächeln. Wenn man sich die neue Version im Vergleich zur alten in den unabhängigen Benchmarks anschaut, dann ist das ein Sprung der vergleichbar ist mit dem Unterschied von OpenAIs o1 zum o3-Modell. Der Fakt, dass DeepSeek das trotzdem als kleines Update des bestehenden Modells verkauft spricht dafür, dass es bei den chinesischen Anbietern keineswegs langsamer weitergeht als bei der US-Konkurrenz.
Und man darf nicht vergessen: DeepSeek, genau wie alle anderen Anbieter aus China, befinden sich aktuell in einer sehr schwachen Position, was die Weiterentwicklung und das Training neuer Modelle betrifft. Denn die USA verbieten immer noch den Verkauf von Nvidia Chips, das bedeutet dieses neue, starke Modell wurde noch nicht einmal mit der Top Hardware entwickelt. Sogar Nvidia Chef Jensen Huang hat sich mittlerweile darüber geärgert. Die Veröffentlichung des neuen R1-Modells war übrigens am selben Tag wie die Veröffentlichung der Quartalszahlen von Nvidia – auch das vielleicht ein subtiler Seitenhieb von DeepSeek, die zeigen, dass sie sich nicht einschüchtern lassen und mit ihrem Top-Modell weiterhin in der obersten Liga mitspielen wollen.
📼 Veo3 täuscht die ganze Welt
Die neue Video-KI von Google sorgt weiterhin für richtig viel Aufsehen und die erzeugten Clips schaffen es immer wieder Menschen zu täuschen. Insbesondere das folgende ist letzte Woche viral gegangen. Im Clip streiten zwei Frauen darüber, ob ein Känguru als Therapie-Tier an Bord eines Flugzeugs darf und man muss ehrlich sein, so absurd die Situation an sich ist, haben wir schon verrücktere Sachen im Internet gesehen. Erst beim genauen hinschauen sieht man beispielsweise an der Hand der einen Frau, dass es sich hier nicht um ein echtes Video handelt. Die Fähigkeiten der Video-Tools werden einfach immer besser und die Gefahr, die durch Fake-News und Desinformation auf einmal so einfach zu erstellen sind, steigt immer mehr.
Aber auch in harmlosen Anwendungen findet diese Art von KI-Tool ihre Fans. So hat ein Veo3 User einen Werbespot ganz mit KI erstellt, indem verschiedene Menschen über die Vorteile eines Medikaments sprechen, welches eigentlich nichts weiter als ein Welpe ist. Das ist schon wirklich beeindruckend und wenn man sich nochmal vor Augen führt, welche Sprünge wir im Bereich Video-KI allein in den letzten 12 Monaten gesehen haben, dann kann sowas schon echt sprachlos machen.
🖼️ Flux Kontext
BlackForestLabs hat neue Modelle für die Bilderzeugung vorgestellt. Unter dem Namen Flux Kontext wurden drei neue Varianten, Pro, Max und Dev vorgestellt, die einige Neuerungen im Gepäck haben. Neben reinen Text-Prompts können die Kontext Modelle auch Bild-Input verarbeiten und unterstützen dabei vor allem auch Konsistenz von Charakteren und das gezielte Bearbeiten von Bildern, ohne das alles auf dem Bild geändert wird. Laut BlackForestLabs sollen die Modelle außerdem schneller sein und damit das interaktive Arbeiten und Erstellen, bzw. Bearbeiten verschiedener Versionen von Bildern angenehmer machen.
Die ersten Beispiele sehen auf jeden Fall beeindruckend aus und viele der führenden Anbieter für die Bilderzeugung mit KI haben Flux Kontext schon ins Angebot mit aufgenommen, unter Anderem Krea.ai und Leonardo.
BlackForestLabs hat aber auch einen eigenen Playground zur Verfügung gestellt, wo man die neuen Modelle direkt testen kann und zumindest mit einem Einmal-Kontingent von Credits auch kostenlos.
🤖 Mistral Agents
Nachdem wir erst vor Kurzem über die neue Bibliotheksfunktion im Le Chat von Mistral berichtet haben, gibt es direkt das nächste, neue Feature im europäischen Chatbot: Agenten. Hier müssen wir allerdings direkt sagen, der Name ist doch etwas unglücklich gewählt. Denn KI-Agenten sind ja ein großes Thema, das aktuell immer heiß diskutiert wird. Gemeint ist dabei in der Regel eine vollständig autonome KI, die selbst Entscheidungen treffen und ausführen kann. Damit haben die Agenten von Mistral nicht so viel zu tun, es handelt sich vielmehr um eine Art eigene Version von Custom GPTs des französischen Konzerns.
Das bedeutet wir können uns einen Agenten im Chat erstellen und dort Systemanweisungen, Wissen und Tools definieren, die dieser Agent nutzen kann. Damit erstellen wir eine Art personalisierte Version des Chatbots, die wir dann selbst verwenden können, aber auch über eine Teilen-Funktion anderen Personen zur Verfügung stellen können.
An sich auf jeden Fall eine coole Sache und eine weitere Funktion im sowieso schon echt guten Mistral Le Chat – nur wie gesagt: einen richtigen KI-Agenten darf man hier nicht erwarten.
👨💻 Perplexity Labs
Die KI-Suchmaschine hat eine neue Funktion mit dem Namen Labs bekommen, die allerdings leider nur für alle mit einem Pro-Plan verfügbar ist. Es handelt sich dabei mehr oder weniger um die Weiterentwicklug der Projects, die es ja schon gab und von der Funktionsweise erinnert es ein bisschen an KI-Agenten wie Manus. Mit Labs kann man nämlich in verschiedensten Bereichen, egal ob es um geschäftliche, kreative oder analytische Aufgaben geht, die KI damit beauftragen eine wirklich tiefgehende Recherche zu betreiben und dann detailliert ausgearbeitete Ergebnisse bekommen.
Es gibt einige Beispiele von Perplexity die zeigen, wie unter anderem ein komplettes Konzept für einen Kurzfilm erstellt wird, mit Charakteren, deren Entwicklung, Moodboards und mehr. In einem anderen Beispiel erstellt die KI ein Dashboard mit möglichen Kunden für eine Gen-AI Firma, das viele wichtige Informationen und spezifische Informationen beinhaltet.
Um diese Reports zu erstellen hat Labs Zugriff auf die gute Suche von Perplexity, kann aber auch selbst Code schreiben und ausführen und arbeitet laut dem Anbieter oft 10 Minuten lang völlig autonom Aufgaben ab, die für die Erreichung des Ziels relevant sind.