Melde Dich für unseren Newsletter an und erhalte alle wichtigen News direkt in dein Postfach!
Gameover für OpenAIs Video-KI Sora, Google erstellt jetzt komplette Songs direkt im Gemini Chatbot und ein neues Benchmark stellt die aktuellen Top-Modelle gewaltig auf die Probe.
Alle wichtigen KI-News der Woche haben wir für euch wie immer kompakt zusammengefasst.
🌄 Uni-1 veröffentlicht
Luma Labs hat mit Uni-1 ein neues, multimodales KI-Modell vorgestellt, das die Bilderzeugung grundlegend verändern könnte. Im Gegensatz zu etablierten Diffusionsmodellen wie Midjourney oder Googles Imagen, die Bilder durch einen Entrauschungsprozess generieren, basiert Uni-1 auf einer sogenannten autoregressiven Transformer-Architektur. Dieser Ansatz, ähnlich dem von großen Sprachmodellen, vereint logisches Denken und die eigentliche Bilderzeugung in einem einzigen, integrierten Prozess. Luma nennt dies „Unified Intelligence“. Darüber haben wir ja in einem Update schonmal berichtet.
Jetzt ist das neue Bild-Modell verfügbar und kann von allen kostenlos getestet werden. Die Reaktionen sind überwiegend positiv und es wird oft die überlegene Logik und Kohärenz der Ergebnisse betont, auch wenn diskutiert wird, inwieweit frühere Modelle bereits ähnliche, wenn auch weniger explizite, Reasoning-Fähigkeiten besaßen – vor allem Nano Banana von Google, das jetzt durchaus einen ersten richtig starken Konkurrenten bekommen hat.
🪦 Gameover für Sora
OpenAI hat überraschend die Einstellung seiner Video-App Sora bekannt gegeben, nur sechs Monate nach deren Start. Die App, die als eine Art KI-gestütztes TikTok fungierte, ermöglichte es Nutzern, mittels der „Cameo“-Funktion realistische Deepfakes von sich und anderen zu erstellen. Obwohl die zugrundeliegende Sora-2-Technologie beeindruckend ist, ließ das Nutzerinteresse nach einem anfänglichen Hype stark nach. Die Download-Zahlen sanken von über 3,3 Millionen im November auf rund 1,1 Millionen im Februar.
Ein wesentlicher Grund für die Einstellung dürfte die Kontroverse um die App gewesen sein. Sie wurde als „verherrlichte Deepfake-App“ kritisiert, da Nutzer leicht Fälschungen von öffentlichen Figuren wie Martin Luther King Jr. oder urheberrechtlich geschützten Charakteren wie Mario und Pikachu erstellen konnten. Dies führte zu öffentlichen Protesten und rechtlichen Bedenken. Die Einstellung von Sora hat auch weitreichende geschäftliche Konsequenzen, insbesondere das abrupte Ende eines 1-Milliarden-Dollar-Deals mit Disney, der die Nutzung von deren Charakteren in Sora ermöglicht hätte.
Wie es mit Sora an sich weitergeht, also dem Sora-2 Modell an sich – das ist aktuell nicht wirklich klar. Wir bleiben aber natürlich dran und informieren euch, sobald es da handfeste Infos gibt. Laut einigen Berichten ist das Modell auch aus der API für Entwicklerinnen und Entwickler verschwunden – kein gutes Zeichen.
📊 ARC AGI-3
Die ARC Prize Foundation hat mit ARC-AGI-3 einen neuen Benchmark vorgestellt, der darauf abzielt, die „agentische Intelligenz“ von KI-Systemen zu messen. Im Gegensatz zu traditionellen Benchmarks, die primär auf vorhandenem Wissen basieren, testet ARC-AGI-3 die Fähigkeit einer KI, in neuartigen, interaktiven Umgebungen zu lernen, Ziele zu erfassen und ihre Strategie anzupassen.
Laut den Entwicklern erzielen Menschen eine Effizienz von 100%, während aktuelle KI-Modelle bei unter 1% liegen, was eine erhebliche Lücke zwischen menschlicher und künstlicher Intelligenz aufzeigen soll. Technisch gesehen müssen die KI-Agenten in den spielähnlichen Umgebungen durch Versuch und Irrtum lernen, ohne auf natürliche Sprache oder vorab geladenes Wissen zurückzugreifen. Die Relevanz des Benchmarks liegt in seinem Fokus auf kontinuierlichem Lernen und Anpassungsfähigkeit, was als wichtiger Schritt in Richtung AGI gesehen wird.
Kritiker bemängeln, dass die Bewertungsmethode, die auf der Effizienz im Vergleich zur zweitbesten menschlichen Leistung basiert, die Ergebnisse stark verzerrt und selbst KI-Systeme auf menschlichem Niveau niedrig bewertet. Zudem wird die Definition der menschlichen Baseline als unrealistisch angesehen. Aber ihr könnt das gerne selbst testen: Man kann auf der Website das auch als Mensch “durchspielen” und schauen, wie gut man ist.
Wir sind auf jeden Fall mal gespannt, ob es Google, Anthropic, OpenAI und Co. Schaffen ihre nächsten Modellgenerationen wieder zu “benchmaxxen” und etwas besser abzuschneiden, indem sie den Modellen den ein oder anderen Tipp für diese Aufgabe direkt mitgeben.
🎼 Ganze Songs mit Lyria in Gemini
Google hat Lyria 3 Pro vorgestellt, ein fortschrittliches KI-Modell zur Musikgenerierung, das nun in Gemini und anderen Google-Produkten integriert ist. Die größte Neuerung ist die Fähigkeit, ganze Songs mit einer Länge von bis zu drei Minuten zu erstellen. Im Gegensatz zu früheren Versionen, die nur kurze Clips erzeugen konnten, versteht Lyria 3 Pro nun auch die musikalische Struktur und kann gezielt Intros, Strophen und Refrains komponieren.
Dies ermöglicht eine deutlich größere kreative Kontrolle und die Umsetzung komplexerer musikalischer Ideen. Die Integration erfolgt nicht nur in der Gemini-App für Endnutzer, sondern auch in professionellen Werkzeugen wie Vertex AI für Unternehmen und der Gemini API für Entwickler. Zudem wird Lyria in Google Vids, einer neuen App zur Videoerstellung, verfügbar sein.
Google betont die verantwortungsvolle Entwicklung in Zusammenarbeit mit Künstlern und den Einsatz von SynthID, einem unsichtbaren Wasserzeichen, um alle KI-generierten Audioinhalte eindeutig zu kennzeichnen. Während die verbesserte Audioqualität durchaus spürbar ist, ist in Vergleichen mit Konkurrenten wie Suno AI schon noch etwas Luft nach oben. Aber man kann es eben in Gemini einfach testen und sich selbst ein Bild machen. Hier gibt es einen unserer Versuche zum reinhören.
Das klingt schon ganz ordentlich würde ich sagen und wir sind schon gespannt, wie Google das Angebot weiterentwickeln wird. Im Gegensatz zu OpenAI, die gefühlt grade ja eher dabei sind Features wieder einzustellen – siehe Sora – gibt es bei Google gefühlt jede Woche Neuigkeiten.
🥷🏻 Claude macht OpenClaw Konkurrenz
Letzte Woche hatten wir es schon kurz angeschnitten: Anthropic hat eine bedeutende Erweiterung für sein KI-Modell Claude angekündigt: die „Computer Use“-Funktion inklusive Fernsteuerung. Diese ermöglicht es Claude, direkt auf dem Computer des Nutzers zu agieren, Anwendungen zu öffnen, im Internet zu surfen und Dateien zu bearbeiten. Die Funktion ist Teil von „Claude Cowork“, einem neuen Arbeitsbereich, der es erlaubt, Aufgaben an die KI zu delegieren und fertige Ergebnisse zu erhalten.
Besonders cool ist die Möglichkeit, Claude per Smartphone Anweisungen zu geben, die dann auf dem Desktop-Computer ausgeführt werden. Die neuen Features befinden sich in einer frühen Forschungs-Vorschau und sind zunächst nur für Claude Pro- und Max-Abonnenten auf macOS verfügbar.
Viele sehen darin einen direkten Angriff auf OpenClaw, eine beliebte Open-Source-Plattform für KI-Agenten. Die Reaktionen reichen von Begeisterung über die neuen Möglichkeiten bis hin zu Bedenken hinsichtlich der Sicherheit und der Zukunft von unabhängigen Agenten-Plattformen. Anthropic betont, dass Sicherheitsvorkehrungen getroffen wurden und der Nutzer stets die Kontrolle behält, indem er Aktionen genehmigen muss.
In diesem Bereich gab es sogar nochmal eine Ankündigung, denn Anthropic testet einen neuen Ansatz, bei dem eine KI darüber entscheidet, wie weitreichend oder problematisch eine Aktion des Agenten sein könnte. Dieser Auto Mode soll einen guten Kompromiss zwischen ständigem Absegnen des Users und einigermaßener Sicherheit beim Einsatz von Agenten ermöglichen. Trotzdem ist das natürlich keine finale Lösung, die alle Risiken komplett eliminiert.
⚒️ AI Studio Upgrade
Wir haben es letzte Woche schon angekündigt: Google hat ein ordentliches Upgrade für sein AI Studio vorgestellt, das die Entwicklung von KI-gestützten Anwendungen revolutionieren soll. Kern der Neuerung ist der „Antigravity“ Coding Agent, der es ermöglicht, aus einfachen Texteingaben komplexe, produktionsreife Full-Stack-Webanwendungen zu generieren.
Diese „Vibe-Coding-Erfahrung“ wird durch eine nahtlose Integration von Firebase ergänzt, wodurch Entwickler ohne Umwege auf Datenbanken und sichere Nutzerauthentifizierung zugreifen können. Das System ist nun in der Lage, den gesamten Projektkontext zu überblicken, selbstständig benötigte Web-Technologien wie Framer Motion oder Shadcn zu installieren und über einen neuen Secrets Manager auch externe APIs sicher anzubinden.
Neben den bisherigen Frameworks React und Angular wird nun auch Next.js unterstützt. Dieses Upgrade positioniert das AI Studio als eine leistungsstarke, agenten-gesteuerte Entwicklungsumgebung, die den Prozess von der Idee zur fertigen Anwendung erheblich beschleunigen soll.
📑 Dateien in ChatGPT
OpenAI hat eine neue Funktion namens „Library“ für ChatGPT eingeführt, die es Plus-, Pro- und Business-Nutzern ermöglicht, hochgeladene und erstellte Dateien dauerhaft zu speichern. Diese Dateien, darunter Dokumente, Tabellen und Bilder, werden in einem eigenen, sicheren Cloud-Speicher abgelegt und können über die neue „Library“-Registerkarte in der Seitenleiste der Web-Oberfläche einfach durchsucht und in zukünftigen Konversationen wiederverwendet werden.
Dies vereinfacht den Workflow erheblich, da Dateien nicht mehr für jeden Chat erneut hochgeladen werden müssen. Eine interessante Funktion ist, dass man ChatGPT direkt Fragen zu den gespeicherten Inhalten stellen kann. Die Dateien bleiben so lange gespeichert, bis sie manuell gelöscht werden; das Löschen eines Chats entfernt die zugehörigen Dateien nicht aus der Library.
Der Rollout erfolgt weltweit, wir in Europa müssen uns allerdings wie so oft noch etwas gedulden.
🦥 Unsloth AI
Unsloth AI hat „Unsloth Studio“ veröffentlicht, eine neue Open-Source-Web-Benutzeroberfläche, die das Trainieren und Ausführen von großen Sprachmodellen lokal auf dem eigenen Rechner ermöglicht. Die Software ist mit Mac, Windows und Linux kompatibel und zielt darauf ab, das Feinabstimmen von KI-Modellen erheblich zu vereinfachen.
Zu den Hauptmerkmalen gehören eine No-Code-Oberfläche, die es auch Nutzern ohne Programmierkenntnisse ermöglicht, Modelle anzupassen, sowie Unterstützung für verschiedene Trainingsmethoden wie Full Fine-Tuning, Reinforcement Learning und Pretraining. Unsloth Studio verspricht eine bis zu 2x schnellere Trainingsgeschwindigkeit bei 70% geringerem Speicherverbrauch, was durch eine optimierte Architektur erreicht wird.
Weitere Features sind die Live-Überwachung des Trainings, automatische Parameteroptimierung und „Self-healing Tool Calling“. Diese Entwicklung ist für die KI-Branche durchaus relevant, da sie die Hürden für die Erstellung benutzerdefinierter KI-Modelle senkt und den Prozess echt beschleunigen kann.
🤖 Agile Robots und Google
Agile Robots, ein weltweit führendes Unternehmen für intelligente Robotiklösungen mit Sitz in München, und Google DeepMind haben eine strategische Forschungspartnerschaft bekannt gegeben. Kern der Zusammenarbeit ist die Integration der fortschrittlichen Gemini Robotics-Grundlagenmodelle von Google DeepMind in die bewährte Hardware von Agile Robots.
Ziel ist die Entwicklung von anpassungsfähigen und zur eigenständigen Problemlösung fähigen Robotern für den industriellen Einsatz. Die Partnerschaft soll einen positiven Kreislauf schaffen: Reale Betriebsdaten von Agile Robots‘ bereits über 20.000 installierten Systemen verbessern die KI-Modelle, was wiederum die Fähigkeiten der Roboter erweitert und neue Einsatzmöglichkeiten erschließt.
Der anfängliche Fokus liegt auf hochwertigen industriellen Anwendungsfällen, insbesondere in der Elektronik- und Automobilfertigung. Diese Kooperation unterstreicht den wachsenden Branchentrend zu „Physical AI“, bei dem KI-Software und Roboter-Hardware verschmelzen, um autonome Systeme zu schaffen. Da sind wir mal gespannt, was diese deutsch-amerikanische Zusammenarbeit in Zukunft hervorbringt.
🎨 Figma Canvas
Figma hat seine Plattform für KI-Agenten geöffnet und ermöglicht diesen nun, direkt auf dem Figma Canvas zu agieren. Diese Neuerung, die unter dem Namen „Agents, meet the Figma Canvas“ vorgestellt wurde, soll die Lücke zwischen KI-generierten Designs und bestehenden Design-Systemen schließen.
Bisher wirkten viele durch KI erstellte Entwürfe generisch, da ihnen der Kontext zu markenspezifischen Designentscheidungen fehlte. Durch den direkten Zugriff auf Figma-Dateien und -Komponenten über den Figma MCP-Server und das neue use_figma-Tool können Agenten wie Claude Code oder Codex nun Designs erstellen und bearbeiten, die sich nahtlos in bestehende Systeme einfügen.
Ein zentrales Konzept sind dabei die sogenannten „Skills“. Das sind in Markdown verfasste Anleitungen, die den KI-Agenten das nötige Wissen über den Workflow, die Design-Konventionen und die Markenrichtlinien vermitteln. So lernen die Agenten, wie sie im Sinne des jeweiligen Design-Systems agieren sollen. Figma stellt neun Beispiel-Skills zur Verfügung, die von der Erstellung neuer Komponenten aus einer Codebasis bis zur Synchronisierung von Design-Tokens reichen.
