Melde Dich für unseren Newsletter an und erhalte alle wichtigen News direkt in dein Postfach!
Jede Menge Nachrichten von Google mit neuem Text to Speech Modell, der Gemini App für Mac und Design Prototyping im AI Studio. Außerdem wird das SeeDance 2.0 Modell global verfügbar und es gibt heiße Gerüchte um ein neues Opus Modell und ein Design Tool von Anthropic.
Alle wichtigen KI-News der Woche haben wir für euch wie immer kompakt zusammengefasst.
🎙️ Google TTS
Google hat mit Gemini 3.1 Flash TTS ein neues Text-to-Speech-Modell vorgestellt. Das Besondere daran: Mit über 200 sogenannten Audio-Tags könnt ihr die Sprachausgabe jetzt unglaublich präzise steuern. Ihr könnt zum Beispiel mitten im Text Tags wie [whispers], [happy] oder [pause] einfügen und so Tonfall, Tempo und Emotion der Stimme lenken. Dazu gibt es eine beeindruckende Auswahl an Akzenten, von amerikanischem Südstaaten-Englisch bis zu verschiedenen britischen Dialekten. Das Modell unterstützt über 70 Sprachen und ermöglicht sogar nativen Multi-Sprecher-Dialog.
Interessant ist auch, dass alle erzeugten Audioinhalte mit einem unsichtbaren SynthID-Wasserzeichen versehen werden, um sie als KI-generiert zu kennzeichnen. In unabhängigen Benchmarks, wie dem von Artificial Analysis, schneidet das Modell sehr gut ab und positioniert sich direkt gegen Konkurrenten wie ElevenLabs. Erste Tester loben die natürliche Sprachqualität, merken aber auch an, dass die Latenz in der Praxis manchmal höher ausfällt als beworben. Ohne gezielte Prompts tendiert die Stimme zudem zu einer sehr neutralen, fast schon „Disney-esken“ Tonalität.
🍏 Gemini App für Mac
Google bringt seinen KI-Assistenten jetzt auch nativ auf den Mac. Die neue Gemini-App lässt sich tief in macOS integrieren und kann jederzeit über das Tastenkürzel „Option + Leertaste“ aufgerufen werden. Das ist besonders praktisch, weil ihr eure aktuelle Anwendung dafür nicht verlassen müsst.
Ein cooles Feature ist die kontextbezogene Unterstützung: Ihr könnt den Inhalt eures aktuellen Fensters direkt mit Gemini teilen, um spezifische Fragen zu Dokumenten oder Code zu stellen. Die App dient auch als Schnittstelle zu Googles kreativen Tools wie der Bilderzeugung. Die Basisversion ist kostenlos, für erweiterte Funktionen braucht ihr allerdings ein „Gemini Advanced“-Abo für rund 20 US-Dollar im Monat. Damit zieht Google im Desktop-Bereich mit OpenAI und Anthropic gleich, die ja beide schon Apps hatten. Die App wurde laut Josh Woodward von Google übrigens in weniger als 100 Tagen von einem kleinen Team gebaut, mit über 100 Features, und komplett nativ in Swift programmiert. Dementsprechend hat die App aktuell auch noch ein paar kleine Macken, aber das wird sicherlich über die nächsten Tage und Wochen noch verbessert.
🤖 Subagents in Gemini CLI
Für die Entwicklerinnen und Entwickler unter euch gibt es Neuigkeiten bei Gemini CLI: Google hat „Subagents“ eingeführt. Das Prinzip folgt dem, was OpenAI mit Codex und Anthropic mit Claude Code schon vorgemacht haben: Spezialisierte Agenten für spezifische Aufgaben, die jeweils ein eigenes Context-Fenster, eigene System Instructions und einen eigenen Tool-Set haben. Der Haupt-Agent fungiert dabei als Orchestrator und delegiert komplexe Aufgaben an die passenden Spezialisten.
Ihr könnt eigene Subagents über einfache Markdown-Dateien erstellen. Standardmäßig sind schon drei dabei, darunter ein „codebase_investigator“ zur Analyse von Code-Strukturen. Das ist ein weiterer Schritt in Richtung Multi-Agenten-Systeme, und spiegelt im Prinzip das, was OpenAI und auch Anthropic in diesem Bereich machen.
🏄 Windsurf 2.0
Windsurf hat mit Version 2.0 ein großes Update bekommen und das zentrale Feature ist das neue Agent Command Center. Nach der Übernahme von Windsurf durch Cognition, die Firma hinter dem autonomen Coding-Agent Devin, werden die beiden Produkte jetzt mehr zusammengeführt. Mit Windsurf 2.0 könnt ihr direkt aus der IDE heraus Aufgaben an Devin in der Cloud delegieren, während ihr lokal weiterarbeitet.
Die Idee ist clever: Lokale Agenten nutzt man für Planung und Prototyping, wo man direkt Hand anlegen will. Cloud-Agenten wie Devin übernehmen Aufgaben, die einfach erledigt werden müssen, ohne dass ihr zuschauen müsst, wie Implementierung, Testing und QA. Das neue Agent Command Center zeigt alle Sessions, lokal und in der Cloud, in einer Kanban-Ansicht nach Status organisiert. Wenn Devin einen Pull Request öffnet, könnt ihr den direkt in Windsurf reviewen, Tests laufen lassen oder an den lokalen Agenten zur Überarbeitung übergeben. Der komplette Workflow von Planen, Delegieren, Überwachen und Reviewen passiert in einem Tool. Devin ist für alle Self-Serve-Tarife verfügbar und Nutzer bekommen sogar bis zu 50 Dollar Bonus-Credits für die erste Devin-Cloud-Session.
🎨 Canvas in NotebookLM
Google testet gerade zwei spannende neue Features für NotebookLM, die auf ein großes Update hindeuten. Zum einen soll es eine Canvas-Funktion geben, mit der ihr aus euren Quellen visuelle oder interaktive Layer generieren lassen könnt. Die ersten entdeckten Prompts deuten auf Möglichkeiten wie interaktive Timelines, Webseiten zum Verständnis von Dokumenten, kleine Lernspiele oder Visualisierungen hin.
Zusätzlich wurde eine neue Connectors-Option in den Einstellungen entdeckt, noch versteckt, aber klar sichtbar. Das deutet darauf hin, dass Google plant, Daten aus anderen Diensten direkt in NotebookLM einzubinden, wahrscheinlich zunächst aus dem eigenen Google-Ökosystem wie Drive und Co. Kombiniert mit kürzlich eingeführten Features zeichnet sich ab, dass NotebookLM zu Google I/O im Mai vermutlich ein großes Update bekommen wird, mit Canvas, Connectors und Personal Intelligence. Für alle, die NotebookLM für Recherche und Lernen nutzen, wird es also nochmal deutlich besser.
🎭 Designs im AI Studio
Logan Kilpatrick, der Product Lead von Google AI Studio, hat ein kleines aber feines Feature vorgestellt: Design Previews im Vibe-Coding-Modus. Wenn ihr im AI Studio eine App bauen lasst, generiert Gemini jetzt während der Wartezeit automatisch mehrere Custom Themes, aus denen ihr einfach auswählen könnt. Statt also zu warten und am Ende mit einem einzigen Design konfrontiert zu werden, seht ihr direkt verschiedene Variationen und könnt das nehmen, was euch am besten gefällt.
Das ist genau einer der Prototyping-Hacks, die Logan selbst gerne nutzt, wenn er Features innerhalb von AI Studio entwickelt. Statt sich auf eine Design-Richtung festzulegen, lässt er sich meist fünf oder sechs Varianten zeigen und klickt sich durch. Das Feature ist bereits für alle verfügbar und macht Vibe Coding, also das Entwickeln von Apps durch natürliche Sprache, nochmal zugänglicher. Besonders für Nicht-Designer eine enorme Hilfe.
⚙️ Claude Code Update
Anthropic macht seine KI zum eigenständigen Mitarbeiter: Mit dem neuen Feature „Routines“ bekommt die Programmier-KI Claude Code einen Autopilot-Modus. Entwickler müssen nicht mehr jeden Schritt manuell anstoßen. Stattdessen kann Claude nun völlig selbstständig in der Cloud arbeiten – sei es nach einem festen Zeitplan oder vollautomatisch, sobald beispielsweise neuer Code in ein Projekt hochgeladen wird. Das Besondere: Die KI arbeitet im Hintergrund weiter, selbst wenn der eigene Rechner zugeklappt ist.
Dazu kommt ein komplett überarbeitetes Desktop-Interface für Claude Code. Die neue Version bringt ein integriertes Terminal, einen schnelleren Diff-Viewer, einen In-App File Editor und einen erweiterten Preview-Bereich. Damit will Anthropic verhindern, dass Entwickler zwischen Claude Code und ihrem Editor hin und her wechseln müssen. Außerdem werden Multi-Session-Workflows unterstützt, weil Entwickler oft an mehreren Projekten parallel arbeiten.
🧠 Berater-Strategie bei Claude
Anthropic hat ein neues Pattern für KI-Agenten vorgestellt: die Advisor Strategy. Die Idee ist eigentlich ziemlich simpel und elegant. Statt für jede Agent-Aufgabe das teure Opus-Modell zu verwenden oder umgekehrt nur mit dem günstigeren Sonnet oder Haiku zu arbeiten, kombiniert ihr beide. Sonnet oder Haiku erledigen als Executor den Großteil der Arbeit, und wenn sie an eine Entscheidung stoßen, die zu komplex ist, konsultieren sie Opus als Berater.
Das Ganze passiert in einem einzigen API-Call über das neue advisor_20260301 Tool. In Benchmarks sind die Ergebnisse beeindruckend: Sonnet mit Opus-Berater schafft 74,8 Prozent auf SWE-Bench Multilingual, also 2,7 Punkte mehr als Sonnet alleine, bei gleichzeitig 11,9 Prozent geringeren Kosten pro Aufgabe. Noch spektakulärer wird es bei Haiku: Auf dem BrowseComp-Benchmark verdoppelt sich die Performance fast, von 19,7 auf 41,2 Prozent. Für alle, die Agents in Produktion betreiben, ist das ein echter Gamechanger, weil ihr Opus-nahe Qualität zu Sonnet- oder Haiku-Preisen bekommt.
🎬 SeeDance 2.0 wird verfügbar
ByteDances Video-Modell Seedance 2.0 ist nach monatelanger eingeschränkter Verfügbarkeit jetzt endlich global auf mehreren Plattformen erhältlich. Das Modell war lange nur in bestimmten Regionen und über Dreamina zugänglich, nachdem es zu Copyright-Streitigkeiten mit Hollywood gekommen war. Jetzt ist es weltweit ausgerollt, und zwar auf vielen Plattformen gleichzeitig: Dreamina als ByteDance-eigene Plattform, Runway für professionelle Creator mit einem Unlimited-Plan für rund 76 Dollar pro Monat, und Krea, wo es auf allen Bezahl-Tarifen verfügbar ist und sogar eine Woche unlimited sowie 50 Prozent Rabatt als Launch-Aktion angeboten wird.
Seedance 2.0 kämpft aktuell um den Platz 1 der Artificial Analysis Text-to-Video-Rangliste und überzeugt vor allem durch starke Bewegungs-Konsistenz, realistische Kamera-Führung und natives Audio. ByteDance hat mittlerweile allerdings auch Sicherheitsmaßnahmen eingebaut: Das Modell blockiert Generierungen mit echten Gesichtern als Referenz und filtert Charaktere aus bekannten IPs wie Disney, Marvel oder Nintendo. Alle Ausgaben enthalten zudem ein unsichtbares Wasserzeichen. Für alle, die professionell mit KI-Video arbeiten, wird Seedance 2.0 damit zu einer der spannendsten Optionen.
💰 Neuer Pro Plan bei OpenAI
OpenAI hat diese Woche einen neuen ChatGPT-Tarif eingeführt: den Pro Plan für 100 Dollar im Monat. Damit schließt OpenAI endlich die Lücke zwischen dem 20-Dollar-Plus-Plan und dem bisherigen 200-Dollar-Pro-Plan. Der neue Tarif richtet sich vor allem an Entwickler, die intensiv mit Codex, dem KI-Coding-Agent von OpenAI, arbeiten. Konkret bekommt ihr 5-mal mehr Codex-Nutzung als im Plus-Plan, und als Launch-Aktion bis Ende Mai sogar 10-mal mehr.
Das ist ganz klar eine direkte Antwort auf Anthropic, die schon länger einen 100-Dollar-Tarif für Claude mit erweiterten Claude-Code-Limits anbieten. OpenAI hat auch gleich verkündet, dass Codex jetzt über 3 Millionen wöchentliche Nutzer hat, mit einem Wachstum von über 70 Prozent pro Monat. Die Preisstruktur bei ChatGPT ist damit komplett neu: Der kostenlose Tarif mit Werbung, der 8-Dollar-Go-Plan mit Werbung, der 20-Dollar-Plus-Plan werbefrei, jetzt der neue 100-Dollar-Pro-Plan und der bestehende 200-Dollar-Pro-Plan mit 20-mal mehr Nutzung als Plus. Beide Pro-Tarife bekommen übrigens Zugriff auf die gleichen Modelle, inklusive GPT-5.4 Pro, der Unterschied liegt nur in den Nutzungslimits.
🚀 Opus 4.7 kurz vor Release
Zum Abschluss noch ein Blick auf Anthropic: Das neue Modell Claude Opus 4.7 steht offenbar kurz vor dem Release. Es wurde bereits auf Google Vertex AI gesichtet. Opus 4.7 soll ein inkrementelles Upgrade zu 4.6 sein, mit Fokus auf verbessertes mehrstufiges logisches Denken und die zuverlässige Ausführung autonomer Aufgaben.
Spannend ist auch die Einführung eines ominösen KI-Design-Tools, mit dem sich Websites und Präsentationen aus Textanweisungen generieren lassen und das Adobe und Figma Konkurrenz machen soll. Damit greift Anthropic etablierte Design-Software-Anbieter direkt an. Nur durch die Ankündigung sind übrigens die Aktienkurse dieser Unternehmen um mehr als 2 Prozentpunkte gefallen.
