Die KI-News der Woche vom 12.03.2026

Die KI-News der Woche vom 12.03.2026

Melde Dich für unseren Newsletter an und erhalte alle wichtigen News direkt in dein Postfach!

NotebookLM bekommt Cinematic Overviews, Google eröffnet das erste AI Center in Berlin, neues Modell und neuer “Lern-Modus” bei ChatGPT, neue Open Source Sprach-KI und vieles mehr.

Alle wichtigen KI-News der Woche haben wir für euch wie immer kompakt zusammengefasst. 

🏬 Google AI Center in Berlin

Google hat in Berlin ein neues AI Center eröffnet. Wir waren zu dieser Eröffnung letzten Donnerstag eingeladen und konnten uns vor Ort ein eigenes Bild machen. Das AI Center soll ein Ort des Austauschs werden für alle KI-Begeisterten, Entwicklerinnen, Entwickler und Partnerunternehmen. Dafür wurden viele Demos gezeigt unter anderem die KI-Sprachassistenz im neuen Mercedes GLE oder KI-Implementationen von Otto, Vodafone oder der Deutschen Bank. 

Neben den Partnern hat Google aber natürlich auch die eigenen Forschungen präsentiert. Google Beam – die Zukunft der Videokonferenzen hat uns dabei ganz schön geflasht. Man kann es in Worten nicht beschreiben und auf Videos sieht man es leider nicht, aber mit dieser Hardware ist eine Videokonferenz, als wäre die andere Person mit im Raum – quasi die Hologramme aus Star Wars im KI-Zeitalter aber wirklich unglaublich realistisch und gut. 

Fast noch cooler fanden wir allerdings die Bemühungen im Bereich Accessibility, die ein Google Team aus München uns gezeigt hat. Hier wird mithilfe von KI Menschen mit Einschränkungen, egal ob beim Hören oder Sehen geholfen ihren Alltag selbstbestimmt und souverän meistern zu können. Und genau für so wichtige Dinge sollte KI unserer Meinung nach auch genutzt werden. Es steht fest auf unserem Zettel für die nächste Zeit mal einen Besuch in München zu machen, da wollen wir nämlich definitv mehr darüber lernen und euch auch berichten.

🎤 Tada Open Source Sprachmodell

Hume AI hat mit TADA – das steht übrigens für Text-Acoustic Dual Alignment und ist nicht nur ein lustiger Name – sein erstes Open-Source-Sprachmodell für die Text-zu-Sprache-Generierung veröffentlicht. Die Kerninnovation ist eine neuartige Architektur, die Text-Token und akustische Audio-Vektoren direkt synchronisiert. 

Das Ergebnis: Das System ist laut Hume AI fünfmal schneller als vergleichbare Modelle und generiert Sprache praktisch ohne Inhaltshalluzinationen. Man kennt es ja vielleicht noch von einigen Sprach-KIs, dass das Audio teilweise so geglitched hat und nicht ganz richtig klang. TADA ist sogar leichtgewichtig genug, um direkt auf Endgeräten zu laufen. Ein Kontextfenster von 2048 Token soll etwa 700 Sekunden Audio abdecken, also schon ziemlich lange. Leider konnten wir es noch nicht selbst testen, da der Space bei Huggingface immer überlastet war, alle Links sind aber natürlich in der Videobeschreibung. 

🎆 Luma Uni-1 Bildmodell

Luma AI hat mit Uni-1 ein neues „unified understanding and generation model“ vorgestellt. Im Gegensatz zu Systemen, die Sprach- und Bildmodelle getrennt behandeln, integriert Uni-1 diese Fähigkeiten in einer einzigen Architektur – eigentlich ziemlich ähnlich wie es Google auch mit den eigenen Nano Banana Modellen macht. Zu diesen Modellen soll Uni-1 auch ein echter Konkurrent werden. 

Das Modell basiert auf einem autoregressiven Transformer und verarbeitet Text und Bilder in einer einzigen Sequenz. Dadurch kann Uni-1 vor und während der Bilderzeugung komplexe logische Schlüsse ziehen. Die Demos auf der Website, wie zum Beispiel das „Piano Aging“ oder die Anpassung an verschiedene Kunststile, sehen wirklich beeindruckend aus. Leider kann man auch Uni-1 aktuell noch nicht selbst testen, aber das wird vermutlich schon bald möglich werden. 

📒 NotebookLM Cinematic Overviews

Google hat für NotebookLM die „Cinematic Video Overviews“ angekündigt. Damit könnt ihr aus euren hochgeladenen Quellen und Notizen automatisch hochwertige Videos erstellen lassen. 

Anstatt nur Text und Bilder nacheinander anzuzeigen, generiert die KI jetzt auch dynamische Visualisierungen, Animationen und Übergänge mit den eigenen Video-Modellen. Das System analysiert die Dokumente, extrahiert die Kernkonzepte und erstellt ein visuelles Skript. Das Feature wird zunächst für „Ultra“-Nutzer in englischer Sprache ausgerollt. Für Studenten, Forscher oder Content Creator könnte das ein extrem praktisches Tool werden, um komplexe Infos schnell zu visualisieren. Die ersten Beispiele, die wir jetzt über die Tage gesehen haben sind allerdings ehrlich gesagt noch durchwachsen – mal schauen, ob sich das noch verbessern kann oder zumindest stabilisiert, sodass man gleichbleibende Ergebnisse bekommen kann. 

🔥 GPT-5.4

OpenAI hat wie vermutet GPT-5.4 veröffentlicht, ein neues Frontier-Modell, das klar auf professionelle Arbeit ausgerichtet ist. Es bündelt die jüngsten Fortschritte in den Bereichen Logik, Programmierung und der Steuerung von agentenbasierten Arbeitsabläufen und ist Stand heute das stärkste Modell von OpenAI – obwohl schon wieder neue Gerüchte aufgetaucht sind, dass wir vielleicht bald nochmal besser KI aus Richtung des ChatGPT Konzerns erwarten können. 

Eine sehr willkommene Änderung: Jetzt hat auch GPT-5.4 hat eine Kontextlänge von bis zu einer Million Tokens also ähnlich wie die Konkurrenz von Geminie und außerdem native Fähigkeiten zur Computernutzung. Damit können Agenten Software bedienen und komplexe Workflows ausführen. OpenAI verspricht zudem eine signifikante Reduzierung von sachlichen Fehlern mit dem neuen Modell.

🧑🏻‍🏫 Interaktives Lernen mit ChatGPT

Ebenfalls von OpenAI: Eine neue Funktion für ChatGPT, die das Lernen von Mathe und Naturwissenschaften interaktiver macht. Statt reiner Texterklärungen gibt es nun dynamische visuelle Erklärungen für über 70 Kernkonzepte direkt im Chat auf der Website. 

Ihr könnt direkt mit Formeln interagieren und die Auswirkungen in Echtzeit auf Graphen beobachten. Das soll ein tieferes Verständnis fördern. Die Funktion wird weltweit für alle ChatGPT-Pläne ausgerollt. Echt ein interessanter Ansatz, auch wenn es natürlich auch kritische Stimmen gibt, die befürchten, dass Schüler sich einfach die Lösungen geben lassen, anstatt selbst zu denken. Aber das kann man ehrlicherweise auch so schon mit ChatGPT und Co. Machen, also da sehen wir jetzt keine neue Verschlechterung, sondern eher ein nettes, neues Feature.

🔂 Mistral Workflows

Mistral AI integriert seine „Workflows“-Funktionalität tiefer in die Endkunden-Plattform „Le Chat“. Bisher war das nur im Playground verfügbar. Zukünftig könnt ihr komplexe, mehrstufige sogenannte Pipelines erstellen und als wiederverwendbare Abläufe direkt in Le Chat nutzen. 

Das ist vor allem für Unternehmen gedacht, um wiederkehrende Aufgaben wie Dokumenten-Sortierung oder Datenextraktion zu automatisieren. Parallel wird auch die Benutzeroberfläche von Le Chat aufgeräumt. Es bleibt aber abzuwarten, ob sich dieses interne Format gegen offenere, skill-basierte Ökosysteme durchsetzen kann, die ja aktuell auch überall aus dem Boden sprießen. 

📹 Meta Vibes

Meta hat jetzt nach nur kurzer Zeit die eigene Vibes AI veröffentlicht. Unter vibes.ai entsteht eine Plattform mit einem projektbasierten Ansatz. Ihr könnt komplexe Projekte anlegen und in einer Timeline bearbeiten. 

Funktionen wie Bild- und Videogenerierung, Bild-zu-Video-Animation und Lippensynchronisation sind bereits verfügbar. Meta positioniert sich damit direkt gegen OpenAI’s Sora und Google Flow. Die Werkzeuge wirken schon sehr ausgereift, auch wenn die Qualität der generierten Inhalte schon noch Luft nach oben hat. 

🦀 Meta kauft Moltbook?

Und nochmal News von Meta: Das Unternehmen hat Moltbook übernommen, ein experimentelles soziales Netzwerk für KI-Agenten. Auf der Plattform können KI-Systeme Nachrichten posten, kommentieren und abstimmen, während menschliche Entwickler zuschauen. 

Das Team hinter Moltbook wird in die Superintelligence Labs von Meta integriert. Das zeigt deutlich, dass Meta die Entwicklung von autonomen KI-Agenten stark vorantreibt und die Lücke zwischen statischen Modellen und autonomen Agenten schließen will. Ob das jetzt wirklich notwendig war ist fraglich – Moltbook hat ja für mehr schlechte als gute Schlagzeilen gesorgt, aber an sich ging es vermutlich sowieso nur um die Köpfe hinter dem Projekt. 

ComfyUI Apps

ComfyUI hat ein neues System vorgestellt, um komplexe Workflows in einfach zu bedienende Apps zu verwandeln. Das System besteht aus dem „App Mode“, dem „App Builder“ und „ComfyHub“. In ComfyUI selbst kann man ja über ein Node-System ganz detaillierte und professionelle Workflows bauen vor allem für Bild- und Videoerzeugung. Das ist natürlich nicht für alle etwas und die neuen Funktionen zielen genau auf diese neue, technisch etwas unerfahrenere Zielgruppe ab. 

Mit dem App Builder könnt ihr konfigurieren, welche Eingaben für den Endbenutzer sichtbar sein sollen. Die fertige App lässt sich dann über eine URL teilen und direkt im Browser ausführen. Das öffnet ComfyUI, das ja eher für seine Komplexität bekannt ist, für ein viel breiteres Publikum.

💻 OpenAI Codex für Windows

OpenAI hat die Desktop-App für seinen KI-Programmierassistenten Codex nun auch für Windows veröffentlicht. Die App dient als Kommandozentrale, mit der ihr mehrere KI-Agenten parallel an verschiedenen Aufgaben arbeiten lassen könnt. 

Mit sogenannten „Skills“ lassen sich die Fähigkeiten über die reine Code-Erstellung hinaus erweitern, zum Beispiel für Projektmanagement oder Cloud-Deployment. Nachdem Codex im Web und in der Mac App sich ja bei Entwicklerinnen und Entwicklern sehr großer Beliebtheit erfreut ist das auf jeden Fall begrüßenswert, dass jetzt auch Windows User nicht mehr nur zuschauen müssen.

🅶 Gemini Workspace Update

Google integriert die KI-Funktionen von Gemini noch tiefer in Docs, Sheets, Slides und Drive. In Docs könnt ihr nun mit „Help me create“ ganze Dokumente aus einer Beschreibung erstellen lassen, wobei Gemini Infos aus dem gesamten Workspace nutzt. 

In Sheets lassen sich Tabellen per natürlicher Sprache erstellen und bearbeiten, und in Slides kann Gemini automatisch Folien generieren. Google positioniert Gemini damit als aktiven, kollaborativen Partner im gesamten kreativen Prozess – ganz ähnlich, wie das der Copilot ja im Microsoft Ökosystem sein soll. Und apropos Copilot, da haben wir auch News:

🤝🏼 Microsoft Copilot Cowork

Microsoft kontert nämlich direkt mit Copilot Cowork, einer neuen Funktionalität in Microsoft 365, die als „agentische KI“ fungiert. Cowork kann komplexe, mehrstufige Aufgaben autonom planen und über verschiedene M365-Anwendungen hinweg ausführen. Eigentlich ziemlich analog zu Claude Cowork, das Anthropic ja schon vorgestellt hat, um auch Nicht-Codern agentische KI an die Hand zu geben. 

Die Technologie bei Copilot basiert auf „Work IQ“ für kontextuelles Verständnis und integriert interessanterweise auch Technologie von Anthropic. Das ist ein klarer Schritt, um Copilot vom reinen Chat-Assistenten zum proaktiven digitalen Mitarbeitenden zu machen.

🔎 Claude Code Review

Anthropic hat „Code Review“ für Claude Code vorgestellt. Wenn Entwickler einen Pull Request auf GitHub einreichen, analysiert ein Team von KI-Agenten den Code parallel auf Fehler, verifiziert die Funde und priorisiert sie nach Schweregrad. 

Das Ergebnis gibt es als Kommentar im PR und als Inline-Anmerkungen. Das System skaliert je nach Größe des Codes. Mit durchschnittlich 15-25 US-Dollar pro Review ist es aber doch eher eine Premium-Lösung für professionelle Teams, die auf hohe Code-Qualität setzen. Für ein persönliches Projekt will man ja nicht bei jedem Pull Request erst einmal 20 Dollar für ein Review zahlen.

↔️ Gemini Embedding 2

Noch ein technisches Update von Google: Gemini Embedding 2 ist da. Es ist das erste vollständig multimodale Einbettungsmodell von Google und kann Text, Bilder, Videos, Audio und Dokumente in einen einzigen Vektorraum abbilden. 

Das Modell unterstützt über 100 Sprachen und versteht nativ verschachtelte multimodale Eingaben. Das vereinfacht die Entwicklung komplexer Anwendungen wie RAG oder semantischer Suche enorm und etabliert einen neuen Leistungsstandard. Wie gesagt: Eher technisch und für viele vielleicht gar nicht interessant, aber gerade, wenn es um das Arbeiten mit eigenen Daten und KI geht auf jeden Fall eine sehr interessante Entwicklung.

🥷🏻 McKinsey AI-Plattform gehackt

Zum Schluss noch eine ziemlich heftige Security-Story: Die interne KI-Plattform „Lilli“ der renommierten Unternehmensberatung McKinsey wurde gehackt. Und zwar nicht von menschlichen Hackern, sondern von einem autonomen KI-Agenten des Security-Startups CodeWall. 

Der Agent fand eine ungeschützte API-Schnittstelle und nutzte eine SQL-Injection, um vollen Lese- und Schreibzugriff auf die Produktionsdatenbank zu erlangen. Das Ausmaß ist enorm: 46,5 Millionen Chat-Nachrichten, über 700.000 Dateien und die Daten von 57.000 User-Accounts waren komplett frei zugänglich. Besonders brisant: Der Agent hätte sogar die System-Prompts umschreiben können, um die KI unbemerkt zu manipulieren. Das zeigt eindrücklich, dass die Absicherung von KI-Systemen und Prompts eine der größten Herausforderungen der nächsten Jahre wird.

Autor

  • Profilbild von Timothy Meixner

    Timothy Meixner ist Mitgründer und Geschäftsführer der Meixner & Ruof UG. Als KI- und Office-Experte betreibt er zusammen mit Johannes Ruof den erfolgreichen YouTube-Kanal Digitale Profis (125.000+ Abonnent:innen).

    Alle Beiträge ansehen
Nach oben scrollen