Die KI-News der Woche vom 12.05.2026

7 Minuten Lesezeit

Melde Dich für unseren Newsletter an und erhalte alle wichtigen News direkt in dein Postfach!

OpenAI testet Werbung in ChatGPT, Thinking Machines zeigt eine neue Art von Echtzeit-KI, und bei Voice, Codex, Claude, Gemini und Stitch gibt es gleich mehrere praktische Updates.

Alle wichtigen KI-News der Woche haben wir für euch wie immer kompakt zusammengefasst.

📣 Anzeigen in GPT

Den Anfang macht OpenAI, und das dürfte für viele ChatGPT-Nutzer ziemlich sichtbar werden: OpenAI testet Anzeigen in ChatGPT. Der Test läuft für eingeloggte erwachsene Nutzer im Free- und Go-Tarif, ursprünglich in den USA. Laut aktuellem Update soll der Pilot in den kommenden Wochen auch nach Großbritannien, Mexiko, Brasilien, Japan und Südkorea ausgeweitet werden. Plus, Pro, Business, Enterprise und Education sollen keine Anzeigen bekommen. Deutschland ist in der aktuellen Liste noch nicht dabei.

OpenAI betont dabei drei Punkte: Die Antworten von ChatGPT sollen nicht durch Anzeigen beeinflusst werden, Anzeigen sollen klar als gesponsert markiert und vom normalen Inhalt getrennt sein, und Werbetreibende sollen keinen Zugriff auf Chats, Chatverlauf, Memories oder persönliche Details bekommen. Gleichzeitig werden Anzeigen aber sehr wohl an den Gesprächskontext und frühere Interaktionen angepasst. Das ist also kein klassisches Banner-Modell, sondern Werbung direkt in der Konversation.

Spannend ist hier weniger, dass OpenAI irgendwann Geld mit Werbung verdienen will. Spannend ist, wo diese Werbung auftaucht: in Momenten, in denen Nutzer gerade Entscheidungen vorbereiten, Produkte vergleichen oder konkrete Pläne machen. Genau deshalb wird entscheidend sein, ob OpenAI die versprochene Trennung zwischen Antwort und Anzeige wirklich sauber hält. Sonst wird aus einem hilfreichen Assistenten sehr schnell eine Shopping- und Empfehlungsmaschine mit Interessenkonflikt.

🧠 Interaction Models von Thinking Machines

Die vielleicht spannendste Research-Story der Woche kommt von Thinking Machines, dem KI-Labor rund um Mira Murati. Das Team hat sogenannte Interaction Models vorgestellt. Die Grundidee: KI soll nicht mehr nur in klassischen Turns funktionieren, also Mensch spricht, Modell wartet, Modell antwortet, Mensch wartet. Stattdessen sollen Modelle Audio, Video und Text kontinuierlich aufnehmen, gleichzeitig reagieren und dabei in Echtzeit mit Menschen zusammenarbeiten.

Thinking Machines beschreibt dafür ein Modell, das mit 200-Millisekunden-Micro-Turns arbeitet. Das Modell kann also hören, sehen, sprechen und nebenbei Tools oder Hintergrundmodelle nutzen, ohne dass die ganze Interaktion einfriert. In den Demos sieht man zum Beispiel, dass das Modell während einer laufenden Unterhaltung reagieren, unterbrechen, übersetzen oder auf visuelle Hinweise eingehen kann. Das fühlt sich deutlich näher an echter Zusammenarbeit an als an einem Chatfenster.

Wichtig ist aber: Das ist erst ein Research Preview, kein Produkt, das ihr heute einfach ausprobieren könnt. Thinking Machines spricht von einem begrenzten Preview in den kommenden Monaten und einem breiteren Release später. Trotzdem ist die Richtung wichtig. Fast alle großen Labore arbeiten gerade daran, KI von einem Frage-Antwort-System zu einem dauerhaften, multimodalen Gegenüber zu machen. Thinking Machines zeigt hier sehr klar, wie diese nächste Interface-Schicht aussehen könnte.

🎙️ GPT Realtime 2

Bleiben wir direkt bei Voice. OpenAI hat neue Realtime-Modelle für die API vorgestellt: GPT-Realtime-2, GPT-Realtime-Translate und GPT-Realtime-Whisper. GPT-Realtime-2 ist dabei das neue große Voice-Modell mit GPT-5-Klasse-Reasoning. Es soll nicht nur schneller sprechen, sondern während der Unterhaltung komplexere Aufgaben lösen, Tools verwenden, mit Unterbrechungen besser umgehen und den Ton natürlicher anpassen.

Für Entwickler gibt es ein paar konkrete Verbesserungen: Der Kontext wächst von 32.000 auf 128.000 Tokens, Tool Calls können parallel laufen, und das Reasoning lässt sich von minimal bis xhigh einstellen. Dazu kommt GPT-Realtime-Translate für Live-Übersetzung aus mehr als 70 Eingabesprachen in 13 Ausgabesprachen und GPT-Realtime-Whisper für Streaming-Transkription. OpenAI hat das Update auch auf X angekündigt.

Auch die Preise sind interessant: GPT-Realtime-2 kostet 32 Dollar pro eine Million Audio-Input-Tokens und 64 Dollar pro eine Million Audio-Output-Tokens, gecachte Inputs liegen deutlich niedriger. Translate kostet 3,4 Cent pro Minute, Whisper 1,7 Cent pro Minute. Das ist klar ein Entwickler-Release, aber die Richtung ist offensichtlich: Voice-Agenten sollen nicht mehr nur Callcenter-Demos sein, sondern echte Arbeitsabläufe live begleiten können.

🧩 Codex in Chrome

OpenAI bringt Codex außerdem direkt in Chrome. Mit der neuen Chrome-Erweiterung für Codex kann Codex Websites und Web-Apps nutzen, bei denen ihr bereits eingeloggt seid, zum Beispiel Gmail, Salesforce, LinkedIn oder interne Tools. Laut OpenAI läuft das über eigene Tab-Gruppen, also nicht so, dass euch Codex einfach euren Browser wegnimmt. Im Changelog steht außerdem, dass Codex parallel über Tabs hinweg im Hintergrund arbeiten kann.

Praktisch ist das vor allem für Aufgaben, die bisher zwischen Code, Browser und Admin-Tool hin- und hergesprungen sind. Also zum Beispiel: Bug reproduzieren, Daten in einem CRM prüfen, ein CMS befüllen, interne Dashboards vergleichen oder einen Workflow in einer Web-App testen. Codex soll weiterhin spezialisierte Plugins bevorzugen, wenn es sie gibt, aber Chrome wird zum universellen Fallback für alles, was bisher hinter Login-Wänden lag. OpenAI hat das Update auch auf X geteilt.

Der Sicherheitsaspekt ist hier aber nicht nebensächlich. Codex fragt standardmäßig pro Website nach Erlaubnis, es gibt Allowlists und Blocklists, und Browser-Historie wird als erhöhtes Risiko behandelt. Für einzelne Nutzer ist das bequem. Für Unternehmen wird die spannende Frage sein, wie viel Kontrolle und Auditierbarkeit sie brauchen, bevor ein Coding-Agent durch eingeloggte Geschäftsanwendungen navigieren darf.

📊 Claude für Office

Anthropic bringt Claude tiefer in Microsoft 365. Auf der neuen Produktseite wird Claude für Microsoft 365 direkt für Excel, PowerPoint, Word und Outlook beschrieben. In Excel soll Claude Zellen erklären, Annahmen aktualisieren und Modelle bauen können. In PowerPoint geht es um Decks in bestehenden Templates, native Charts und Diagramme. In Word stehen Bearbeitung mit Änderungsverfolgung, Kommentare und Unternehmensstile im Fokus. Outlook ist aktuell als Beta markiert und soll Postfächer sortieren, Antworten vorbereiten und Kalenderzeiten finden.

Das klingt sehr nach einem direkten Angriff auf Microsoft Copilot, aber mit einem etwas anderen Schwerpunkt. Anthropic betont, dass Änderungen reviewbar bleiben: Word nutzt Track Changes, Excel hebt Zellen hervor, Outlook-Entwürfe warten auf Freigabe. Nichts soll einfach ungeprüft rausgehen oder gespeichert werden. Auch Claude hat die Neuerung auf X angekündigt.

Für Teams ist der spannende Teil das Arbeiten über App-Grenzen hinweg. Eine E-Mail kann zum Briefing werden, daraus entsteht ein Excel-Modell, daraus eine PowerPoint-Präsentation, und Claude soll den Kontext über diese Schritte hinweg behalten. Das ist genau der Bereich, in dem Büro-KI nützlich wird: nicht als Chatbot neben der Arbeit, sondern als Assistent mitten im normalen Office-Workflow.

⚡ Gemini 3.1 Flash Lite

Google hat Gemini 3.1 Flash-Lite allgemein verfügbar gemacht. Das ist nicht das stärkste Gemini-Modell, sondern eher das schnelle und günstige Arbeitsmodell für hohe Volumen. Der stabile Modellname ist jetzt gemini-3.1-flash-lite, ohne Preview-Zusatz.

Laut Google ist das Modell für niedrige Latenz und kostensensible Workloads gedacht. Es unterstützt Text, Bilder, Video, Audio und PDFs als Input, gibt aber Text aus. Der Kontext liegt bei rund einer Million Input-Tokens, der Output bei bis zu 65.536 Tokens. Außerdem unterstützt Flash-Lite laut Modell-Dokumentation unter anderem Function Calling, strukturierte Outputs, Code Execution, Caching, Batch API und Thinking. Google hat das Modell außerdem im eigenen Blog eingeordnet.

Preislich liegt das Modell bei 25 Cent pro eine Million Input-Tokens und 1,50 Dollar pro eine Million Output-Tokens. Damit ist es vor allem interessant für Dinge wie Klassifikation, Extraktion, Übersetzung, Dokumentenverarbeitung oder als günstiger Router in größeren Agenten-Systemen. Genau da sehen wir gerade einen klaren Trend: Nicht jede Aufgabe braucht das teuerste Top-Modell. Viele Agenten-Workflows werden aus günstigen, schnellen Spezialschritten bestehen. Google AI Studio hat den Release ebenfalls auf X angekündigt.

🎨 Bessere Designs in Stitch

Google hat außerdem bei Stitch nachgelegt. Stitch ist Googles AI-Design-Tool, das aus natürlicher Sprache, Bildern, Text oder Code UI-Entwürfe erzeugen kann. Google hatte Stitch im März schon deutlich stärker als AI-native Design-Canvas positioniert, also nicht nur als Prompt-zu-Screen-Demo, sondern als Arbeitsfläche für frühe Produktideen, Interface-Varianten und Prototypen.

Das aktuelle Update vom Stitch-Account deutet auf bessere Design-Ausgaben hin. Das klingt klein, ist aber für solche Tools entscheidend. Bei UI-Generatoren ist die erste Version oft beeindruckend, aber dann merkt man schnell: Abstände stimmen nicht, Hierarchien sind mittelmäßig, Komponenten wirken generisch. Wenn Google hier wirklich Qualität, Konsistenz und visuelle Entscheidungen verbessert, wird Stitch als Ideation-Tool deutlich nützlicher.

Trotzdem sollte man das richtig einordnen: Stitch ersetzt nicht plötzlich ein sauberes Designsystem, Accessibility-Checks oder erfahrene Produktdesigner. Aber für den Startpunkt, also „Wie könnte diese App aussehen?“, „Welche Richtungen gibt es?“ oder „Mach mir mal schnell drei Varianten für diese Oberfläche“, wird diese Kategorie immer stärker.

📱 Codex Remote Control

Zum Schluss noch ein Gerücht rund um Codex. TestingCatalog berichtet, dass OpenAI offenbar daran arbeitet, Codex direkt aus der mobilen ChatGPT-App steuerbar zu machen. Nutzer hätten kurzzeitig Hinweise auf einen neuen Screen gesehen, der Codex mit ChatGPT verbindet und Remote Control für Codex ankündigt.

Wichtig: Das ist noch nicht offiziell bestätigt. Es passt aber sehr gut zu dem, was OpenAI gerade mit Codex macht. Erst der Desktop-Agent, dann Browser-Zugriff über Chrome, jetzt möglicherweise Mobile-Steuerung. Die Idee wäre: Codex läuft irgendwo auf eurem Rechner oder in einer Entwicklungsumgebung, und ihr könnt vom Smartphone aus nachfragen, nachsteuern, überprüfen oder neue Aufgaben geben.

Wenn das so kommt, wäre Codex weniger ein Tool, das man aktiv am Schreibtisch bedient, und mehr ein laufender Coding-Agent, den man unterwegs überwacht. Genau in diese Richtung bewegen sich auch andere Anbieter. Aber bis OpenAI das selbst ankündigt, bleibt es ein Leak beziehungsweise ein früher Hinweis. Wir behalten das im Auge.

Autor

Johannes Ruof
Johannes Ruof ist Mitgründer und Geschäftsführer der Meixner & Ruof UG. Als KI- und Office-Experte betreibt er zusammen mit Timothy Meixner den erfolgreichen YouTube-Kanal Digitale Profis (125.000+ Abonnent:innen).
Alle Beiträge ansehen

Digitale Profis