Melde Dich für unseren Newsletter an und erhalte alle wichtigen News direkt in dein Postfach!
OpenAI bringt ChatGPT Images 2.0 und GPT-5.5, DeepSeek kontert mit V4, Kling liefert 4K-KI-Videos und Google verknüpft seine KI-Abos jetzt noch enger mit AI Studio und Deep Research.
Alle wichtigen KI-News der Woche haben wir für euch wie immer kompakt zusammengefasst.
🖼️ ChatGPT Images 2.0
Den Anfang macht diese Woche OpenAI mit ChatGPT Images 2.0. Das neue Bildmodell ist offiziell da und der erste Eindruck ist ziemlich eindeutig: OpenAI ist bei KI-Bildern wieder ganz vorne dabei. Auf der Text-to-Image-Arena steht gpt-image-2 aktuell klar auf Platz 1, vor Googles Nano Banana 2 und Nano Banana Pro. Besonders stark ist der Vorsprung bei Text in Bildern, also genau dem Bereich, in dem KI-Bildgeneratoren lange richtig schlecht waren.
Das Update ist aber nicht nur ein bisschen bessere Bildqualität. OpenAI positioniert Images 2.0 eher als visuelles Reasoning-Modell. Es soll komplexere Prompts besser planen, mehrteilige Layouts wie Poster, Infografiken, Comics oder Präsentationsfolien sauberer umsetzen und auch mit mehreren Sprachen deutlich besser umgehen. Gerade für Creator, Designer und alle, die schnell visuelle Assets brauchen, ist das ein großer Sprung.
Interessant ist auch, wie stark sich der Wettbewerb gerade verschiebt. Vor wenigen Wochen sah es so aus, als würde Google mit Nano Banana 2 den Bildbereich dominieren. Jetzt legt OpenAI direkt nach und setzt sich zumindest in den Arena-Bewertungen klar davor. In unserem Testvideo zu ChatGPT Images 2.0 zeigen wir genauer, was das neue Modell kann. Wie immer gilt: Leaderboards sind nicht alles, und bei echten Workflows zählen auch Preis, Verfügbarkeit und Kontrolle. Aber der Sprung ist definitiv groß genug, dass man ChatGPT Images 2.0 ausprobieren sollte.
🧠 GPT-5.5
Und OpenAI hatte noch mehr im Gepäck: GPT-5.5 ist offiziell vorgestellt worden. Laut OpenAI ist es das bisher stärkste Modell des Unternehmens für echte Computerarbeit, also nicht nur Chatten, sondern Coding, Recherche, Datenanalyse, Dokumente, Tabellen, Tool-Nutzung und längere agentische Aufgaben. Der Fokus liegt ganz klar darauf, dass man weniger kleinteilig führen muss und dem Modell komplexere, unordentliche Aufgaben geben kann, die es dann selbst plant, ausführt und überprüft.
In den Benchmarks sieht das auf jeden Fall ordentlich aus. GPT-5.5 erreicht auf Terminal-Bench 2.0 82,7 Prozent, auf SWE-Bench Pro 58,6 Prozent und auf OSWorld-Verified 78,7 Prozent. Gleichzeitig sagt OpenAI, dass die Latenz ungefähr auf dem Niveau von GPT-5.4 bleibt und das Modell bei Codex-Aufgaben weniger Tokens braucht. Das ist wichtig, weil stärkere Modelle in der Praxis oft daran scheitern, dass sie zwar besser, aber einfach zu teuer oder zu langsam sind.
Verfügbar ist GPT-5.5 in ChatGPT für Plus, Pro, Business und Enterprise, GPT-5.5 Pro für Pro, Business und Enterprise. In Codex gibt es GPT-5.5 auch für Plus, Pro, Business, Enterprise, Edu und Go, dort mit 400.000 Tokens Kontext. Laut Update vom 24. April ist GPT-5.5 inzwischen auch in der API verfügbar. Preislich liegt gpt-5.5 bei 5 Dollar pro Million Input-Tokens und 30 Dollar pro Million Output-Tokens, die Pro-Version bei 30 und 180 Dollar. Das ist nicht billig, aber OpenAI argumentiert hier eben mit höherer Qualität und besserer Token-Effizienz. Wir sind gespannt, wie sich das im Alltag gegen Claude Opus 4.7 und Gemini 3.1 Pro schlägt.
🐋 DeepSeek V4
Passend dazu kommt aus China direkt die Antwort: DeepSeek V4 ist als Preview veröffentlicht und laut DeepSeek sogar Open Source. Es gibt zwei Varianten. DeepSeek-V4-Pro kommt auf 1,6 Billionen Parameter insgesamt, davon 49 Milliarden aktiv. DeepSeek-V4-Flash ist die kleinere und schnellere Variante mit 284 Milliarden Parametern insgesamt und 13 Milliarden aktiven Parametern.
Das große Thema ist hier Kontext und Effizienz. DeepSeek bewirbt V4 mit einem Standard-Kontextfenster von einer Million Tokens, und das nicht nur als Sondermodus, sondern über die offiziellen Dienste hinweg. Technisch setzt DeepSeek dafür auf Token-Kompression und DeepSeek Sparse Attention, um Rechen- und Speicheraufwand bei langen Kontexten zu reduzieren. Beide Modelle unterstützen Thinking und Non-Thinking, sind direkt in der API verfügbar und sollen sowohl mit OpenAI-Chat-Completions als auch mit Anthropic-kompatiblen APIs funktionieren.
Preislich ist DeepSeek wie gewohnt aggressiv. V4-Flash kostet 0,14 Dollar pro Million Input-Tokens und 0,28 Dollar pro Million Output-Tokens. V4-Pro liegt aktuell durch einen zeitlich begrenzten Rabatt bei 0,435 Dollar Input und 0,87 Dollar Output, später sollen es 1,74 und 3,48 Dollar sein. Das ist im Vergleich zu GPT-5.5 natürlich extrem günstig. Die spannende Frage ist also wieder: Wie nah kommt DeepSeek in echten Agenten- und Coding-Workflows an die geschlossenen Top-Modelle heran? In unserem Vergleich von DeepSeek V4 und GPT-5.5 gehen wir darauf genauer ein.
🎬 Kling bringt 4K KI-Videos
Bei KI-Video gibt es ebenfalls eine wichtige Neuerung: Kling AI bringt einen nativen 4K-Modus für die Kling-Video-3.0-Serie. Wichtig ist hier das Wort nativ. Es geht also nicht einfach darum, ein 720p- oder 1080p-Video nachträglich hochzuskalieren, sondern darum, direkt in höherer Auflösung zu generieren.
Für normale Social-Media-Clips ist das vielleicht nicht immer entscheidend, aber für Werbung, Produktvideos, große Displays oder alles, was später in professionellen Produktionsumgebungen landet, ist das ein ziemlich wichtiger Schritt. Denn gerade bei KI-Videos sieht man Schwächen oft erst, wenn man näher ranzoomt: Haut, Stoffe, feine Texturen, Logos oder kleine Bewegungsdetails fallen dann schnell auseinander.
Natürlich muss man auch hier erst einmal abwarten, wie stabil das Ganze in der Praxis ist. Native 4K klingt super, aber wenn Bewegungen, Identität oder Physik nicht mithalten, hilft die Auflösung allein nicht. Trotzdem zeigt Kling damit, wohin die Reise bei KI-Video geht: weg von kurzen Demo-Clips und hin zu Material, das zumindest technisch näher an echten Produktionsanforderungen liegt.
🤖 ChatGPT Workspace Agenten
OpenAI hat außerdem Workspace-Agenten in ChatGPT vorgestellt. Das sind im Grunde Codex-gestützte Agenten für Teams, die gemeinsam genutzt werden können und längere Arbeitsabläufe in der Cloud erledigen. OpenAI beschreibt sie als Weiterentwicklung von GPTs, aber mit deutlich mehr Fokus auf echte Arbeit: Berichte erstellen, Code schreiben, Nachrichten beantworten, Daten aus Tools zusammensuchen oder wiederkehrende Teamprozesse automatisieren.
Spannend ist hier vor allem die Integration in Arbeitsumgebungen. Workspace-Agenten können in ChatGPT und Slack genutzt werden, verbundenen Tools folgen, bei Bedarf Genehmigungen einholen und in der Cloud weiterarbeiten, auch wenn man selbst gerade nicht davor sitzt. Beispiele sind ein Lead-Outreach-Agent für Vertriebsteams, ein Produktfeedback-Agent, der Slack und Support-Kanäle überwacht, oder ein Agent, der jede Woche Kennzahlen abruft, Diagramme erstellt und einen Bericht teilt.
OpenAI legt gleichzeitig viel Wert auf Governance. Admins können festlegen, welche Tools und Daten ein Agent nutzen darf, welche Aktionen Genehmigungen brauchen und wer Agenten erstellen oder teilen darf. Workspace-Agenten sind aktuell als Research Preview für ChatGPT Business, Enterprise, Edu und Pläne für Lehrkräfte verfügbar. Bis zum 6. Mai sind sie kostenlos, danach soll ein Credit-basiertes Preismodell greifen. Das ist ein ziemlich klarer Schritt weg vom individuellen Chatbot hin zur KI-Infrastruktur für ganze Unternehmen.
🌏 China blockiert Meta-Übernahme von Manus
Und noch ein Update zu Manus, über die wir ja Anfang des Jahres schon gesprochen haben. Die geplante Übernahme durch Meta wird jetzt offenbar von China blockiert. Laut Reuters hat die chinesische Entwicklungs- und Reformkommission, also die NDRC, eine ausländische Übernahme des KI-Startups untersagt und die beteiligten Parteien angewiesen, die Transaktion abzubrechen.
Das ist vor allem geopolitisch spannend. Manus gilt als einer der bekanntesten KI-Agenten mit chinesischen Wurzeln und hatte sich zuletzt stark Richtung Singapur und internationale Märkte orientiert. Genau solche Firmen geraten jetzt aber zunehmend zwischen die Fronten: Die USA versuchen China über Chip-Exportkontrollen beim KI-Fortschritt zu bremsen, und China will offenbar verhindern, dass KI-Talent, Know-how und Agenten-Technologie von US-Konzernen übernommen werden.
Für Meta wäre das ein Rückschlag, weil Manus ziemlich gut in Zuckerbergs aktuelle Agenten-Strategie gepasst hätte. Gleichzeitig zeigt die Entscheidung, dass KI-Startups inzwischen nicht mehr einfach normale Tech-Übernahmen sind, sondern immer stärker als strategische Infrastruktur behandelt werden. Gerade bei Agenten, die eigenständig Aufgaben erledigen können, schauen Regierungen offensichtlich noch genauer hin.
🧪 Google KI-Abos im AI Studio
Auch Google verknüpft seine Produkte enger miteinander. Google AI Pro- und Ultra-Abonnenten bekommen jetzt höhere Nutzungslimits in Google AI Studio. Außerdem gibt es Zugriff auf Nano Banana Pro und Gemini-Pro-Modelle direkt in dieser Entwicklerumgebung.
Das klingt erst einmal nach einer kleinen Änderung, ist aber strategisch interessant. Bisher war AI Studio vor allem der kostenlose Spielplatz für Entwickler, während die Gemini-App und die Google-AI-Abos eher Consumer-Produkte waren. Jetzt wird das stärker zusammengeführt. Wer schon für Google AI Pro oder Ultra zahlt, kann in AI Studio mit mehr Luft experimentieren, ohne sofort einen klassischen Pay-per-Request-API-Workflow aufzusetzen.
Für Produktion bleibt laut Google weiterhin die API mit normalem Billing der richtige Weg. Aber für Prototyping und Vibe Coding ist das eine niedrigere Einstiegshürde. Man beschreibt eine App, testet Modelle, nutzt Bildmodelle wie Nano Banana Pro und kann dann später immer noch sauber auf API-Billing wechseln. Das ist ziemlich clever, weil Google damit seine zahlenden Gemini-Nutzer direkter in Richtung Entwickler-Ökosystem zieht.
📣 Pomelli kommt nach Europa
Google Labs bringt sein KI-Marketing-Tool Pomelli jetzt nach Europa. Das Tool ist vor allem für kleine und mittlere Unternehmen gedacht, die schnell professionelle Marketing-Inhalte erstellen wollen, ohne direkt eine Agentur oder ein eigenes Design-Team zu brauchen. Verfügbar ist Pomelli ab sofort in der EU, Island, Liechtenstein, Norwegen, der Schweiz und Großbritannien, vorerst allerdings nur auf Englisch.
Das Spannende ist der Ansatz mit der sogenannten „Business DNA“. Pomelli analysiert eure Website und versucht daraus euren Markenauftritt zu verstehen, also nicht nur Farben, sondern auch Tonalität, Schriftarten und visuellen Stil. Auf dieser Basis schlägt das Tool Kampagnen-Ideen vor und erstellt passende Assets für Websites, Social Media oder Anzeigen. Besonders praktisch klingt die Photoshoot-Funktion: Ihr ladet ein einfaches Produktfoto hoch und Pomelli macht daraus eine professionellere Studio- oder Lifestyle-Aufnahme. Das Ganze ist noch ein Google-Labs-Experiment, aber für kleine Unternehmen könnte das ein ziemlich nützliches Werkzeug werden.
🔎 Gemini Deep Research Max
Zum Schluss bleiben wir bei Google: Deep Research und Deep Research Max kommen in einer neuen Generation. Gebaut ist das Ganze auf Gemini 3.1 Pro und richtet sich vor allem an Entwickler und Unternehmen, die lange, komplexe Recherche-Workflows automatisieren wollen. Deep Research ist dabei die schnellere und effizientere Variante, Deep Research Max ist für maximale Gründlichkeit und asynchrone Hintergrundjobs gedacht.
Das Besondere ist, dass Deep Research jetzt nicht nur das offene Web durchsuchen kann. Über MCP können auch eigene Datenquellen, spezialisierte Datenanbieter, File Stores oder interne Systeme angebunden werden. Dazu kommen Google Search, URL Context, Code Execution, File Search und multimodale Eingaben wie PDFs, CSVs, Bilder, Audio und Video. Damit wird aus einer normalen Web-Recherche eher ein echter Recherche-Agent, der auch mit geschlossenen Unternehmensdaten arbeiten kann.
Neu sind außerdem native Visualisierungen. Deep Research kann Diagramme und Infografiken direkt im Report erzeugen, entweder mit HTML oder mit Nano Banana. Für Analysten, Marktforschung, Finance oder Life Sciences ist das spannend, weil die Ausgabe nicht nur ein langer Textbericht ist, sondern eher ein präsentationsfähiges Recherchepaket. Deep Research und Deep Research Max sind ab sofort als Public Preview in den bezahlten Gemini-API-Tiers verfügbar und sollen später auch in Google Cloud für Startups und Unternehmen kommen. Das ist genau der Bereich, in dem sich gerade alle großen Anbieter positionieren: KI nicht nur als Chat, sondern als autonomer Recherche- und Analyseprozess.
