Die KI-News der Woche vom 07.05.2026

8 Minuten Lesezeit

Melde Dich für unseren Newsletter an und erhalte alle wichtigen News direkt in dein Postfach!

NotebookLM bekommt mal wieder nützliche Updates, wir fahren für euch zur Google I/O und ChatGPT wird durch 5.5 Instant für alle User noch besser.

Alle wichtigen KI-News der Woche haben wir für euch wie immer kompakt zusammengefasst.

☁️ Manus Cloud Computer

Manus hat den neuen Cloud Computer vorgestellt, also im Grunde einen dauerhaft laufenden Rechner in der Cloud, auf dem Manus Bots, Python-Skripte, kleine Web-Apps, Datenbanken oder Automatisierungen betreiben kann.

Der Unterschied zur normalen Manus-Session ist wichtig: Die klassische Sandbox ist temporär. Der Cloud Computer läuft rund um die Uhr weiter und behält Dateien, installierte Tools und Projektzustände. Das heißt: Manus kann nicht nur einmalig etwas ausführen, sondern zum Beispiel jeden Morgen Daten scrapen, einen Slack-Bot hosten oder eine Wissensdatenbank pflegen.

Praktisch ist das vor allem für Leute, die Automatisierungen wollen, aber keinen eigenen Server bei AWS, Vercel oder ähnlichen Diensten einrichten möchten. Trotzdem bleibt es natürlich ein Infrastrukturprodukt: Zugangsdaten, Rechte, Datenschutz und laufende Kosten muss man sauber im Blick behalten.

🎤 Doppelte I/O 2026 von Google

Google steht mal wieder kurz vor dem größten Event des Jahres: der Google I/O. Beziehungsweise eigentlich muss man sagen, den beiden I/Os. Denn wie schon 2025 wurde das Thema Android komplett ausgelagert und findet schon eine Woche vorher am 12. Mai als Live-Show auf YouTube statt. Auch da können wir aber sicher schon einiges an KI-Themen erwarten, gerade wo Modelle wie Gemma 4 KI lokal auf dem Handy möglich machen.

Aber kommen wir zum eigentlichen Thema: Google I/O 2026 in Mountain View. Wir sind dieses Jahr tatsächlich das erste Mal live vor Ort. Johannes wird sich das alles genau anschauen, neue Tools und Dinge direkt ausprobieren können und sicherlich auch das ein oder andere Wort mit den Menschen hinter Gemini wechseln. Wir sind auf jeden Fall mega gespannt und wollen uns natürlich auch um die Fragen kümmern, die euch beschäftigen.

⚡ Gemma 4 wird noch besser

Google hat Gemma 4 mit sogenannten Multi-Token-Prediction-Draftern schneller gemacht. Vereinfacht gesagt: Das Modell versucht nicht mehr nur ein Token nach dem anderen zu erzeugen, sondern ein kleineres Drafter-Modell schlägt mehrere kommende Tokens vor, und das größere Modell prüft sie dann parallel.

Google spricht von bis zu dreifacher Geschwindigkeit, ohne Qualitätsverlust bei Ausgabequalität oder Reasoning-Logik. Getestet wurde das unter anderem mit LiteRT-LM, MLX, Hugging Face Transformers und vLLM.

Spannend ist das vor allem für lokale Anwendungen, Agenten und On-Device-Setups. Gerade wenn Modelle auf Consumer-Hardware laufen sollen, ist Geschwindigkeit oft der Engpass. Die MTP-Drafter sind unter derselben Apache-2.0-Lizenz verfügbar wie Gemma 4 und stehen unter anderem über Hugging Face, Kaggle, MLX, vLLM, SGLang und Ollama bereit.

📊 ChatGPT für Excel und Sheets

OpenAI bringt ChatGPT direkt in Excel und Google Sheets. Die Funktion ist aktuell als Beta verfügbar und richtet sich weltweit an ChatGPT Business, Enterprise, Edu, sowie an Plus- und Pro-Nutzer.

Die Idee ist ziemlich klar: ChatGPT sitzt als Sidebar direkt in der Tabelle. Ihr könnt neue Tabellen bauen lassen, bestehende Sheets analysieren, Formeln erklären, Fehler suchen, Szenarien erstellen oder Daten über mehrere Arbeitsblätter hinweg zusammenfassen.

Wichtig ist aber: Das ist weiterhin Beta. OpenAI weist selbst darauf hin, dass man Formeln, Berechnungen, Zitationen und geänderte Zellen prüfen sollte. Für ernsthafte Finanzmodelle heißt das also nicht: einfach blind übernehmen. Aber für Budget-Tracker, Projektpläne, Modell-Cleanup oder erste Analysen kann das ein ziemlich praktischer Produktivitätsschritt sein.

🧠 Neue Funktionen bei Gemini

Gemini bekommt jetzt auch bei uns in Deutschland ein Gedächtnis. Das bedeutet: Wenn wir das wollen, kann sich Googles KI Dinge über uns merken, um uns in Zukunft besser zu unterstützen und kontextuell besser zu helfen. Wenn wir also zum Beispiel immer über dasselbe Thema sprechen, kann Gemini sich daran erinnern und uns Vorschläge und Antworten auch auf Basis vergangener Unterhaltungen liefern.

In den USA ist das schon eine ganze Weile möglich und verbessert die Antworten enorm. Man hat mehr das Gefühl, mit „seinem eigenen“ Chatbot zu sprechen und nicht einfach nur mit einer anonymen KI.

Die neue Erinnerung ist standardmäßig aktiviert, wer das nicht möchte, kann sie aber in den Einstellungen unter Persönlicher Kontext ausschalten.

Außerdem gibt es mehr Möglichkeiten zum Import von Daten aus anderen Chatbots, wenn man zu Gemini wechseln will, aber nicht auf die ganzen Erinnerungen und Chats verzichten möchte, die man dort schon geführt und erstellt hat. Dafür gibt es in den Einstellungen von Gemini zwei neue Import-Funktionen: einmal für die Erinnerungen, also Infos über uns, und einmal für den Chatverlauf. Google will damit den Wechsel zu Gemini so einfach wie möglich machen.

🎨 Edit Mode im AI Studio

Logan Kilpatrick hat einen neuen Edit Mode für AI Studio Vibe Coding angekündigt. Laut seinem Post kann man UI-Komponenten direkt auswählen, schnell bearbeiten, mit einem Pen direkt auf der Oberfläche annotieren und Bild-Assets mit Nano Banana plus Uploads verändern.

Das ist interessant, weil AI Studio damit stärker in Richtung visuelles App-Building geht. Statt nur per Prompt eine Oberfläche zu generieren und danach wieder im Text zu erklären, was anders werden soll, könnt ihr offenbar direkt auf die Stelle zeigen, die geändert werden soll.

Gerade bei Vibe Coding ist das ein wichtiger Schritt. Der größte Reibungspunkt ist oft nicht die erste Version, sondern die zehn kleinen Korrekturen danach: Button hier größer, Bild da austauschen, Layout an dieser Stelle enger. Wenn das zuverlässig funktioniert, wird AI Studio deutlich näher an einem echten iterativen Design- und Coding-Workflow.

🤖 Grok 4.3

xAI hat Grok 4.3 auf der API verfügbar gemacht. Das Modell ist als Reasoning-Modell positioniert, unterstützt Text- und Bildeingaben, Function Calling, strukturierte Outputs und ein Kontextfenster von einer Million Tokens.

Beim Preis liegt Grok 4.3 bei 1,25 Dollar pro Million Input-Tokens und 2,50 Dollar pro Million Output-Tokens. Artificial Analysis gibt dem Modell einen Intelligence-Index von 53 und beschreibt es als stark und vergleichsweise gut bepreist, aber auch als ziemlich „geschwätzig“, also es wird immer ziemlich viel Text erzeugt. Das sieht vielleicht erstmal gut aus, ist aber im Zweifel nicht sehr effizient.

xAI selbst spricht von starkem Tool Calling und niedriger Halluzinationsrate. Wie immer gilt: Benchmarks sind ein guter Startpunkt, aber kein Ersatz für Tests im eigenen Workflow. Für lange Dokumente, Agenten-Workflows und kostensensitive API-Anwendungen ist Grok 4.3 aber auf jeden Fall ein Modell, das Entwicklerinnen und Entwickler im Auge behalten sollten.

💬 GPT-5.5 Instant

OpenAI hat GPT-5.5 Instant vorgestellt. Das ist jetzt das neue Standardmodell in ChatGPT und ersetzt GPT-5.3 Instant. Bezahlte Nutzer können GPT-5.3 Instant noch drei Monate über die Model-Konfiguration nutzen, bevor es eingestellt wird. OpenAI hat die Neuerung außerdem in einem kurzen Video gezeigt.

OpenAI verspricht vor allem klarere, präzisere und persönlichere Antworten. In eigenen internen Tests soll GPT-5.5 Instant bei High-Stakes-Prompts aus Bereichen wie Medizin, Recht und Finanzen 52,5 Prozent weniger halluzinierte Behauptungen erzeugen als GPT-5.3 Instant. Bei besonders schwierigen Gesprächen, die Nutzer vorher wegen Faktenfehlern markiert hatten, sollen falsche Aussagen um 37,3 Prozent zurückgegangen sein.

Außerdem wird Personalisierung aus vergangenen Chats, Dateien und verbundenem Gmail besser genutzt. Neu sind auch Memory Sources: Ihr könnt sehen, welche Erinnerungen oder Chat-Kontexte für eine personalisierte Antwort herangezogen wurden. Das ist sinnvoll, weil Personalisierung nur dann wirklich gut ist, wenn Nutzer auch Kontrolle und Transparenz darüber behalten.

🚀 Anthropic & SpaceX

Anthropic hat gleich zwei Dinge angekündigt: höhere Nutzungslimits für Claude und einen neuen Compute-Deal mit SpaceX. Ab sofort verdoppelt Anthropic die Fünf-Stunden-Limits für Claude Code in Pro, Max, Team und Enterprise-Plänen. Außerdem fällt bei Pro und Max die Reduzierung der Claude-Code-Limits zu Stoßzeiten weg. Auch die API-Limits für Claude-Opus-Modelle werden deutlich erhöht.

Der Grund dahinter ist mehr Rechenkapazität. Anthropic hat laut eigener Aussage mit SpaceX vereinbart, die gesamte Kapazität des Colossus-1-Rechenzentrums zu nutzen. Das sollen mehr als 300 Megawatt neue Kapazität und über 220.000 NVIDIA-GPUs sein, die innerhalb eines Monats dazukommen. Diese zusätzliche Kapazität soll direkt Claude-Pro- und Claude-Max-Nutzern zugutekommen.

Spannend ist auch der Ausblick: Anthropic sagt, man habe Interesse an einer Partnerschaft mit SpaceX für mehrere Gigawatt orbitaler KI-Compute-Kapazität geäußert. Das ist noch keine konkrete Produktankündigung, aber es zeigt ziemlich klar, wo die Reise hingeht: Bei den großen KI-Laboren entscheidet nicht mehr nur das Modell, sondern immer stärker auch, wer genug Strom, Chips und Rechenzentren bekommt.

🗂️ NotebookLM Updates

NotebookLM bekommt gleich mehrere kleinere, aber nützliche Updates. Bei den Mind Maps rollt Google neue Funktionen aus: Man soll Mindmaps gezielter per Prompt steuern können, sie umbenennen und teilen können, und die Navigation zwischen Knoten soll flüssiger werden.

Dazu kommt eine bessere Quellenorganisation. NotebookLM kann Quellen automatisch labeln und kategorisieren, sobald ein Notebook fünf oder mehr Quellen enthält. Die Gruppen lassen sich anschließend umbenennen, neu sortieren und personalisieren.

Das klingt erstmal unspektakulär, löst aber ein echtes Problem. NotebookLM wird gerade dann interessant, wenn man viele PDFs, Webseiten, Videos oder Notizen in ein Projekt wirft. Genau dann wird die Quellenliste schnell unübersichtlich. Mehr Struktur bei Quellen und bessere Mindmaps machen NotebookLM weniger zu einem reinen Chat über Dokumente und mehr zu einem echten Recherche-Arbeitsplatz.

🛠️ Mistral Medium 3.5 & Remote Agents

Mistral hat Medium 3.5 vorgestellt und gleichzeitig Remote Agents für Mistral Vibe angekündigt. Medium 3.5 ist ein dichtes 128B-Modell mit 256.000 Tokens Kontextfenster und soll Instruction Following, Reasoning und Coding in einem Modell zusammenführen.

Mistral veröffentlicht das Modell als Open Weights unter einer modifizierten MIT-Lizenz. Es wird außerdem das neue Standardmodell in Le Chat und ersetzt Devstral 2 im Coding-Agenten Vibe CLI. Beim Preis nennt Mistral 1,50 Dollar pro Million Input-Tokens und 7,50 Dollar pro Million Output-Tokens über die API.

Die Remote Agents sind der eigentlich spannende Produktteil: Coding-Sessions laufen in der Cloud weiter, können parallel gestartet werden, zeigen Diffs, Tool Calls und Fortschritt an und können am Ende Pull Requests öffnen. Dazu kommt ein neuer Work Mode in Le Chat für komplexe Aufgaben mit Tools, Recherche und mehreren Schritten. Auch beim europäischen Lab sieht man also klar den aktuellen Trend: KI-Assistenten wandern vom Chatbot in dauerhaft laufende Arbeitsprozesse.

📄 Dateierstellung in Gemini

Google hat der Gemini-App direkte Dateierstellung gegeben. Nutzer können jetzt per Prompt Dateien erzeugen lassen und direkt herunterladen oder in Google Drive exportieren.

Unterstützt werden Google Docs, Sheets und Slides, aber auch PDF, Word, Excel, CSV, LaTeX, TXT, RTF und Markdown. Google nennt Beispiele wie Budgetvorschläge als Excel-Datei, lose Ideen als strukturierten Entwurf oder das Zusammenfassen von langen Unterhaltungen als einseitiges PDF.

Das ist praktisch, weil der letzte Schritt bei KI-Arbeit oft nervt: Man hat den Text oder die Tabelle im Chat, muss aber alles kopieren, formatieren und in ein echtes Dokument bringen. Gemini verkürzt genau diesen Übergang. Ob die Dateien am Ende sauber genug für professionelle Nutzung sind, muss man natürlich prüfen. Aber für Entwürfe, interne Dokumente und schnelle Arbeitsmaterialien ist das ein klarer Komfortgewinn.

🔎 Gemini Embedding 2

Zum Schluss noch ein Entwickler-Thema: Gemini Embedding 2 ist jetzt allgemein verfügbar. Das Modell bildet Text, Bilder, Video, Audio und Dokumente in einem gemeinsamen Embedding-Raum ab und unterstützt über 100 Sprachen.

Für alle, die RAG-Systeme, semantische Suche oder interne Wissenssysteme bauen, ist das relevant. Statt für Text, Bilder, Audio und Video jeweils eigene Pipelines zu bauen, kann ein Modell verschiedene Medientypen gemeinsam vergleichbar machen. Google nennt Limits wie bis zu 8.192 Text-Tokens, 6 Bilder, 120 Sekunden Video, 180 Sekunden Audio oder 6 PDF-Seiten in einem Call.

Das klingt technisch, hat aber praktische Folgen: Eine Textsuche kann passende Videostellen finden, ein Bild kann als Suchanfrage für ähnliche Inhalte dienen, und Agenten können multimodale Wissensbestände besser durchsuchen. Gerade für Unternehmen mit vielen PDFs, Bildern, Calls und Videos ist das eine wichtige Grundlage für die nächste Generation interner KI-Suche.

Autor

Johannes Ruof
Johannes Ruof ist Mitgründer und Geschäftsführer der Meixner & Ruof UG. Als KI- und Office-Experte betreibt er zusammen mit Timothy Meixner den erfolgreichen YouTube-Kanal Digitale Profis (125.000+ Abonnent:innen).
Alle Beiträge ansehen

Digitale Profis