Melde Dich für unseren Newsletter an und erhalte alle wichtigen News direkt in dein Postfach!
Google bringt den KI-Modus endlich auch in die Suche nach Deutschland, OpenAI stellt beim Dev Day Apps und neue Agenten-Tools vor, Grok Imagine erstellt kostenlos Bilder und Videos für alle und es gibt die ersten Gerüchte rund um Gemini 3.0 Pro.
Alle wichtigen KI-News der Woche haben wir für Euch wie immer kompakt zusammengefasst.
🤖 Figure 03
Nachdem wir aus dem Bereich KI-Robotik jetzt eine Weile nichts “Spektakuläres” mehr gesehen haben, ist es mal wieder das Unternehmen Figure AI, die mit einem Trailer und einer Ankündigung für heute für Aufmerksamkeit sorgen. Figure 03 ist die neueste Version des humanoiden Roboters und im Trailer sieht das auf jeden Fall sehr beeindruckend aus. Der Roboter bekommt eine Art “Kleidung” aus Textilien und sieht dadurch irgendwie noch menschlicher aus. Es scheint außerdem jede Menge neue Sensoren und Gelenke zu geben, die Figure 03 noch beweglicher und dynamischer machen. Aufmerksamen Beobachtern ist zudem ein Label mit induktivem Laden am Fuß des Roboters aufgefallen, der sich so vermutlich dann einfach auf einem entsprechenden Ladeplatz selbständig mit Strom versorgen kann.
Wir sind echt gespannt, wann wir die ersten richtigen Einsätze dieser neuen Roboter im großen Stil sehen werden – die Technik scheint schon weit zu sein, aber aktuell sind es doch oft noch Demos und Trailer, die wir sehen, weniger konkrete Anwendungen.
🖼️ Grok Imagine 0.9
Groks Bild und Video-Tool Imagine hat ein ordentliches Upgrade bekommen von der Version 0.1 auf die Version 0.9 – auch bei xAI scheint man den Trend der absolut sinnlosen Benennung von Modellen und Versionen also mittlerweile mitzugehen. Abgesehen davon gibt es coole News, denn die neue Version steht aktuell zumindest für alle kostenlos unter grok.com/imagine zur Verfügung und man kann sich so selbst ein Bild davon machen, wie gut das funktioniert.
Wir waren in unseren ersten Tests vor allem von der Geschwindigkeit fasziniert. In einem Wahnsinnstempo werden hier viele verschiedene Versionen eines Bilds erzeugt. Danach kann man einfach mit einem Klick auf den Play-Button das Ganze noch in ein Video umwandeln lassen. Und auch das passiert, wenn man es mal mit der Videoerzeugung von Sora 2 oder Veo 3 vergleicht, richtig schnell. Klar, die Qualität ist vielleicht auch minimal schlechter, aber nicht so weit weg von den aktuellen Marktführern.
Dazu passend haben wir auch einen echt beeindruckenden Vergleich auf Twitter gesehen. Manche erinnern sich ja vielleicht an eines der ersten viralen KI-Videos, wie Will Smith Spaghetti isst. Das wurde jetzt mit Grok Imagine 0.9 nachgebaut und der Vergleich, bzw. Der Fortschritt in gerade mal zwei Jahren ist wirklich beeindruckend.
🔎 KI-Modus bei Google Suche
Es ist endlich so weit: Der AI Mode, oder auf Deutsch KI-Modus, kommt jetzt auch in die Google-Suche in Deutschland und vielen weiteren europäischen Ländern. Mit diesem Modus bringt Google ein komplett neues Sucherlebnis zu uns. Statt einer Liste mit Links bekommen wir eine KI-generierte Antwort, die sich aber im Gegensatz zu einem Chatbot auf sorgfältig recherchierte und kuratierte Quellen aus der Google-Suche stützt. Zur Einführung des KI-Modus haben wir gestern bereits ein eigenes Video auf dem Kanal hochgeladen, das ich euch direkt in der Beschreibung verlinke.
Aber am besten ist es, wenn man es einfach selbst aus unter google.com/aimode oder über den neuen Button direkt in der Google-Suche probiert. Aktuell ist das Ganze noch im Rollout, also wenn es nicht verfügbar sein sollte, einfach später nochmal probieren.
Das Beste daran übrigens: Der KI-Modus der Suche hat nichts mit Gemini oder Abos zu tun und ist für alle kostenlos ohne Limits nutzbar. Da muss sich die Konkurrenz von Perplexity und Co. Definitiv warm anziehen.
⌨️ OpenAI Dev Day Rückblick
OpenAI hat beim diesjährigen Dev Day vor allem vier Neuigkeiten präsentiert. Es wird ab sofort in ChatGPT Apps geben, das bedeutet man kann Funktionalität von Drittanbietern direkt im Chatbot nutzen. Gezeigt wurden Beispiele von initialen Partnern wie Spotify oder Zillow für Immobilien, weitere sollen aber bald folgen. Außerdem haben Entwicklerinnen und Entwickler schon jetzt die Möglichkeit eigene solcher Apps zu programmieren und bald auch einzureichen und damit die über 800 Millionen wöchentlich aktiven ChatGPT User zu erreichen.
Das Thema Agenten wird weiter großgeschrieben und es wurde ein visueller Drag & Drop Editor für das Erstellen von eigenen Agenten gezeigt, die jetzt mit dem Agent Kit funktioniert und somit noch einfacher umzusetzen werden.
Codex wurde weiter verbessert und bietet jetzt eine Slack Integration und ein SDK an und schließlich gab es zwei große Updates für die API. Sowohl das aktuell stärkste und nur im Pro Plan enthaltene GPT-5 Pro Modell, als auch die neue Video-KI Sora in zwei Abstufungen sind ab sofort über die API verwendbar.
Alle News von Dev Day haben wir übrigens in einem eigenen Video ausführlich behandelt – natürlich in der Beschreibung verlinkt.
👾 Google Opal – jetzt international
Nachdem OpenAI mit dem Agent Builder ja jetzt auch ein visuelles Tool für das Erstellen von Agenten hat, scheint sich auch bei Google der Bereich Agenten und KI-Workflows stärker zu bewegen. Opal, ein KI-Tool, das bisher nur in Google Labs existiert wurde jetzt für 15 Länder freigeschalten – leider ohne Deutschland. Mit diesem kleinen Werkzeug, das optisch sehr an den Agent Builder von OpenAI erinnert, kann man ganz einfach Workflows bauen, mit und ohne KI und muss dafür eben auch nicht so tech-affin oder selbst Entwicklerin oder Entwickler sein.
Im Gegensatz zum Agent Builder kann man aber sogar einfach nur in natürlicher Sprache als Prompt eingeben, was man erreichen will – und Opal baut den Workflow selbst für uns zusammen. Wenn das wirklich funktioniert, dann wäre das echt krass.
Die fertigen Workflows können sogar als eine Art kleine App dargestellt und verwendet werden und das sieht schon richtig cool aus muss ich sagen. Sobald wir da auch Zugriff darauf haben, werden wir euch definitiv informieren und das Ganze wirklich auch mal live ausprobieren. Von der Art und dem Feedback her sieht das aber wirklich stark aus, in die Richtung eines neuen NotebookLM-Level-Tools, das aus Google Labs kommen könnte.
🆕 Gerüchte um Gemini 3.0 Pro
Im AI Studio von Google wurde wohl das Gemini-3.0-Pro-Modell in A/B-Tests teilweise ausgespielt. Das haben mehrere User berichtet, die vor allem bei der Erzeugung von SVGs massive Unterschiede festgestellt haben, und die Fähigkeiten des neuen Major-Upgrade-Modells sind wohl ziemlich beeindruckend. Mittlerweile ist der Test wohl wieder beendet, aber es deutet doch alles auf baldige Modell-News aus Richtung Google hin – wohl noch im Oktober. Einige haben sogar ein Release heute im Rahmen des Gemini At Work Livestreams erwartet – das ist aber eher unwahrscheinlich.
Neben Gemini 3.0 Pro stehen übrigens auch Veo 3.1 und ein neues Nano-Bananabild-Modell, das dann auch auf Gemini 3 Pro statt Gemini 2.5 Flash basiert, im Raum. Wenn das alles wirklich noch im Oktober kommen sollte – dann setzt sich Google ziemlich sicher richtig von der Konkurrenz ab. Aber: Noch ist nichts bestätigt, wir halten euch natürlich auf dem Laufenden, wenn die ersten wirklichen Releases kommen.
💻 Gemini 2.5 Computer Use
Ein neues Modell-Release gab es aber tatsächlich schon von Google – das ist nur bei uns ein bisschen im Release des KI-Modus der Suche untergegangen, da es am selben Tag war: Das Gemini 2.5 Computer Use Modell. Klingt erst einmal ein bisschen verwirrend, es handelt sich dabei aber einfach nur um eine Variante des Gemini 2.5 Modells, die darauf spezialisiert ist, autonom einen Computer zu bedienen, also gerade im Kontext von KI-Workflows und Agenten.
Die Benchmarks, die für die Kontrolle von User Interfaces gezeigt wurden, sind durchaus beeindruckend und es ist interessant, dass jetzt auch für diese genaue Anwendung wirklich spezialisierte Modelle trainiert werden. Vor allem, wenn der Trend weiter so stark in Richtung der Agenten geht, muss man sich ja auch darauf verlassen können, dass die KI nicht nur gute Entscheidungen trifft, sondern diese auch souverän und möglichst fehlerfrei in einer Umgebung wie beispielsweise einem Browser ausführen kann.
📹 NotebookLM Video Styles
Die Video-Übersichten von NotebookLM bekommen bald ein Upgrade: Es wird dann möglich sein, die Videos mit ganz verschiedenen Stilen zu visualisieren. Aktuell haben wir ja ein ganz angenehmes, aber doch relativ einseitiges Slide- oder PowerPoint-Format. Die neuen Styles bringen da frischen Wind rein, beispielsweise mit Papercraft, Anime oder Wasserfarben-Illustrationen.
Wir konnten eine kleine Vorschau der Funktion schon beim Google-Event in Berlin sehen, als Steve Johnson, einer der Mitgründer von NotebookLM, uns ein Notebook gezeigt hat, in dem er seine eigene Recherche mit komplett individuellen Illustrationen im Video dargestellt hat. Für diese neuen Stile wird natürlich Nano Banana genutzt, um wirklich einzigartige und nur für diese Video-Übersicht generierte Bilder zu erstellen – und das sieht echt richtig cool aus. Leider können wir noch nicht sagen, wann die neue Funktion überall verfügbar sein wird; wir halten Euch aber selbstverständlich auf dem Laufenden, sollte sich hier etwas tun.