Melde Dich für unseren Newsletter an und erhalte alle wichtigen News direkt in dein Postfach!
Google stellt mit Veo 3.1 die neuste Version der eigenen Video-KI vor, die Gerüchte um Gemini 3.0 Pro werden immer mehr und es tauchen beeindruckende Beispiele auf, ChatGPT erzeugt jetzt bald auch “Erotika” und eine dicke Katze täuscht das ganze Internet.
Alle wichtigen KI-News der Woche haben wir für Euch wie immer kompakt zusammengefasst.
🎥 Veo 3.1 von Google veröffentlicht
Ziemlich plötzlich wurde gestern Veo 3.1 von Google veröffentlicht und damit die neuste Version der beeindruckenden Video-KI. Nachdem es schon einige Zeit davor Spekulationen gegegeben hat, auch um ein mögliche Videodauer von bis zu einer Minute und viele weitere spektakuläre Features gleich zu Beginn eine Einordnung: Wie das 3.1 schon andeutet, handelt es sich hier um ein kleineres Upgrade und keine komplett neue Video-KI. Trotzdem gibt es neben den natürlich verbesserten Videos ein paar Neuerungen, die wirklich praktisch sind.
Zum einen kann man erzeugte Videos jetzt bearbeiten. Dazu sehen wir, wenn wir Veo in Google Flow verwenden bei den erzeugten Videos einen Button mit dem Stift und können dann für das Video einen neuen Prompt eingeben. Beispielsweise könnte man so etwas Neues zu einem Video hinzufügen, ohne die Komposition des Original-Videos zu verändern. Die Ingredients-Funktion ermöglicht es bis zu 3 Bilder hochzuladen, die man im Video referenzieren kann, zum Beispiel Outfits oder Räume. Wir haben quasi die Zutatenliste und können daraus ein Video “kochen”, das viel genauer unseren Vorstellungen entspricht.
Die Extend-Funktion wurde verbessert. Videos sind weiterhin nur 8 Sekunden lang, aber die Erweiterung eines Videos, die davor ja schon möglich war, ist jetzt viel besser und berücksichtigt auch Musik oder Dialog, um die Clips nahtlos aneinander zu reihen, wie man in diesem Beispiel schön sehen und hören kann.
Die Start- und End-Frame Funktion wurde ebenfalls für Veo 3.1 freigeschalten und damit kann man einfach präzise die Anfangs- und End-Szene für ein Video festlegen, der Text Prompt dient im Prinzip dann nur dazu die Lücke zu füllen. Hier haben wir schon sehr coole Ergebnisse gesehen und es ist super leicht, das mal selbst zu testen, indem man beispielsweise mit Nano Banana ein paar Start und End-Frames erzeugt und dann mit Veo 3.1 ein Video daraus macht.
Zu guter letzt noch die beste Nachricht: als wir gestern die ersten Meldungen gesehen haben, das Veo 3.1 live ist, waren wir eigentlich auf die übliche Enttäuschung gefasst mit US only oder eben nicht in der EU. Aber: Wir können Veo 3.1 schon jetzt über Google Flow nutzen und auch alle gerade angesprochenen Funktionen sind verfügbar. Und auch im Gemini Chatbot wird die neue Version aktuell ausgerollt, unten wird dann ein kleines Banner angezeigt, wenn Veo 3.1 verfügbar ist.
📹 Sora 2 Updates
Aber auch OpenAI hat schon jetzt erste Updates für die eigene Video-KI Sora 2 veröffentlicht. Pro User können jetzt in der Web-Variante der App Storyboards verwenden. Das ist ja bei Google mit Flow in den Projekten schon jetzt quasi ebenfalls möglich, hier schwinden also die Unterschiede ein bisschen und OpenAI versucht auch hier, wirklich Pro-Features anzubieten für diejenigen, die auch den Preis dafür bezahlen.
Außerdem wurde die Länge der Videos die mit Sora 2 erzeugt werden können nochmal erhöht. In der App und in der Web-Version können jetzt alle User Videos mit bis zu 15 Sekunden Länge erzeugen und für Pro User in der Web-Version sind sogar bis zu 25 Sekunden am Stück möglich. Damit hebt sich Sora 2 doch deutlich von der Konkurrenz ab, bei Veo haben wir hier nur die Möglichkeit die Videos eben immer weiter zu extenden – was aber mit dem neuen 3.1 Update auch echt gut funktioniert. Was die Qualität der erzeugten Videos betrifft sehen wir die beiden Konkurrenten aktuell ziemlich auf Augenhöhe, deshalb sind solche neuen Funktionen und auch einzigartige Features in diesem Konkurrenzkampf enorm wichtig.
🎼 Gemini 3 komponiert Musik
Neben Veo wurden bei Google auch die Gerüchte und Meldungen rund um Gemini 3 immer mehr. Ein besonderes Video, das jetzt aufgetaucht ist, zeigt, dass das neue Google Modell wohl in der Lage sein wird Musik zu komponieren und wiederzugeben.
Das ist wirklich beeindruckend und ein weiteres Indiz dafür, dass Gemini 3 wohl wirklich auch im Bereich Multimodalität neue Maßstäbe setzen könnte. Aber auch abseits der Musik-Komposition kommen immer mehr erste Beispiele ans Licht. So haben User wohl in A/B Tests im Google AI Studio sowohl Mac, Windows als auch Linux Simulationen mit nur einem einzigen Prompt erstellen lassen und das sieht schon wirklich krass aus. Das Release wird allem Anschein nach aktuell noch im Oktober passieren.
👔 Gemini Enterprise
Beim Gemini at Work-Event gab es aber auch schon etwas konkretes von Google und zwar wurde dort Gemini Enterprise vorgestellt. Diese auf Unternehmen ausgelegte Lösung bietet in einer abgeschlossenen Umgebung alle Möglichkeiten mit künstlicher Intelligenz zu arbeiten und dabei auch Zugriff auf eigene Daten und entsprechende Workflows zu haben. Besonders die Agenten, die leider auch wieder grenzwertig irreführend benannt sind, sehen aber auf den ersten Blick wirklich cool aus.
Was zuerst scheint, wie eine einfache Version von Custom GPTs oder Gems kann hier tatsächlich auch alle benötigten Bereiche der eigenen Organisation zugreifen, also Dateien durchsuchen, Kalender und Termine einsehen und so für viele Anfragen wirklich nützliche und anwendbare Ergebnisse liefern. In der Präsentation wurden 6 Komponenten genannt, die Gemini Enterprise ausmachen. The Brains, also die besten Gemini KI-Modelle, The Workbench für das Bauen von “Agenten” in der gesamten Organisation ohne Erfahrung im Coding, The Taskforce, als von Google und Drittanbietern bereitgestellte Out of the Box Agenten für viele Anwendungsfälle, The Context, also der Zugriff auf die eigenen Daten innerhalb der Organisation. Außerdem Governance und Security, also höchste Sicherheits und Datenschutz-Standards für die Arbeit mit KI im Unternehmen und ein Ökosystem von Partnern, die über einen Marktplatz neue Agenten-Lösungen in die Organisationen bringen.
Gemini Enterprise ist ab sofort verfügbar ab 21 Dollar pro User und es gibt eine 30-tägige Trial Version.
📱 Endlich Updates für NotebookLM App
Und noch ein Update von Google: Nachdem wir ja in letzter Zeit quasi jede Woche über ein Update bei NotebookLM berichten, wurde jetzt auch endlich die mobile App also die Version für Smartphones mal wieder richtig aktualisiert. Neben einem komplett neuen Design ist es jetzt auch in der App möglich mehrere Audio Overviews pro Notebook zu erstellen und es sollen wohl auch bald noch einige weitere Udpates folgen. Wir halten euch da natürlich auf dem Laufenden.
Auch für die Website gab es ein Update: Die Videostile, über die wir letzte Woche noch spekuliert haben sind live. Jetzt kann man bei den KI-generierten Videos über die Notebook-Inhalte zwischen einer Auswahl an Stilen wählen und die Ergebnisse, die dann mit Unterstützung des Nano Banana Modells erzeugt werden sehen wirklich cool aus. Probiert das auf jeden Fall mal aus und lasst euch ein Video mit komplett individuellen Illustrationen erstellen.
💃🏽 Erotische Inhalte bei ChatGPT?
OpenAI Chef Sam Altman hat mal wieder für Aufregung gesorgt. In einem Tweet, in dem es eigentlich nur darum gehen sollte, wie sich ChatGPT verhält bezogen auf die “Persönlichkeit” des Chatbots, die ja immer wieder ein Thema war konnte er es sich nicht verkneifen im letzten Absatz davon zu sprechen, dass der Chatbot wohl bald schon “Erwachsene wie Erwachsene” behandeln soll und damit eine Restriktionen wegfallen, die zum Beispiel das Generieren von Erotika betreffen – sofern man ein “Verified Adult” ist. Wir sind uns ziemlich sicher, dass das kein ungeschicktes Versehen von Sam Altman war, der ja schon häufiger mit seinen Aussagen polarisiert hat – ganz nach dem Motto jede Presse ist gute Presse und auch hier wurde ChatGPT natürlich wieder viel Aufmerksamkeit geschenkt.
Der Punkt, den viele etwas bedenklich finden betrifft die Frage, inwieweit dieses “Verified Adult” System, von dem gesprochen wird, wirklich hieb und stichfest sein wird. OpenAI betont, dass der Schutz von Minderjährigen und Personengruppen mit psychischen Problemen oberste Priotität hat und man auch nicht will, dass diese Zugriff auf die neuen “Persönlichkeiten” des Chatbots ohne viel Einschränkungen haben. Gleichzeitig schaffen es ja Prompt Hacker immer wieder, dass auch große Chatbots wie eben ChatGPT, Claude oder Gemini auch komplett verbotene Dinge ausgeben, wie Anleitungen für das Herstellen von Drogen, Waffen, etc. Da stellt sich schon die Frage, ob es dann nicht auch für findige und tech-affine Teenager im Zweifel einfach ist, die “Alterskontrolle” auszuhebeln.
🔸 Claude Haiku 4.5
Anthropic hat ein neues Modell vorgestellt. Nach Sonnet, also der mittleren Größe, wurde jetzt das kleine, schnelle Haiku Modell auf die Version 4.5 aktualisiert. Einzig das Top-Modell Opus, also das größte aus der Claude Familie ist jetzt noch in der vorherigen Version 4 – mal schauen, wann auch hier das Update erfolgen wird.
Zum neuen Haiku Modell muss man sagen, dass es eine für die Größe ganz beeindruckende Leistung bringt, zumindest laut ersten Benchmarks. Es scheint in etwa auf dem Niveau von Sonnet 4 zu liegen und das bei viel höherer Geschwindigkeit und, was für viele vermutlich deutlich wichtiger ist, nur einem Drittel der Kosten für die Nutzung über die API. Die Geschwindigkeit ist aber auch echt beeindruckend, wir sehen in einem Beispiel von Anthropic wie das neue Modell in Claude Code arbeitet und dort rasend schnell Änderungen an einer App vornimmt.
Trotzdem denke ich, dass die meisten Entwicklerinnen und Entwickler dann doch gerade beim Arbeiten an echten Apps, ein paar Sekunden länger in Kauf nehmen, für ein besseres Modell und bessere Ergebnisse.
Ⓜ️ Meta Abwerbungen gehen weiter
Nachdem wir eigentlich das Gefühlt hatten, das große “Personal-Plündern” von Meta bei der KI-Konkurrenz sei durch, gab es jetzt nochmal einen echten Paukenschlag. Andrew Tulloch, einer der Mitgründer von Mira Muratis Thinking Machines Lab, geht wohl zum Facebook Konzern. Das ist vor allem deshalb spannend, weil Tulloch die Personalie ist, die vor einiger Zeit angeblich schon ein Angebot von Mark Zuckerberg abgelehnt hat. Bei diesem Angebot standen wohl für die nächsten paar Jahre Lohn und Vergütungen von insgesamt ca. 1,5 Milliarden US Dollar im Raum – für nur eine Person, das muss man sich mal vorstellen, völlig absurd.
Auch wenn damals nichts offiziell bestätigt wurde, stellt sich natürlich die Frage, warum Andrew jetzt doch zu Meta geht und dafür die Ex-OpenAI CTO Mira Murati und ihr gemeinsames Unternehmen verlässt. Ob er jetzt noch mehr Geld geboten bekommen hat? Das werden wir wohl nie erfahren, aber fest steht: Meta baut weiter am KI-Dream Team und wir sind schon sehr gespannt, ob das nächste Release dann wirklich auch mal wieder überzeugen kann und nicht wie Llama 4 im Spott endet.
🔎 Google KI-Modus für alle
Nachdem wir letzte Woche ja schon darüber berichtet haben ist jetzt der KI-Modus in der Google Suche flächendeckend auch in Deutschland ausgerollt. Wir waren selbst ein bisschen enttäuscht, da es nach dem offiziellen “Launch” am Mittwoch vor einer Woche, dann bis vorgestern gedauert hat, bis wir auch Zugriff darauf hatten, aber jetzt ist laut unseren Infos, der neue Modus für alle wirklich da.
Probiert es auf jeden Fall mal aus, einfach in die Google Suche gehen und dann den KI-Modus Button verwenden. Hier würde uns wirklich eure Erfahrung interessieren, also schreibt uns mal alle in die Kommentare, wie ihr diese neue, kostenlose Funktion in der Google Suche so findet, und wie ihr die Ergebnisse vielleicht auch im Vergleich zur “normalen” Suche bewertet.
🐈⬛ KI-Katze täuscht alle
Zum Ende nochmal ein lustiges und gleichzeitig ernstes Thema, das durch ein “Experiment” im Internet-Forum Reddit Aufmerksamkeit bekommen hat. Ein User hat dort Fotos und Videos seiner übergewichtigen ägyptischen Katze “Pound Cake” gepostet und alle, die es interessiert hat über den “Weight Loss Journey”, also die Diät von Pound Cake auf dem Laufenden gehalten. Schließlich gab es dann irgendwann einen Beitrag, dass die Katze es leider nicht geschafft hat und gestorben ist, was viele User traurig gemacht hat und zahlreiche Beileids-Kommentare zur Folge hatte.
Viele von euch ahnen wahrscheinlich schon, worauf das hinausläuft: Pound Cake war nie echt, sondern alle Fotos und Videos stammen von KI. Und hier wird es interessant: Als ganz zu Beginn der Fake Stories, einige User die Beiträge als KI-generiert gemeldet haben, wurden diese sogar von den Moderatoren des Reddit-Forums zurechtgewiesen und die Einwände beiseite gewischt.
Die ganze Story zeigt bei allem Humor aber einmal mehr ein etwas bedenkliches Phänomen. Schon mit dem heutigen Stand der Technologie, die ja gefühlt jedes halbe Jahr doppelt so gut wird, kann man fast alle Menschen, die nicht so sehr in der Bubble stecken wie wir, aber auch viele von euch, die uns schon lange abonniert haben einfach täuschen. Wir sehen das immer mehr, gerade in den sozialen Medien und ganz ehrlich: Selbst wir müssen jetzt schon oft zweimal hinkucken und wirklich daran denken, dass KI-Fakes eben existieren, damit wir alles richtig erkennen. Dass die Allgemeinbevölkerung, die sich nicht so mit dem Thema auskennt da keine Chance hat ist keine Überraschung.
