Google hat gestern ihre jährliche Google I/O Konferenz abgehalten und wir haben alle Ankündigungen und Updates für euch in diesem Artikel zusammengefasst – soviel sei schon mal verraten: es dreht sich natürlich alles um KI.
- AI Search – die Zukunft der Google Suche
- Gemini 1.5 Pro – doppelter Kontext
- Gemini 1.5 Flash – KI-Modell für schnelle Textausgaben
- Gemini Live – Googles Antwort auf ChatGPT Voice
- Project Astra – Der Videoassistent
- Gems – Gemini Varianten mit eigenen Systemprompts
- LearnLM – KI-Unterstützung für Lehrkräfte
- Quizmaster – KI-Tool für YouTube
- Gemini in Gmail – Upgrade mit Agent-Fähigkeiten?
- Circle to Search – Google Lens wird verbessert
- VEO – Googles Antwort auf Sora von OpenAI
- Imagen 3 – Besser als Dall:E 3?
- Unser Fazit
AI Search – die Zukunft der Google Suche
Nachdem die Funktion schon seit einer Weile in den USA getestet wurde, launcht Google jetzt die sogenannten AI Overviews in der Suche. Für bestimmte Suchanfragen soll vom Gemini-Modell unterstützt dann nicht die übliche Liste mit Suchergebnissen angezeigt werden, sondern eine KI-generierte Übersicht, die die Anfrage des Users beantwortet.
Beispielsweise wird etwas Schritt für Schritt beschrieben, oder Informationen von vielen verschiedenen Quellen zusammengetragen werden, das können dabei Text, Bilder oder auch Videos sein.
Dieses ursprünglich noch unter dem Namen Search Generative Experience bekannte Feature stand schon während der Testphase mehrfach in der Kritik, da vor allem Websitebetreiber Google vorwerfen, ihr sorgfältig erarbeiteten Inhalte einfach zu “klauen” und damit ihre Existenzgrundlage zu bedrohen.
Ob das so stimmt, wird sich zeigen, aktuell wissen wir nur, dass die AI Overviews nicht für jede Anfrage generiert werden und Google behauptet selbst, dass von den KI-Übersichten sogar mehr Leute zu den entsprechenden Websites weiterklicken als aus der Suche.
Gemini 1.5 Pro – doppelter Kontext
Googles KI Modell Gemini bekommt in seiner Pro Version ein Update und kann zukünftig doppelt so viel, also zwei statt einer Millionen Token Kontext verarbeiten. Kein anderes Modell auf dem Markt kann aktuell mehr Kontext bieten und Google scheint hier auf einen Vorteil gegenüber der Konkurrenz zu hoffen.
Tokens sind für die meisten von uns aber eher eine abstrakte Maßeinheit, also versuchen wir das mal grob einzuordnen.
Zwei Millionen Tokens bedeuten, dass man in etwa 1.4 Millionen Wörter, zwei Stunden Video oder grob 22 Stunden Audiodaten verarbeiten kann. Aber das sind wirklich nur Einordnungen und in der Praxis läuft es dann doch manchmal etwas anders.
Ansonsten gibt Google an, dass Gemini in eigentlich allen anderen Belangen verbessert wurde. Sprich es soll logischer denken, einem Gespräch besser folgen und neben Bild und Video jetzt auch in der Lage sein Audio besser zu verarbeiten.
Wir werden das auf jeden Fall ausgiebig testen und euch dann sagen, ob wir wirklich einen Unterschied feststellen konnten, da die allgemeine Anzahl der möglichen Tokens zwar eine extrem wichtige Rolle spielt es aber auch nicht zu vernachlässigen ist, wie effektiv das KI-Modell diese Tokens verarbeiten kann.
Dementsprechend kam es in der Vergangenheit schon vor, dass auf dem Papier ein Modell zwar deutlich überlegen war, in der Praxis aber einfach nicht überzeugen konnte. Wir bilden uns unser finales Urteil aber erst dann, wenn wir das Update selbst testen konnten.
Gemini 1.5 Flash – KI-Modell für schnelle Textausgaben
Bei Flash handelt es sich um eine Variante von Gemini 1.5 Pro die zwar Bild, Audio und Text verarbeiten kann, aber ausschließlich Text als Ausgabe generiert. Es macht auf jeden Fall Sinn, dass man eigene Modelle für bestimmte Arbeiten verwendet, um die Ressourcen so effizient wie möglich einzusetzen.
Wenn man ehrlich ist, dann ist ein Großteil der Arbeit mit generativer KI im Alltag tatsächlich nur textbasiert. Also ist diese Entscheidung auf jeden Fall nachvollziehbar.
Gemini Live – Googles Antwort auf ChatGPT Voice
Google hat natürlich auch eine Antwort auf ChatGPT Voice parat. Mit Gemini Live wurde eine Sprachsteuerung für Gemini vorgestellt, die hauptsächlich für die Anwendung auf dem Smartphone ausgelegt ist. Wir können uns aber auch sehr gut vorstellen, dass wir es hier mit der nächsten Generation von Android Auto zu tun haben.
Ziemlich ähnlich wie wir es gestern bei OpenAI gesehen haben, wird auch Gemini Live in der Lage sein direkt auf das Umfeld der User zu reagieren, indem es entweder per Foto oder Video weitere Informationen verarbeitet.
Project Astra – Der Videoassistent
Wenn wir jetzt über Videoinput sprechen, dann sollten wir uns das ebenfalls gestern vorgestellte Project Astra anschauen. Dabei verwendet Google Live Video Aufnahmen in Kombination mit Spracheingabe um eine Liveunterstützung im Alltag zu ermöglichen.
Man hat also eine Art KI-Assistenz mit der man im konstanten Austausch steht und die permanent die eigene Umgebung analysiert.
An sich ist das eine sehr praktische Funktion aber ich bin mir sicher, dass in einem europäischen Büro man keine Erlaubnis für den Einsatz von Astra bekommen würd, um permanent die eigenen Kolleg:innen zu filmen.
Gems – Gemini Varianten mit eigenen Systemprompts
Mit Gems hat Google seine Antwort auf Custom GPTs vorgestellt und möchte damit Usern die Möglichkeit geben eigene Versionen von Gemini zu entwickeln. Entwickeln ist an dieser Stelle vermutlich etwas zu technisch, da man lediglich in einem PopUp eine Art Systemprompt angibt, an den Gemini sich bei den Interaktionen halten soll.
LearnLM – KI-Unterstützung für Lehrkräfte
Bildung ist etwas, das für Google eine tragende Rolle in der Zukunft spielen wird und dementsprechend ist es keine Überraschung, dass Google ein eigenes Sprachmodel vorgestellt hat, das für Bildungsanwendungen feinabgestimmt wurde.
Das Modell LearnLM, das im Moment mit ausgewählten Lehrkräften getestet wird soll vor allem in der Unterrichtsplanung zum Einsatz kommen und die Lehrkräfte dabei unterstützen individueller auf ihre Schülerinnen und Schüler eingehen zu können.
Da wir weltweit mit einem Mangel an Lehrkräften zu kämpfen haben, ist das eine willkommene Entwicklung und hoffentlich etwas, dass wir auch in Deutschland in der Zukunft sehen werden.
Quizmaster – KI-Tool für YouTube
Im weitesten Sinne auch eine Ankündigung im selben Kontext ist Quizmaster. Quizmaster ist eine KI, die dafür optimiert wurde, mit uns über den Inhalt von YouTube Videos zu sprechen. Egal ob wir ein Multiple Choice Quiz möchten oder selbst eine Verständnisfrage stellen wollen, soll Quizmaster in der Lage sein uns hier weiterzuhelfen.
Wenn das wirklich so funktioniert wie in der Demo gezeigt wurde, dann handelt es sich hier natürlich um ein enorm hilfreiches Feature nicht nur für Kinder aber für die gesamte YouTube Community.
Ganz egoistisch gedacht wäre es natürlich auch für uns und unsere Community enorm hilfreich, wenn man einfach bei einem 30 Minuten GPT Tutorial KI Unterstützung bekommt um weitere Fragen zu klären oder vielleicht auch einfach nur eine bestimmte Stelle im Video zu finden.
Bisher muss man dafür relativ unseriöse Plugins benutzen, die leider auch mehr schlecht als recht funktionieren. Wir sind auf jeden Fall gespannt und freuen uns auf dieses Tool.
Gemini in Gmail – Upgrade mit Agent-Fähigkeiten?
Natürlich bekommen wir auch in Gmail KI Unterstützung und auch wenn wir hier schon die ersten Versuchen anstellen konnten sind die Anwendungen, die Google während der IO gezeigt hat dann doch eine Stufe komplexer und hilfreicher.
Aber soviel vorweg, Gemini in Gmail kann eigentlich alles, was wir jetzt auch schon von KI Tools in Email Programmen gewöhnt sind. Es kann Emails für uns zusammenfassen, Entwürfe schreiben und dank der KI Suche kontextbezogener Informationen für uns finden.
Aber es gab einige Anwendungen, die dann doch etwas über die bisherigen Funktionen hinausgingen. So konnte man Rechnungen aus dem Postfach zusammensuchen und in einen Drive-Ordner exportieren, was ein Feature ist, dass wir so bei Copilot in Outlook beispielsweise momentan noch nicht haben.
Google geht sogar soweit, dass sie sagen, dass Gemini einem dabei helfen kann eine Rücksendung zu beantragen und dann die Mail samt Rechnung raussucht und das entsprechende Formular für uns ausfüllen kann. Klingt spannend, ist aber fragwürdig, ob das wirklich so reibungslos funktionieren würde.
Tatsächlich muss man an dieser Stelle aber auch immer betonen, dass in Bezug auf so etwas privates wie Emails natürlich immer eine gewisse Skepsis vorherrscht und vielleicht nicht jede und jeder Google Zugriff auf das gesamte Postfach geben möchte.
Circle to Search – Google Lens wird verbessert
Google versucht die Suche zu verbessern indem es den Nutzerinnen und Nutzern ermöglicht mithilfe des sogenannten Circle to Search Features während einer Suche einfach etwas einzukreisen und dann danach zu suchen.
Ähnlich wie beim Vision Feature von GPT wo man ja ebenfalls etwas hervorheben kann indem man einfach auf dem Screen etwas einkreist, kann man beim Google Feature allerdings nicht nur über den Inhalt chatten sondern eben auch gezielt danach suchen.
Das macht vor allem Sinn wenn man beispielsweise nur ein Foto von einem Gegenstand hat und keine Ahnung wie der Name davon lautet. Bei Circle to Search handelt es sich also in gewisser Hinsicht um eine verbesserte Variante von Google Lens und wir sind gespannt wie sich diese Funktion in unseren Alltag einfügen wird.
Google selbst gibt an, dass das Feature bereits auf 100 Millionen Geräten verfügbar ist und sie diese Zahl bis Ende des Jahres verdoppeln möchten.
VEO – Googles Antwort auf Sora von OpenAI
Auch einen Sora Konkurrenten hat Google vorgestellt und die KI-erzeugten Videos sehen tatsächlich ganz gut aus. Veo ist der Name des Video-Modells und es gibt aktuell eine Waitlist in den USA um das Modell im neuen KI-Tool VideoFX ausprobieren zu können.
Mit Veo kann man Clips von bis zu einer Minute Länge in Full HD erstellen und diesen dann mit verschiedenen Voreinstellungen wie “Cinematic”, “Time Lapse” also Zeitraffer und ähnlichen direkt den passenden Look geben.
Natürlich wissen wir alle mittlerweile, dass es sich bei nicht live gezeigten Beispielen um eine vorsichtig getroffene Auswahl von Videos handelt, die die Stärken des Tools zeigen sollen und man erst einmal abwarten muss, wie sich Veo schlägt, wenn es dann veröffentlicht wird.
Imagen 3 – Besser als Dall:E 3?
Googles Bilderstellungstool Imagen 3, auf dem VEO unter anderem aufbaut hat ebenfalls ein Update bekommen und steht jetzt in der dritten Generation ausgewählten Testpersonen zur Verfügung.
Die Ergebnisse, also die Bilder, können auf jeden Fall überzeugen aber sie sind jetzt kein Quantensprung. Google betont, dass besonders die Texterzeugungsfähigkeiten auf Bildern verbessert wurden und allgemein das neue Modell einfach ein besseres Verständis für die Textprompts der User haben soll.
Womit genau das neue Modell trainiert wurde, hat Google nicht gesagt.
Das mag zwar an sich schön und gut sein, aber hier in Europa können wir in Gemini noch nicht einmal überhaupt irgendeine Form von Bilderzeugung nutzen. Alles was wir als Ausgabe bekommen sind keine beeindruckenden KI-Bilder, sondern “Diese Funktion wird in Kürze zur Verfügung stehen und die Versionshinweise werden aktualisiert, sobald sie verfügbar sind.” – und das seit der ersten Vorstellung des Google-Chatbots vor über einem Jahr.
Unser Fazit
Dementsprechend fällt unser Fazit zur I/O Konferenz 2024 eher verhalten aus. Wir hatten auf mehr gehofft und die KI-Tools, die Google vorgestellt hat, konnten bis auf die verdoppelte Token-Anzahl bei Gemini 1.5 Pro nicht wirklich mehr bieten, als die Konkurrenz.
Insbesondere die fehlenden Möglichkeiten, die neuen Tools selbst auszuprobieren finden wir etwas befremdlich. Für die meisten Dinge, die vorgestellt wurden, gab es keine fixe Daten, wann sie erscheinen werden und alles in allem wirkte die Konferenz nicht so, als sei Google für den zunehmenden Konkurrenzkampf gewappnet.
Aber wir lassen uns natürlich gerne vom Gegenteil überzeugen und freuen uns trotzdem auf die neuen Tools und Updates.