Melde Dich für unseren Newsletter an und erhalte alle wichtigen News direkt in dein Postfach!
Grok sorgt mal wieder für jede Menge Schlagzeilen, im negativen wie im positiven Sinne, es gibt die ersten handfesten Gerüchte um ein Gemini 3.0 Modell, Veo 3 Videos sind ab sofort auch in Deutschland verfügbar und KI-Browser sind auf dem Vormarsch.
🤦♂️ Skandal um Grok
Bevor wir zu der Grok-Nachricht kommen, die wahrscheinlich viele von euch schon erwarten müssen wir kurz darüber sprechen, was mit Grok auf Twitter passiert ist. Viele haben es erst gar nicht mitbekommen, aber der xAI Chatbot ist am Dienstag und Mittwoch ein bisschen entgleist und hat einiges an Hassrede und mehr als fragwürdige Ansichten von sich gegeben. Wir werden jetzt an dieser Stelle nicht alles zitieren, denn teilweise war es schon sehr grenzwertig, aber um ein paar Beispiele zu nennen, Grok hat sich selbst als MechaHitler bezeichnet oder wiederholt bestimmten Bevölkerungsgruppen die Schuld an allem Schlechten auf der Welt gegeben.
xAI musste natürlich schnell reagieren und hat dem Bot auf Twitter vorerst die Möglichkeit zur unkontrollierten Interaktion entzogen. Stand jetzt scheint es immer noch so zu sein, als ob Grok zwar Bilder erzeugen kann, aber nicht wie es die User gewohnt sind in Textform antworten.
Mitten in dem ganzen Trubel ist dann übrigens auch noch die Geschäftsführerin von X, Linda Yaccarino zurückgetreten. Das muss natürlich nichts mit dem jüngsten Skandal zu tun haben, aber es scheint doch aktuell sehr viel Tumult im ganzen Unternehmen zu geben.
Wir sind gespannt, wie es mit Grok auf Twitter weitergehen wird. Elon Musk betont ja immer, dass eine KI einfach nur “maximally truth seeking” ist, also die “ultimative Wahrheit” erkennen soll, wenn dann allerdings eine Anhimmlung von Diktatoren dabei herauskommt ist das sicher nicht die beste Idee. Und es ist ja nicht das erste Mal, dass sich Grok daneben benimmt, es gab schon in viele verschiedene politische Richtungen zielende Entgleisungen des Bots, der dann in diesen Fällen natürlich doch immer wieder zensiert werden muss.
🆕 Grok 4 veröffentlicht
xAI hat sich anscheinend von dem ganzen Trubel, um das Verhalten von Grok auf Twitter aber nicht davon abbringen lassen, wie geplant die neueste Version des Sprachmodells, bzw. Zwei neue Versionen vorzustellen. Im Livestream wurden heute morgen Grok 4 und Grok 4 Heavy offiziell veröffentlicht und vor allem das bessere Heavy-Modell kann wohl bei einigen Benchmarks beeindruckende neue Maßstäbe setzen.
Besonders hervorzuheben sind drei Ergebnisse: ARC-AGI-2: Bei diesem Test geht es darum, die Fähigkeit der KI zu testen, auch unbekannte Probleme anhand weniger Beispiele zu lösen. Hier kann Grok die Punktzahl des bisherigen Spitzenreiters Opus 4 ca. Verdoppeln.
Humanitys Last Exam: In diesem extrem schwierigen Test, der Fragen auf PhD-Niveau im Bereich der Geisteswissenschaften stellt und als für Menschen unlösbar gilt, erreichte Grok-4 mit Tools eine Punktzahl von 44 % im Vergleich zu ca. 25 bzw. 27% von o3 und Gemini 2.5 Pro.
Und schließlich AIME: Bei diesem Test, der zur Auswahl von Teams für die Internationale Mathematik-Olympiade verwendet wird, erzielte Grok-4 beeindruckende 100 %.
Wie das alles in der Realität dann aussieht müssen wir natürlich wie immer abwarten, was wir jetzt schon sagen können ist, dass auch die technischen Spezifikationen verbessert wurden. Die Modelle verfügen jetzt über ein 256k-Kontextfenster, was etwas mehr ist als bei Konkurrenten wie Claude 3 Opus und Sonnet 4 (beide 200k), jedoch kleiner als bei GPT-4.1 oder Gemini (bis zu 1 Million). Eine weitere, wichtige Änderung ist, dass es sich bei diesen Modellen um reine „Reasoning-Modelle“ handelt, was bedeutet, es gibt keine Möglichkeit Grok 4 ohne Reasoning zu nutzen.
Neben den neuen Modellen wurden ein paar neue Funktionen und Produkte vorgestellt:
Ein neuer Sprachmodus wurde eingeführt, der eine deutlich geringere Latenz als der fortschrittliche Sprachmodus von ChatGPT aufweisen soll.
Für die Grok-App wird jetzt auch ein neuer teurer Abo-Plan für 300 US-Dollar pro Monat angeboten. Das beste Modell Grok Heavy ist natürlich nur in diesem teuren Plan enthalten, aber auch das normale Grok 4 Modell ist nur im 30 Dollar pro Monat Plan verfügbar und nicht in der kostenlosen Variante auf der Website.
Es gab Andeutungen, dass in den kommenden Monaten weitere spezialisierte Modelle folgen werden, darunter ein Programmiermodell, ein multimodales Modell und ein Modell zur Videoerzeugung.
Für Entwicklerinnen und Entwickler ist besonders interessant, dass die neuen Modelle ab sofort über die API verfügbar sind. Die Preise dafür sehen aktuell so aus:
3 US-Dollar pro 1 Million Input-Token und 15 US-Dollar pro 1 Million Output-Token. Damit liegt der Preis auf dem Niveau von Sonnet 4 und ist etwas teurer als bei o3 oder GPT-4.1. Bei der Nutzung eines Kontextfensters von mehr als 128k verdoppelt sich aber der Preis.
👾 Gerüchte um Gemini 3.0
Wie lange Grok die Krone der Modelle bei den Benchmarks erhalten bleibt ist aber schon jetzt fraglich, denn auch bei Google tut sich schon wieder etwas. In ersten Leaks und Screenshots sind jetzt Referenzen auf ein Gemini 3.0 Modell aufgetaucht, was die nächste große Version der Modellfamilie wäre. Einige Entwickler behaupten sogar, schon über Gemini CLI Zugriff auf das Modell bekommen zu haben. Das konnten wir aktuell nicht erreichen, daher würden wir das noch vorsichtig unter Spekulation abspeichern, aber es scheint doch relativ sicher zu sein, dass am neuen Modell bereits hart gearbeitet wird und wir vermutlich im Sommer noch ein Release bekommen könnten.
Dafür spricht auch ein Tweet von Logan Kilpatrick von Google, der gesagt hat, dass die nächsten sechs Monate im Bereich KI wild werden mit einigen Verbesserungen bei Hardware, Modellen und mehr.
Wir sind schon sehr gespannt, denn die Google-Modelle sind aktuell wirklich im Gebrauch unsere absoluten Favoriten.
📼 Veo 3 auch in Deutschland
Aber nicht nur bei den Sprachmodellen tut sich etwas bei Google, auch die Video-KI Veo 3 ist ab sofort in der EU und damit auch in Deutschland verfügbar. Das ist die gute Nachricht – die etwas schlechtere ist, dass man die Video-KI in Gemini aktuell nur mit einem Pro-Abo nutzen kann, also nicht kostenlos. Wer also nicht dafür bezahlen möchte, dem bleibt bei der Video-Erzeugung mit einem Google-Tool weiterhin nur die Variante über das AI Studio, dort ist allerdings nur der Vorgänger Veo 2 verfügbar – zumindest Stand jetzt. Sollte sich daran etwas ändern, erfahrt ihr es bei uns natürlich als erstes. Mit einem Pro-Plan kann man jetzt aber wie gesagt Clips mit 8 Sekunden Länge und Audio erstellen.
Wir sind definitiv gespannt, ob wir jetzt auch noch mehr deutsche KI-Videos in diversen sozialen Netzwerken sehen werden. Google arbeitet übrigens auch weiter daran, diese generierten Videos leichter identifizierbar zu machen. Dafür wird SynthID genutzt, eine Art unsichtbares Wasserzeichen, mit dem sicher geprüft werden kann, ob ein Video mit einer Google KI erstellt wurde. Es ist trotzdem eine nicht ganz ungefährliche Entwicklung, denn ich glaube wir wissen alle, wie leicht viele Menschen heutzutage alles, was sie online sehen für bare Münze nehmen – die Zeit das mithilfe eines Tools auf KI zu prüfen, nehmen sich vermutlich die wenigsten.
📹 Veo 3 Frames
Veo 3 hat sogar noch ein Update bekommen, das wir aber aktuell leider in Deutschland noch nicht verwenden können, denn es steht nur in Flow, dem Videobearbeitungstool von Google zur Verfügung. Es gibt jetzt die Möglichkeit auch Videos mit Audio auf Grundlage eines Ausgangsbilds zu erstellen. Das bietet sich natürlich vor allem für das Erzeugen von Sprechervideos an, und hier haben wir schon einige beeindruckende Beispiele gesehen wie dieses hier.
Die Funktion erlaubt es wie hier gezeigt über Ausgangsframes von derselben Person in unterschiedlichen Settings sehr gut, auch mehrere Video-Szenen zu erstellen, die man gut kombinieren kann und die eine etwas längere Story erzählen können, also die individuellen 8-Sekunden-Clips.
In Flow findet man diese Funktion jetzt unter “Frames to Video”. Es kann dabei sowohl ein Start- als auch ein Endbild festgelegt werden. Ob das Feature auch in die Videoerzeugung im Gemini Chatbot kommt, die wir ja jetzt in Deutschland auch nutzen können und wann, darüber können wir aktuell noch nichts sagen.
💻 Perplexity Comet Browser
Perplexity hat jetzt nach relativ langer Wartezeit den eigenen Browser mit dem Namen Comet veröffentlicht. Dieser Browser hat quasi überall KI integriert und soll so die Art und Weise wie man einen Browser verwendet revolutionieren. Sowohl die Webinhalte als auch eigene Accounts wie zum Beispiel E-Mail, Kalender oder Profile in sozialen Medien werden verbunden und man kann der KI einfach Aufträge geben. Im Demo-Video sieht man beispielsweise, wie Comet in Google Maps einen touristischen Rundgang plant.
Auf der Landingpage bei Perplexity gibt es noch jede Menge weitere Anwendungen, die durch Comet möglich sind. Wir sind da noch ein bisschen unsicher, wie wohl wir uns damit fühlen würden, der KI im Browser wirklich auch Zugriff auf alle unsere Accounts zu geben – auch wenn es vielleicht gut funktioniert.
Aktuell wird der Zugriff auf Comet noch relativ langsam ausgerollt und der Browser steht jetzt direkt nur Usern mit dem teuren Perplexity Max Plan für 200 Dollar im Monat zur Verfügung. Ein paar der ersten Test-Berichte, die wir sehen konnten, sind relativ positiv, wobei natürlich gerade zum Launch auch immer die Frage ist, ob da nicht das ein oder andere Sponsoring im Spiel war.
🖥️ OpenAI Browser
Perplexity bleibt übrigens wohl nicht lange alleine im KI-Browser-Geschäft. Denn nachdem es schon eine ganze Weile lange immer wieder Gerüchte auch um einen OpenAI-Browser als Konkurrenz zu Google Chrome gab, steht auch hier anscheinend ein baldiges Release an.
Auch wenn es von OpenAI selbst kein Statement oder eine offizielle Bestätigung dazu gibt, haben drei Insider gegenüber der Nachrichtenagentur Reuters angegeben, dass OpenAI kurz davor steht ein fertiges Produkt zu haben. Der Gedanke einen eigenen Browser zu entwickeln kommt dabei sicher auch beim ChatGPT-Konzern nicht von ungefähr, denn gerade durch das Browsingverhalten der User und die Eingaben, die dann im Zweifel freiwillig geteilt werden, bekommt das Unternehmen natürlich wieder jede Menge Daten, die für den Bereich KI ja quasi Gold wert sind. Und durch die eigene User-Basis von mittlerweile ca. 500 Millionen wöchtenlich aktiven Usern ist OpenAI vielleicht auch im Vergleich zu Perplexity tatsächlich eine ernstzunehmende Konkurrenz für etablierte Browser wie Chrome, Firefox und Co.
Und während wir bei Perplexity ja aktuell noch den Max-Plan für die Nutzung von Comet brauchen, könnten wir uns gut vorstellen, dass OpenAI hier lieber auf die Masse geht und für das Sammeln von möglichst vielen Daten vielleicht sogar ein kostenloses Angebot auf die Beine stellt.
🕵🏻♂️ Meta AI soll proaktiv werden
Nachdem wir ja letzte Woche viel über die aggressiven Abwerbungsversuche von Mark Zuckerberg gesprochen haben, der bei Meta ein Super-Intelligence-Team aufbaut, gibt es diese Woche Informationen dazu, dass die Chatbots des Unternehmens wohl auch proaktiv werden sollen. Das bedeutet, dass die KI tatsächlich auch von sich aus die User anschreibt. Diese KI mit dem Namen Project Omni soll so die User länger binden und auf der Plattform halten, was für den Konzern natürlich wertvoll ist.
Alignerr, ein Unternehmen, das für Meta Data-Labeling macht, hat als Beispiel einen KI-Chatbot der Film-Empfehlungen macht und dem User eigenständig Nachrichten schreiben könnte wie zum Beispiel diese hier. Auch, wenn das alles aktuell nur ein Test ist, finden wir es ehrlich gesagt ein bisschen unangenehm, zumal der eigentliche Grund von Meta ja wirklich in der Maximierung des Profits und der User Retention liegt. Wir hoffen, dass solche Features, wenn sie kommen, optional bleiben, denn ich glaub nicht jeder von uns will von morgens bis abends auch noch von unterschiedlichen KIs angeschrieben werden.
