Die KI-News der Woche vom 17.04.2025

8 Minuten Lesezeit

Melde Dich für unseren Newsletter an und erhalte alle wichtigen News direkt in dein Postfach!

OpenAI stellt gleich eine ganze Reihe von neuen, beeindruckenden Modellen vor, Googles Veo 2 und Kling 2.0 heben Video-KI auf die nächste Stufe und ein neues, chinesisches Bild-Modell macht der GPT-Bilderzeugung den ersten Platz streitig.

👾 OpenAI o3 und o4-mini

Es wurde ja seit einigen Tagen schon so ein bisschen angedeutet. OpenAI hat seine neuen Reasoning‑Modelle o3 sowie o4‑mini vorgestellt – und zwar nicht nur als Lab‑Demo, sondern direkt in ChatGPT Plus, Pro, Team & Enterprise sowie in der API. Das Spannende daran: Die Modelle dürfen sämtliche Tools (Web‑Suche, Python‑Interpreter, Dateianalyse, Bildgenerierung …) selbstständig kombinieren, denken dabei länger nach und liefern in der Regel trotzdem eine Antwort in unter einer Minute.

Erste Benchmarks klingen ganz gut: o3 setzt sich beim Programmier‑Wettbewerb Codeforces, dem SWE‑bench‑Bug‑Fix‑Corpus und auf MMMU an die Spitze, während o4‑mini beim AIME‑Mathewettbewerb 2024/25 sogar größere Brüder aussticht. OpenAI spricht von 20 % weniger gravierenden Fehlern gegenüber dem bisherigen o1‑Flaggschiff, vor allem in Coding, Business‑Analysen und kreativer Ideenfindung.

An dieser Stelle muss man allerdings betonen, dass in den Benchmarks lediglich die eigenen Modelle verglichen wurden und das für viele aktuell beste Modell Gemini 2.5 Pro hier beispielsweise gar nicht vorkommt.

Bei einer ersten Analyse von Artificial Analysis konnte sich Stand jetz o4-mini auf den ersten Platz setzen und Gemini 2.5 knapp schlagen, zum Zeitpunkt als wir das Video aufnehmen steht die Bewertung von o3 noch aus, kann aber auf der Website einfach dann nachgelesen werden, wenn es soweit ist – der Link dazu ist in der Beschreibung.

Im Bereich der Arbeit mit visuellen Inhalten legen die beiden O-Modelle auch zu: Erstmals können die Modelle Bilder direkt in ihre „Chain of Thought“ einbinden, sie on‑the‑fly drehen, zoomen oder beschriften und so Bild‑ mit Textlogik verknüpfen. Damit rücken komplexere Aufgaben mit Bildern, Screenshots oder sogar Diagrammen in greifbare Nähe. Besonders im Bereich der Digitalisierung von alten eingescannten Dokumenten oder schlechten Screenshots kann man hier mit einer echten Arbeitserleichterung rechnen.

OpenAI betont zudem ein komplett überarbeitetes Safety‑Training mit neuen Refusal‑Prompts für Biorisiken, Malware‑Erstellung und Jailbreaks. Ein internes LLM‑Safety‑Monitor soll 99 % riskanter Prompts erkennen; laut Preparedness Framework bleiben beide Modelle unter allen „High‑Risk“‑Schwellen. Was dadurch, dass ChatGPT für viele Menschen immer mehr Teil ihres Alltags wird natürlich auch immer mehr an Relevanz gewinnt.

Ein paar Worte noch zu o4-mini. Mini klingt ja immer etwa abwertend aber das ist hier nicht der Fall. o4‑mini zielt klar auf Geschwindigkeit und Kosteneffizienz. Und dank höherer Rate Limits dürfte es für High‑Throughput‑Workloads interessant werden – also zum Beispiel tägliche Reporting‑Pipelines oder Chatbots mit vielen gleichzeitigen Sessions.

Für Entwicklerinnen und Entwickler gab es auch eine ganz coole Nachricht. Ein Schmankerl für Devs kommt parallel mit Codex CLI: Ein Open‑Source‑Terminal‑Agent (github.com/openai/codex) verbindet o‑Modelle mit dem lokalen Dateisystem und kann sogar multimodale Funktionen nutzten also quasi Bild‑Screenshots inklusive. Das Projekt wird mit einem 1 Mio $ Funding Topf gefördert und dieses Funding wird in Form von API Credits im Wert von bis zu 25.000$ pro Projekt ausgeschüttet. OpenAI möchte hier einfach Menschen motivieren auch auf lokaler Ebene die neuen Modelle ausgiebig zu testen.

Abschließend wurde noch angekündigt, dass ein paar Dinge noch in der Pipeline für die nahe Zukunft sind. In ein paar Wochen soll ein o3‑pro mit vollem Tool‑Support veröffentlicht werden, außerdem teasert OpenAI in den Release Notes eine stärkere Verschmelzung von o‑Reasoning‑Power mit GPT‑Konversationsfähigkeiten an. Man darf also gespannt sein, wie sich ChatGPT künftig als Agent für mehrstufige Workflows entwickelt – völlig autonomes Task‑Handling inklusive Web‑Recherche, Code‑Ausführung und Bild‑Output scheint nach diesen Updates greifbar nahe. Wir testen aktuell die neuen Modelle ausgiebig und werden nächste Woche vermutlich unsere finalen Ergebnisse in einem eigenen Video zusammenfassen. Der Ersteindruck ist schon wirklich gut und ich finde es gibt definitiv eine Verbesserung zu den anderen Modellen, was mich persönlich aber besonders interessiert sind eben diese verbesserten Fähigkeiten im Bereich visueller Inhalte. Da müssen wir aber aktuell einfach noch ein bisschen Testen bevor wir ein klares Fazit auch im Vergleich mit den anderen führenden Modellen ziehen können.

⌨️ GPT 4.1 in der API

Nach dieser gewaltigen Ankündigung von OpenAI ist das andere Update des ChatGPT Konzerns fast untergegangen: Das neue GPT-4.1 Modell, dass zwei Tage früher vorgestellt wurde. Dieses finden wir im Gegensatz zu den neuen o-Modellen aber nicht in ChatGPT, sondern es wurde rein für die Nutzung über die API entwickelt. GPT-4.1 ist übrigens das Modell, dass unter dem Namen Quasar Alpha die letzten Wochen für viel Aufregung gesorgt hatte, vor allem durch die sehr gute Leistung im Bereich Code und den Kontext von einer Million Tokens. Auch das ist für OpenAI eine absolute Premiere und übersteigt den Kontext der bisherigen Modelle um ein Vielfaches. Wir konnten selbst noch nicht viel mit dem neuen Modell experimentieren, aber die ersten Berichte scheinen durchaus positiv zu sein: Vor allem im Bereich Programmierung bietet OpenAI hier jetzt ein starkes, effizientes Modell an, das endlich auch durch die mögliche Menge der Informationen, die es verarbeiten kann deutlich konkurrenzfähiger geworden ist.

🔎 Claude bekommt Research Funktion

Auch bei Anthropic gab es eine sehr interessante Ankündigung, die uns leider noch nicht betrifft, aber hoffentlich bald nachgeliefert wird. Mit Research hat der Konzern jetzt eine eigene Version der mittlerweile bekannten Deep Research Funktion geteasert – aber mit einem eigenen Twist. Das Feature, das zunächst einmal nur für User mit Max, Teams oder Enteprise Plan in den USA, Brasilien und Japan verfügbar sein wird, kombiniert die Websuche interessanterweise mit einer engen Verknüpfung mit Google Workspace.

Das bedeutet die KI kann sowohl unsere E-Mail Postfächer, Kalender und Cloudspeicher durchsuchen, als auch Informationen aus dem Web recherchieren, um umfassende Antworten zu geben und diese sogar direkt in Aktionen, wie eine E-Mail umzusetzen. Ein interessanter Ansatz, den wir mal in der Praxis abwarten müssen. Es werden auf den ersten Blick nicht die umfangreichen Reports erstellt, wie bei den anderen Deep Research Konkurrenten, aber eine engere Integration auch mit eigenen Daten könnte ein Vorteil sein – wobei da die Frage ist, ob die reine Konzentration auf Google Workspace ausreichend ist.

📼 Google Veo 2 in Gemini

Apropos Google: Nachdem wir ja schon viel von Veo 2, der beeindruckenden Video-KI gehört haben, ist diese jetzt endlich für alle Gemini Advanced User direkt im Chatbot verfügbar und kann verwendet werden. Wir haben freundlicherweise von Google schon einige Tage früher Zugriff bekommen und konnten Veo 2 in dieser Zeit ausführlich testen und uns ein Bild von der Qualität der Videos machen – vielen Dank an dieser Stelle nochmal! Auch wenn die Bedienung und Nutzung aktuell noch sehr simpel ist und wenige Optionen bietet – man kann einfach nur ein Video mit einer fixen Länge und im Querformat erstellen sind die Ergebnisse wirklich beeindruckend.

Die Qualität der Videos ist auch im Vergleich mit anderen Tools sehr stark und wir sind gespannt, ob es da bald noch mehr Optionen für genauere Einstellungen geben wird oder man vielleicht sogar Zugriff auf eine eigene Website bekommen wird – ähnlich wie bei OpenAIs Sora – und dort noch mehr Möglichkeiten gegeben werden. Aber schon jetzt lohnt es sich, vor allem, wenn man sowieso ein Advanced Abo bei Google hat, einmal ein paar Videos in Gemini zu generieren und sich selbst ein Bild davon zu machen.

🖼️ Bilder-Galerie in ChatGPT

Neben den neuen Modellen gibt es auch noch ein weiteres, kleines Update in ChatGPT. Nachdem sich die Bilderzeugung mit dem neuen Modell ja wirklich so großer Beliebtheit erfreut, wurde eine neue Galerie hinzugefügt, in der man jetzt auf einen Blick alle Bilder sehen kann, die man selbst erzeugt hat. Das bringt jetzt keine neue Funktionalität an sich mit, ist aber eine ganz praktische Option, denn so muss man nicht in zig verschiedenen Unterhaltungen nach einem Bild suchen, wenn man es nochmal herunterladen möchte.

Die Galerie finden wir dabei in der linken Seitenleiste ziemlich weit oben unter dem Begriff Bibliothek. Wir haben übrigens ein eigenes Video zur Erstellung von Bildern in ChatGPT für euch hochgeladen, in dem wir zeigen, wie man diese beliebten Stile wie Ghibli oder auch das Verwandeln von sich selbst in eine Actionfigur erreichen kann.

📸 Seedream 3.0 ist die beste Bild-KI

Allzusehr sollte sich OpenAI aber nicht auf den eigenen Lorbeeren ausruhen, was die Bilderzeugung betrifft, denn es gibt schon wieder einen neuen Herausforderer und wie könnte es anders sein – der kommt aus China. Seedream 3.0 ist die neue Bild-KI des chinesischen Unternehmens Bytedance, das ja auch hinter TikTok steckt und dieses Modell hat jetzt in der Image Arena von Artificial Analysis das neue GPT-Bildmodell geschlagen. Dort wurde es eine Weile verdeckt unter dem Namen Mogao getestet und jetzt offiziell veröffentlicht.

Leider haben wir noch keine Möglichkeit gefunden das Modell selbst direkt zu testen, denken aber das wir in den kommenden Tagen sicherlich von ByteDance angekündigt werden. Die Beispiele sehen jedenfalls sehr gut aus und auch die Zufallstreffer, die wir selbst in der Bild-Arena von Artificial Analysis hatten, haben den Vergleich bei uns regelmäßig gewonnen, auch gegen starke Konkurrenten wie Flux oder das neue GPT-Modell. Also die Konkurrenz schläft definitiv nicht.

📹 Kling 2.0 überzeugt auf ganzer Linie

Video-KI-Tools werden immer beeindruckender. Das steht außer Frage, aber trotzdem haben wir als Hobbyuser oft das Gefühl, dass wir gar nicht so richtig wissen, was wir damit jetzt anfangen sollen. Deshalb ist es manchmal eine gute Idee sich bei den Profis umzuschauen um wirklich zu verstehen, wozu diese Programme mittlerweile in der Lage sind. Kling ist den meisten von uns ja mittlerweile als Alternative zu Sora, RunwayML und Pika ein Begriff, aber wie gut die neue Version ist, das ist wirklich beachtlich. PJ Ace hat auf Twitter in Zusammenarbeit mit dem Team von Kling einen kurzen Spot erstellt, der die neuen Funktionen zeigt und man merkt hier ziemlich schnell, was es für einen Unterschied macht, wenn ein Profi ein solches Tool verwendet.

👨‍💻 OpenAI mit eigenem Social Network?

Dass Elon Musk und Sam Altman nicht die besten Freunde sind, wissen wir mittlerweile alle, aber jetzt gibt es Gerüchte, dass die beiden zukünftig nicht nur im KI-Bereich miteinander konkurrieren könnten. Altman hat angeblich angefangen damit Feedback zu sammeln für eine Alternative zu Twitter bzw. X und den Angeboten von Meta, also Facebook, Instagram und Co. Diese Gerüchte scheinen mittlerweile gar nicht mehr so absurd zu sein, da sämtliche KI-Unternehmen händeringend auf der Suche sind, nach qualitativ hochwertigen Daten um die nächste Generation der Modelle zu trainieren. Soziale Netzwerke sind in dieser Hinsicht eine Goldgrube. Als Meta die eigene KI auf einmal in die eigenen Angebote integriert hatte, hat Sam Altman mit dem folgenden Tweet reagiert.

Auch wenn das vielleicht ganz ernst gemeint war, scheint es momentan immer stärker danach auszusehen, dass der Konzern in den nächsten Jahren auch im Bereich Social Media aktiv werden wird. Wir bleiben natürlich dran am Thema und halten euch auf dem Laufenden, wenn es etwas neues gibt.

Autor

Timothy Meixner
Timothy Meixner ist Mitgründer und Geschäftsführer der Meixner & Ruof UG. Als KI- und Office-Experte betreibt er zusammen mit Johannes Ruof den erfolgreichen YouTube-Kanal Digitale Profis (125.000+ Abonnent:innen).
Alle Beiträge ansehen

Digitale Profis