Die KI-News der Woche vom 07.08.2025

Die KI-News der Woche vom 07.08.2025

Melde Dich für unseren Newsletter an und erhalte alle wichtigen News direkt in dein Postfach!

Google schockt mal wieder die komplette KI-Szene mit einem krassen Welt-Modell und überschattet damit fast das Release der Open Source Modelle von OpenAI. ElevenLabs kann jetzt neben Stimmen auch Musik erzeugen und es gibt ein neues Claude-Modell. 

Wir befinden uns in einer spektakulären Woche, was KI betrifft, die heute abend vermutlich nochmal Fahrt aufnimmt. Alle wichtigen News haben wir für euch wie immer kompakt zusammengefasst.

🔓 Open Source Modelle von OpenAI

Nach ewiger Wartezeit und zig Verzögerungen ist es endlich soweit. OpenAI hat zwei “Open Source”-Modelle vorgestellt. Natürlich wie alles im Bereich KI nicht wirklich komplett Open Source, aber die Weights sind offen und damit stehen die Modelle auf einer Stufe mit der Konkurrenz von Qwen, DeepSeek, Google und Co. Das GPT-OSS Modell wurde dabei in zwei unterschiedlich großen Varianten präsentiert, ein 20B-Modell, das auch auf leistungsstarken Laptops ausführbar ist und ein größeres 120B-Modell, für das man schon einiges an Leistung braucht. OpenAI selbst gibt für das kleine Modell eine Mindest-Anforderung von 16GB Ram an, beim großen Modell sollten es schon 60GB aufwärts sein. Dafür bekommt man durchaus fähige Modelle und kann jetzt auch mal wieder OpenAI KI nutzen, ohne dafür Daten in die USA oder an Microsoft Azure Server senden zu müssen – das können wir auf jeden Fall begrüßen. 

Gleichzeitig sind wir ein bisschen skeptisch, was die gezeigten Benchmarks angeht, denn laut den Zahlen performt das große 120B Modell annähernd auf o3 oder zumindest o4-mini Niveau. Ehrlicherweise haben wir uns in den ersten Tests schwer damit getan das nachzuvollziehen. Wir haben das Modell im Playground von OpenAI ausprobiert. Dort kann man die beiden OSS Modelle ohne Login einfach testen.

Diese Ergebnisse haben wir mit denselben Prompts an o3 in ChatGPT verglichen und da ist doch ein deutlicher Unterschied, die Antworten in ChatGPT waren eigentlich IMMER deutlich besser. Wir werden natürlich noch ein ausführliches Video zu den neuen Modellen machen und sie einordnen, sobald wir ein bisschen mehr ausprobieren konnten.

🖥️ OpenAI Livestream

Das ist aber nicht alles, was diese Woche neu von OpenAI kommt. Nachdem wir jetzt schon lange spekulieren kann man ziemlich sicher sagen: Es ist soweit. Um 19 Uhr deutscher Zeit wird es einen Stream von OpenAI geben, in dem der ChatGPT Konzern das neue GPT-5 Modell vorstellen wird. Da sind wir natürlich alle sehr gespannt, die Erwartungshaltung ist riesig. 

🎶 ElevenLabs Music 

Nachdem wir mit Suno und Udio jat schon zwei KI-Tools haben, die mittlerweile Musik aus einfachen Prompts erzeugen, die für Laien oft kaum mehr von dem zu unterscheiden ist, was im Radio läuft kommt jetzt ein dritter, ziemlich mächtiger Konkurrent dazu. ElevenLabs, die viele von euch sicherlich als die Nummer Eins im Bereich der Stimm-KIs kennen hat jetzt ElevenLabs Music vorgestellt und will damit auch diesen Markt erobern. Auf der Website findet man einige Beispiele.

Das klingt auf jeden Fall stark, ob es gut genug ist, dass Suno und Udio sich Sorgen machen müssen – das schauen wir uns für euch natürlich nochmal genau an, denn die Latte liegt aktuell schon ziemlich hoch. Was wir jetzt schon sagen können ist, dass die Oberfläche zum Erstellen ziemlich cool und intuitiv ist. Wir haben wenige, aber sinnvolle Möglichkeiten unsere Musik zu erstellen und zu bearbeiten, sodass es eigentlich jede und jeder auf Anhieb verstehen sollte. Leider ist die Nutzung von ElevenLabs Music ziemlich teuer, das bedeutet mit den Credits aus einem kostenlosen Plan wird man vielleicht ein paar Songs erstellen können, dann ist aber schnell Schluss, da haben wir aktuell bei Suno und Udio mehr Möglichkeiten gratis zu arbeiten. 

🖼️ Qwen Image Modell

Qwen hat ein neues Bild-Modell vorgestellt, das es mit der Bilderzeugung in ChatGPT aufnehmen soll. Das Ganze ist dabei Open Weights und komplett kostenlos nutzbar, entweder über den Qwen Chat selbst oder über Huggingface Spaces. Wir haben diese Woche schon ein eigenes Video zum neuen Modell gemacht, aber kurz zusammengefasst kann man sagen: Qwen Image ist sehr beeindruckend.

Das Modell hat noch ein paar kleine Schwächen in Bezug auf deutsche Texte auf Bilder, aber ansonsten muss es sich vor der Konkurrenz, egal ob 4o Image von OpenAI oder Imagen von Google absolut nicht verstecken. Und man darf wie gesagt nicht vergessen: Die Chinesen setzen auch hier, wie bei ihren guten Sprachmodellen auf Open Source und gratis Bereitstellung – das sollte man definitiv honorieren. 

🌏 Google Genie erstellt Welten

Welt-Modelle scheinen in der zweiten Jahreshälfte so langsam zu einem der spannendsten Trends im Bereich KI zu werden. Nachdem wir ja erst letzte Woche über das World Model von HunYuan gesprochen haben, hat jetzt Google erste Einblicke in die neueste Version ihres World Models Genie gegeben. Mittlerweile in der Version 3 kann diese KI ganze Welten live erstellen, durch die sich ein User bewegen kann.

Dabei sind die Welten dieses neuen Genie-Modells deutlich höher aufgelöst mit 720p und bringen einige wichtige neue Funktionen mit, beispielsweise World Memory. User können in den Welten selbst aktiv werden und Dinge verändern, im Video wird beispielsweise eine Wand gestrichen. Danach bewegt sich der User weg, andere Teile der Welt werden live generiert, aber als der Blick zurück auf die Wand geht, sehen wir, dass die Änderungen geblieben sind und genau die blauen Stellen weiter zu sehen sind. Es kann außerdem live gepromptet werden, um Änderungen an der Welt vorzunehmen, zum Beispiel Personen hinzufügen oder sogar einen Drachen.

Laut Google hat Genie enormes Potenzial, nicht nur für die Videospielindustrie, was natürlich der erste Use Case ist, der einem einfällt, aber auch für allgemeine Simulationen, Forschung und Produktion, da hier einfach und schnell Dinge simuliert werden können. Klar muss man sagen, manchmal sieht das Ganze noch etwas wackelig und unsauber aus, aber auch hier gehen die Fortschritte aktuell rasant. Wenn man die jetzt gezeigten Demos mit dem Output von Genie 1 oder 2 vergleicht, dann ist das wirklich ein Unterschied wie Tag und Nacht.  

♟️ Kaggle Game Arena

Es gibt ein neues, interessantes Turnier, bei dem verschiedene KI-Modelle gegeneinander Schach spielen müssen. Die Game Arena von Kaggle ist jetzt offiziell mit dem ersten Spiel gestartet. Der Gedanke davon ist es, die Modelle in einem Umfeld zu testen, in dem es klare Regeln gibt, um festzustellen, welche KI am intelligentesten ist.

Veranstaltet wird das Ganze durch Google und in der ersten Runde treten aktuell zwei Gemini Modelle, Flash und Pro, o3 und o4-mini von OpenAI, DeepSeek R1, Kimi K2, sowie Claude Opus 4 und Grok 4 gegeneinander an. Es werden immer vier Partien Schach gespielt, bis eine KI entweder gewinnt oder ein Bot einen illegalen Zug macht, was zur Niederlage führt. Diese Bedingung ist wichtig, da die Modelle ja doch oft kreativ werden, um nicht zu verlieren.

Wir sind ehrlicherweise nicht die größten Experten was Schach betrifft, aber wenn man dem Video eines anderen YouTubers glauben darf, das wir auch in der Beschreibung verlinkt haben, sind die KIs teilweise wirklich belustigend schlecht im Schachspielen. Gemini 2.5 Flash hat beispielsweise darauf bestanden illegale Züge zu machen und deshalb verloren. Trotzdem ist es ein interessantes Format, das durchaus unterhaltsam sein kann, wir sind schon gespannt, ob das nach der ersten Runde jetzt auch noch mit anderen Spielen getestet wird. Und Google scheint auch trotz Ausrichter-Rolle nicht zu betrügen, da Grok 4 schon beide Gemini Modelle geschlagen hat und jetzt im Finale gegen OpenAIs o3 antritt. Wer nach dem OpenAI Livestream noch Lust hat: Heute ab 19:30 findet das Finale statt und wird von Schach-Legende Magnus Carlsen kommentiert. 

📗 Gemini Storybook

Der Gemini Chatbot hat eine neue Funktion bekommen, die Storybook heißt. Damit ist es jetzt möglich Bücher mit bis zu 10 Seiten zu erstellen, inklusive Visualisierungen und Texten. Alles was man dafür tun muss, ist Gemini darum bitten, aus einem Text, einer Vorlage oder Ähnlichem ein “Storybook” zu erstellen. Dann wechselt der Bot in den entsprechenden Modus und erstellt das Buch für uns. Gerade für das Erstellen von beispielsweise Kinderbüchern ist das auf jeden Fall eine nette Möglichkeit, das möglichst einfach und schnell zu erledigen.

🤖 Claude Opus 4.1

Anthropic kann einem fast schon ein bisschen leid tun, denn zwischen den OSS Modellen von OpenAI und Googles beeindruckender Genie 3 Demo hat fast niemand so richtig mitbekommen, dass es ein neues Claude Modell gibt. Das Unternehmen hat nämlich Claude Opus 4.1 vorgestellt und damit das neue Flaggschiff-Modell der Claude Familie. Ehrlicherweise ist es aber auch genau so ein spektakuläres Update wie das “Punkt 1” vermuten lässt.

Wir sehen hier die Vergleiche mit dem bisherigen Opus 4 Modell und ja, Verbesserungen sind da, allerdings in einem überschaubaren Rahmen mit teilweise 1-2 Prozent. Solche Verbesserungen haben wir bei GPT und Gemini schon einfach so gesehen, ohne das dafür neue Modellnamen vergeben worden sind, deshalb fragen wir uns schon ein bisschen, warum Anthropic diesen Schritt jetzt mit einer offiziellen Modellankündigung gewählt hat. Vielleicht soll das auch nochmal Investoren anlocken, denn der Konzern steht ja wie wir wissen kurz vor der nächsten Finanzierungsrunde – kann durchaus sein. Mehr Klarheit bei den Modellnamen schafft es jedenfalls nicht, da wir jetzt auch bei Claude zum ersten mal eine weitere Abstufung neben 3, 3.5 und 4 haben. 

🦙 Ollama App und Turbo

Gleich zwei richtig coole Updates von einem der wichtigsten Open Source Projekte im ganzen KI-Bereich: Ollama, der wahrscheinlich beste Anbieter für das lokale Ausführen von KI-Modellen hat zunächst einmal die eigene App aktualisiert. Jetzt kann man direkt mit Ollama eine einfache Chat-Oberfläche auf dem Windows oder Mac Rechner bekommen und mit den lokalen Modellen so einfach arbeiten, wie mit ChatGPT oder Gemini im Browser. Über die App und alle wichtigen Funktionen haben wir schon ein Video gemacht. Direkt mit der Veröffentlichung der GPT OSS Modelle wurde aber sogar nochmal nachgelegt und Ollama Turbo wurde als Preview vorgestellt. Mit diesem kostenpflichtigen Dienst bietet Ollama das Betreiben von leistungsstarken Modellen, die das eigene Laptop vielleicht überfordern, an.

In diesem Fall werden die Modelle nicht mehr offline, lokal genutzt, sondern laufen in Rechenzentren, die Ollama bereitstellt. Hier bleibt sich der Anbieter natürlich trotzdem treu und verspricht maximalen Datenschutz, indem nichts gespeichert oder erfasst wird. Die Server für Ollama Turbo werden aber zunächst einmal alle in den USA betrieben, was es aus dieser Sicht gerade für deutsche Unternehmen vermutlich schwer macht, diese Lösung zu verwenden. Trotzdem ein cooler Ansatz, vielleicht auch für Privatpersonen, um für einen monatlichen Beitrag viele verschiedene, leistungsstarke Modelle verwenden zu können.

Autor

  • Profilbild von Timothy Meixner

    Timothy Meixner ist Mitgründer und Geschäftsführer der Meixner & Ruof UG. Als KI- und Office-Experte betreibt er zusammen mit Johannes Ruof den erfolgreichen YouTube-Kanal Digitale Profis (125.000+ Abonnent:innen).

    Alle Beiträge ansehen
Nach oben scrollen