Melde Dich für unseren Newsletter an und erhalte alle wichtigen News direkt in dein Postfach!
Bei Anthropic ist ein neues, unglaublich starkes Modell geleaked, es gibt ein neues beeindruckendes Qwen Top-Modell aus China und Suno stellt die neue Version 5.5 vor.
Alle wichtigen KI-News der Woche haben wir für euch wie immer kompakt zusammengefasst.
🥷🏻 Geheimes Modell von Anthropic
Den Anfang macht diese Woche eine ziemlich spektakuläre Geschichte. Durch einen Konfigurationsfehler im Content-Management-System von Anthropic wurden fast 3.000 unveröffentlichte Dateien öffentlich zugänglich, darunter ein Entwurf eines Blogposts, der ein komplett neues Modell beschreibt: Claude Mythos, auch intern als „Capybara“ bezeichnet. Bevor Anthropic die Daten wieder offline nehmen konnte, hat der bekannte Tech-Leaker M1Astra den Blogpost-Entwurf gesichert und auf Twitter geteilt.
Laut dem geleakten Dokument handelt es sich bei Mythos um eine völlig neue Modellklasse, die noch über dem bisherigen Spitzenmodell Opus angesiedelt ist. Anthropic selbst bestätigte gegenüber Fortune, dass das Modell existiert und „einen Quantensprung“ in der KI-Leistung darstellt. Besonders brisant: In dem Entwurf warnt Anthropic selbst davor, dass Mythos „beispiellose Cybersecurity-Risiken“ birgt und in den Bereichen Coding, Reasoning und eben Cybersecuritydramatisch besser abschneidet als Opus 4.6. Deswegen soll der Zugang zunächst nur an Unternehmen im Bereich Cyberverteidigung vergeben werden. Das Modell sei außerdem extrem rechenintensiv und teuer – an einer effizienteren Version wird noch gearbeitet. Die Ironie an der ganzen Sache: Ein Datenleck durch einen simplen Konfigurationsfehler – genau die Art von Sicherheitslücke, die so ein Modell eigentlich verhindern helfen soll.
💬 Was ist PreText?
Diese Woche ist eine JavaScript-Bibliothek namens PreText viral gegangen – über 28.000 Sterne auf GitHub innerhalb kürzester Zeit. Und das Spannende daran ist eigentlich nicht die Bibliothek selbst, sondern warum sie viral gegangen ist. Denn PreText macht etwas, das technisch gesehen nicht komplett neu ist: mehrzeiliges Textlayout und Textmessung im Browser, ohne den teuren DOM-Zugriff.
PreText geht nicht viral, weil es technisch bahnbrechend neu ist – es geht viral, weil es zugänglich ist. Und diese Zugänglichkeit kommt nicht von der Bibliothek selbst, sondern davon, dass jetzt jeder Zugang zu KI hat. Früher konnten „normale Menschen“ nur fertige Apps nutzen. Die Apps wurden von Entwicklern gebaut, die intern Bibliotheken benutzten – aber niemand außerhalb der Entwickler-Community kannte oder brauchte diese Bibliotheken. Jetzt, wo jeder mit KI-Agenten und Coding-Assistenten arbeiten kann, können auch Bibliotheken direkt genutzt werden, genau wie Apps. Und deshalb können Bibliotheken jetzt genauso viral gehen wie Apps. Und genau deshalb hat auf Pre Text so viel Aufmerksamkeit bekommen – weil in kürzester Zeit das Internet voll war mit Demos der Technologie von Vibe Codern.
🎼 Suno 5.5
Suno hat Version 5.5 seines KI-Musikgenerators veröffentlicht, und das Motto lautet „More expressive, more you“. Das Update bringt drei zentrale neue Funktionen für mehr Personalisierung. Die spannendste Neuerung ist wohl „Voices“ für Pro- und Premier-Nutzer: Ihr könnt nun eure eigene Stimme aufnehmen und für die Generierung von Songs verwenden. Ein Verifizierungsprozess soll dabei Missbrauch verhindern.
Zusätzlich gibt es „Custom Models“, mit denen ihr die KI auf euren eigenen musikalischen Stil trainieren könnt, indem ihr eigene Tracks hochladet. Für alle Nutzer gibt es zudem „My Taste“, eine Funktion, bei der die KI eure bevorzugten Genres und Stimmungen lernt. Suno reagiert damit auf den großen Wunsch der Community nach mehr Individualität und positioniert sich stark gegenüber Konkurrenten wie Udio, die zwar oft bei der Instrumentenqualität punkten, aber bisher keine vergleichbare Stimm-Personalisierung bieten.
🎥 Veo 3.1 Lite
Google macht KI-Videogenerierung zugänglicher und hat Veo 3.1 Lite vorgestellt. Es ist das preiswerteste Modell der Veo 3.1-Familie und kostet weniger als die Hälfte des „Fast“-Modells, bietet aber die gleiche Geschwindigkeit. Das Modell unterstützt Text-zu-Video und Bild-zu-Video in 16:9 und 9:16 bei Auflösungen von 720p und 1080p.
Die Videolänge lässt sich auf 4, 6 oder 8 Sekunden einstellen. Veo 3.1 Lite ist ab sofort über die Gemini API und im Google AI Studio verfügbar. Gleichzeitig hat Google angekündigt, die Preise für das schnellere Veo 3.1 Fast zu senken. Das ist ein klarer Schritt, um Usern die Erstellung von Video-Anwendungen mit hohem Volumen zu erleichtern und sich im wachsenden Markt der KI-Videogenerierung flexibel aufzustellen.
Das Timing ist dabei vermutlich kein Zufall. Nachdem OpenAI erst letzte Woche sein Video-Modell Sora eingestellt hat, nutzt Google die entstandene Lücke aggressiv aus und positioniert sich als die günstigste und zuverlässigste Plattform für Entwickler, die KI-generierte Videos in ihre Apps einbauen wollen.
📢 Google Live Translate
Eine Funktion, die im Alltag wirklich einen Unterschied machen könnte: Google hat die Live-Übersetzung mit Kopfhörern jetzt auch auf das iPhone gebracht und in weiteren Ländern freigeschaltet, darunter Deutschland, Frankreich, Italien, Japan und Großbritannien. Das Feature funktioniert mit jedem beliebigen Bluetooth-Kopfhörer und unterstützt über 70 Sprachen.
Die Bedienung ist denkbar einfach: Man öffnet die Google Translate App, tippt auf „Live Translate“, verbindet die Kopfhörer und bekommt gesprochene Sprache in Echtzeit übersetzt direkt ins Ohr. Und das Besondere: Die Übersetzung behält den Tonfall und den Rhythmus des Sprechers bei, sodass man nicht nur die Worte versteht, sondern auch die Stimmung mitbekommt. Im Vergleich zu Apples ähnlicher Funktion, die nur mit bestimmten AirPods funktioniert, hat Google hier den klaren Vorteil, dass wirklich jeder Kopfhörer funktioniert. Dafür laufen die Übersetzungen bei Google über die Cloud, während Apple alles lokal auf dem Gerät verarbeitet. Für alle, die viel reisen oder mehrsprachige Familien haben, könnte das ein echter Gamechanger sein.
🇨🇳 Qwen 3.5 Omni
Alibaba hat mit Qwen3.5-Omni die neueste Generation seines omni-modalen Sprachmodells vorgestellt. Es versteht Text, Bilder, Audio und Video und kommt in drei Größen (Plus, Flash und Light ) mit einer beachtlichen Kontextlänge von 256k. Laut den Entwicklern erzielt das Plus-Modell in zahlreichen Audio- und audiovisuellen Benchmarks State-of-the-Art-Ergebnisse und soll sogar Gemini-3.1 Pro in einigen Bereichen übertreffen.
Besonders hervorgehoben wird das detaillierte audiovisuelle Captioning und das „Audio-Visual Vibe Coding“, mit dem das Modell auf Basis von audiovisuellen Anweisungen programmieren kann. Die Echtzeit-Version bietet zudem Features Web-Suche und das Klonen von Stimmen. Wer es selbst testen möchte, kann das im Qwen Chat tun.
👨🏻⚖️ Microsoft Council & Critique
Microsoft integriert zwei neue Multi-Modell-Funktionen in seinen Recherche-Agenten „Researcher“ in Microsoft 365 Copilot: „Critique“ und „Council“. Das Ziel ist es, die Genauigkeit und Vertrauenswürdigkeit von KI-gestützter Recherche zu verbessern. „Critique“ nutzt ein Zwei-Modell-System, bei dem ein Modell den Entwurf erstellt und ein zweites als Gutachter fungiert und diesen bewertet.
„Council“ geht noch einen Schritt weiter und lässt zwei verschiedene KI-Modelle (von Anthropic und OpenAI ) separate Berichte zum selben Thema erstellen. Ein drittes Modell analysiert diese dann, fasst zusammen und zeigt Übereinstimmungen sowie Abweichungen auf. Das ist ein spannender Ansatz, der weg von Ein-Modell-Systemen hin zu komplexeren Architekturen geht, um Halluzinationen zu reduzieren und differenziertere Ergebnisse zu liefern – eine direkte Antwort auf Tools wie Perplexity, die ja schon vor Kurzem einen Model Council, also interessanterweise sogar mit dem selben Namen vorgestellt hatten.
💸 OpenAI Investitionen
OpenAI hat eine absolut gigantische Finanzierungsrunde abgeschlossen: 122 Milliarden Dollar. Damit steigt die Bewertung von OpenAI auf 852 Milliarden Dollar. Das ist noch einmal deutlich mehr als die bereits im Februar angekündigten 110 Milliarden. Die Hauptinvestoren sind weiterhin Amazon, Nvidia, SoftBank und Microsoft, dazu kommen erstmals auch Privatanleger, die über Banken rund 3 Milliarden Dollar beigesteuert haben.
Die Zahlen, die OpenAI dazu veröffentlicht hat, sind ebenfalls beeindruckend: ChatGPT hat über 900 Millionen wöchentlich aktive Nutzer und mehr als 50 Millionen Abonnenten. Die APIs verarbeiten mehr als 15 Milliarden Token pro Minute und Codex wird von über 2 Millionen Nutzern wöchentlich verwendet. Das Geld soll vor allem in Recheninfrastruktur fließen, um die nächste Generation von Modellen zu trainieren und die Kosten pro Token weiter zu senken. Ein Börsengang steht ebenfalls im Raum – laut CFO Sarah Friar bereitet man sich darauf vor, ein „börsenreifes Unternehmen“ zu werden. Das sind Summen, die sich kaum noch vorstellbar anfühlen.
🌄 Phota Labs
Phota Labs hat ein interessantes Identitätsmodell vorgestellt, das die Konsistenz von Personen in KI-generierten Bildern deutlich verbessern soll. Es handelt sich dabei nicht um ein komplett neues generatives Modell, sondern um eine zweistufige Pipeline. Zuerst generiert ein Basismodell wie Googles „Nano Banana“ ein Bild, und in einem zweiten Durchgang korrigiert das Phota-Modell Abweichungen in der Identität.
Laut Phota Labs verbessert das die Identitätserhaltung um bis zu 39% bei der Generierung. Das Training eines eigenen Profils mit 50 Bildern dauert etwa 8 Minuten. Das ist ein pragmatischer Ansatz, der bestehende Technologien optimiert, anstatt das Rad neu zu erfinden. Es zeigt, dass oft smarte Pipelines effektiver sein können als das Training riesiger neuer Modelle von Grund auf.
🗞️ NotebookLM Benachrichtigungen
Eine kleine, aber feine Quality-of-Life-Verbesserung gibt es bei Googles NotebookLM: Push-Benachrichtigungen. Wenn ihr nun die Erstellung eines Notebooks oder Studio-Artefakts startet, müsst ihr nicht mehr auf der Seite bleiben und warten.
Sobald der Prozess abgeschlossen ist, bekommt ihr eine Benachrichtigung auf euer Smartphone. Das macht das Multitasking deutlich angenehmer und ist ein logischer Schritt, um das Tool für intensive Recherchen nutzerfreundlicher zu gestalten.
💨 Google Turboquant
Und zum Abschluss noch eine technisch faszinierende Meldung von Google Research, die an der Börse für einigen Wirbel gesorgt hat: TurboQuant. Das ist ein neuer Kompressionsalgorithmus, der den Arbeitsspeicher von KI-Modellen um mindestens das Sechsfache reduzieren kann – und das komplett ohne Qualitätsverlust. Im Internet wird TurboQuant bereits mit der fiktiven „Pied Piper“-Technologie aus der TV-Serie „Silicon Valley“ verglichen, weil die Parallelen tatsächlich verblüffend sind.
Technisch komprimiert TurboQuant den sogenannten Key-Value-Cache, also den Arbeitsspeicher, den KI-Modelle während der Textgenerierung nutzen. In Tests auf H100-GPUs wurde eine bis zu 8-fache Beschleunigung der Aufmerksamkeitsberechnung erreicht. Das könnte langfristig dafür sorgen, dass KI-Modelle deutlich günstiger und schneller laufen und sogar auf weniger leistungsfähiger Hardware funktionieren. Die Nachricht hat allerdings auch die Aktienkurse von Speicherchip-Herstellern wie Micron und SanDisk einbrechen lassen, weil Investoren befürchten, dass weniger Speicher für KI benötigt wird. Ob das wirklich so kommt, muss sich zeigen – aber die Forschung an sich ist auf jeden Fall beeindruckend.
