Melde Dich für unseren Newsletter an und erhalte alle wichtigen News direkt in dein Postfach!
OpenAI schockt kurz vor Weihnachten nochmal die gesamte KI Welt mit einem neuen Modell das die ganze Konkurrenz weit hinter sich lässt, KI-Agenten rücken immer mehr ins Zentrum und sind möglicherweise DER Trend im neuen Jahr und NVidia bringt neue Grafikkarten und beeindruckende KI-PCs an den Start.
🆕 OpenAI o3 – Die Zukunft von KI?
Als letzte Nachricht der 12 Days of OpenAI hat Chef Sam Altman mit einigen Kollegen eine Vorschau auf die neuesten Modelle des Unternehmens gegeben: O3 und eine Mini-Version davon. Aktuell können wir allerdings außer dem, was im Video von OpenAI selbst gezeigt wurde nicht viel darüber sagen, denn die Modelle sind noch nicht verfügbar. Das soll sich aber anscheinend Ende Januar ändern mit einem Release des o3-Mini Modells. Kurz darauf soll die Vollversion erscheinen – wir sind gespannt ob das auch wirklich so kommen wird.
Außerdem muss man die Frage stellen, ob diese Modelle innerhalb der bis jetzt verfügbaren Pläne von ChatGPT nutzbar sein werden. Denn obwohl im Video, das natürlich hier in der Beschreibung verlinkt ist, beeindruckende Leistungen gezeigt wurde, die wirklich nochmal eine neue Stufe im Bereich KI bedeuten, wenn sie sich bewahrheiten sollten, scheint das neue Modell in der Nutzung extrem teuer zu sein. Für die Lösung nur eines einzigen, komplexen Problems sind beispielsweise Kosten von mehr als 1.000 US Dollar angefallen.
Das wäre selbst im neuen Pro-Plan von ChatGPT mit 200 Dollar pro Monat natürlich nicht realistisch abzudecken. Möglicherweise steht also immer nur ein 2.000 Dollar oder mehr pro Monat Plan im Raum, das wird sich gegen Ende des Monats dann vermutlich zeigen. Passend dazu hat Sam Altman übrigens getwittert, dass OpenAI anscheinend mit dem Pro Plan aktuell Verlust macht – schon die Nutzung von o1 Pro scheint also teurer zu sein als erwartet und das macht natürlich nicht wirklich Hoffnungen für ein so viel leistungsstärkeres Modell – wir werden sehen, was da auf uns zukommt!
🤖 DeepSeek V3
Aber auch die Konkurrenz von OpenAI schläft nicht. Und gerade im Open Source Bereich haben wir zum Ende des Jahres nochmal einen richtigen Hammer bekommen mit dem neuesten Deep Seek Modell des chinesischen Anbieters High Flyer. Wir haben über Deep Seek und vor allem das Reasoning Modell ja schon berichtet mit dem neuen Modell Deep Seek V3 wurde jetzt die aktuellste Version vorgestellt, die vor allem durch extrem niedrige Kosten positiv auffallen konnte. In nur 2 Monaten und für ca. 6 Millionen US Dollar wurde das Modell trainiert und bringt jetzt Leistungen auf dem Niveau aktueller Top-Modelle.
Um es kurz einzuordnen, für diejenigen, die es vielleicht nicht einordnen können: 6 Millionen Dollar ist für ein solches Modell eigentlich ein Witz – andere Unternehmen stecken teilweise hunderte Millionen und mehr in Training der Modelle. Und wie gesagt: Das Modell ist komplett Open Source, also schon allein deshalb ein Anbieter, den wir im Blick behalten müssen.
💸 XAI 6 Milliarden Investment und Grok 3
Auch Elon Musks KI-Firma xAI hat allerdings nochmal ordentlich Rückenwind bekommen, vor allem in Form eines Investments von 6 Milliarden US-Dollar. Wenn man jetzt die gerade genannten 6 Millionen für das Training eines wirklich wettbewerbsfähigen Open Source Modells bedenkt, dann kann man damit schon einiges erreichen. XAI hat außerdem ja mittlerweile eines der größten Super-Rechenzentren mit Colossus aufgebaut und trainiert dort aktuell die neueste Grok Version 3, die zumindest laut eigenen Angaben des Unternehmens ein riesiger Sprung sein wird. Da sind wir schon gespannt, was da auf uns zukommt und ob Grok endlich einmal die Schwächen ablegen kann, die der Bot eigentlich hauptsächlich durch seine enge Integration mit Twitter bzw. X aktuell noch hat.
😮 Genesis schockt KI-Szene
Kurz mal etwas anderes als Sprachmodelle und Chatbots, bzw. Sogar mal etwas komplett anderes als alles worüber wir auf dem Kanal in Bezug auf KI schon gesprochen haben. Ein Video und eine Ankündigung haben zum Ende des Jahres 2024 nochmal für richtig viel Aufregung gesorgt. Wir sehen hier eigentlich nur ein kleines Kommando was generiert werden soll und danach direkt ein beeindruckendes Video eines Tropfens, der eine Flasche Heineken herunterläuft. Danach kommen noch einige weitere Beispiele und wir sehen unter anderem eine Menge unterschiedlicher Kamerawinkel desselben Videos und sogar die simulierten physikalischen Kräfte, die auf den Tropfen wirken.
Genesis heißt dieses Forschungsprojekt, das schon lange in der Planung und Umsetzung ist und soll tatsächlich in der Lage sein, mit verschiedensten Modellen und physikalischen Berechnungen, solche Videos zu erzeugen. Ganz so einfach wie im Video wird es aber wohl vorerst nicht sein, es werden viele bereits in der Praxis erprobte Frameworks und Physik-Modelle verwendet, aber wir sind schon sehr gespannt, wie das am Ende dann alles zusammenkommt.
Das Genesis-Team selbst sieht den Einsatzzweck auch eher im Training der ebenfalls immer mehr aufkommenden Roboter, die mit Genesis ein besseres Verständnis der Welt bekommen können, in der sie sich bewegen. Mit den generierten “KI-Videos” haben sie jetzt schonmal eine ganze Menge Aufmerksamkeit bekommen und definitiv eine gewisse Erwartungshaltung erzeugt.
💻 Neue NVidia Grafikarten und KI-PCs
Bei der CES 2025 hat NVidia Chef Jensen Huang einige Neuigkeiten präsentiert, die im Bereich KI für Aufsehen gesorgt haben. Erwartungsgemäß wurde die nächste Generation der Consumer Grafikkarten vorgestellt mit der RTX 50 Familie, die ab Ende des Monats verfügbar sind. Ohne in genaue, technische Details zu gehen, wurde durch neue Technologie in Verbindung mit KI die Leistung im Vergleich zu den Vorgängern oft verdoppelt – zumindest laut NVidia. Neben den Tatsachen, dass das natürlich alle Gamer freut ist diese Ankündigung auch für KI-Anwender interessant, denn die neuen GPUs sind natürlich deutlich besser dafür geeignet beispielsweise auch Sprachmodelle oder Bild-KIs selbst lokal auf dem eigenen Rechner zu betreiben.
BlackforestLabs, das Unternehmen hinter der Bild-KI Flux hat beispielsweise schon in einem Blogartikel angekündigt, dass die eigenen Modelle auf den neuen Grafikkarten besonders gut und schnell laufen sollen.
Und auch NVidia selbst hat erkannt, dass hier Potenzial schlummert und bringt gleich eine ganze Reihe von sogenannten RTX PCs und Laptops an den Start, die für die Arbeit mit KI gedacht sind. Dabei werden beeindruckende Benchmarks erzielt, sogar in Laptops, die ja eigentlich gar nicht so viel Platz für riesige Grafikkarten haben.
Wer also wirklich intensiv auch lokal mit KI arbeiten möchte, sollte sich dieses Lineup, das in Kürze verfügbar sein wird definitiv mal anschauen.
Besonders interessant sieht der Digits Computer aus, der vom Look sehr stark an einen Mac Mini erinnert. 3000 Dollar soll dieser Desktop von NVidia kosten und bringt dafür 128GB Arbeitsspeicher und einen GB10 Grace Blackwell “Superchip” mit. Damit sollen Sprachmodelle mit bis zu 200B Parametern lokal ohne Probleme laufen. Wer noch mehr Leistung braucht kann zwei Digits Systeme verlinken und sogar Metas größtes 405B Modell lokal auf diesem beiden Rechnern betreiben. So eine Leistung war bisher mit normalen Consumer PCs undenkbar und NVidia macht es jetzt sogar bezahlbar.
🏟️ Chatbot Arena jetzt auch für Bild-KIs
Die Chatbot Arena der Berkeley Universität wird weiter verbessert. Nachdem wir schon Ende letzten Jahres davon berichtet haben, dass es eine Version der Arena speziell für Coding gibt, in der verschiedene Modelle gegeneinander getestet werden können, wie gut sie darin sind Webseiten zu entwickeln ist jetzt auch ein Vergleich von Bild-KIs möglich.
Wenn man auf die Website der Chatbot Arena geht finden wir im normalen Battle-Bereich die Option Text To Image. Hier kann man entweder selbst einen Prompt eingeben oder ein zufälliges Beispiel wählen. Dann wird direkt innerhalb kurzer Zeit von zwei verschiedenen Bild-KIs das Bild erzeugt und ähnlich wie beim Chatbot Vergleich entscheiden wir uns für die Variante, die uns besser gefällt.
Die ersten Zahlen sind auch schon da, wenn wir einen Blick ins Leaderboard werfen, dann sehen wir dass aktuell Recraft auf dem ersten Platz steht gefolgt von Ideogram und Flux 1.1 Pro. Wenn man sich hier die Liste anschaut, merkt man aber auch, dass zum jetzigen Stand leider nur 7 Modelle verfügbar sind und einige Top-Kandidaten – allen voran Midjourney – hier aktuell nicht zum Vergleich stehen. Ob das noch kommt ist schwierig zu sagen, denn gerade Midjourney ist eben nicht kostenlos nutzbar und kostet bei einer intensiven Nutzung, wie es in der Arena der Fall wäre eine ganze Menge Geld.
Trotzdem eine sehr coole Möglichkeit einmal einen Einblick in viele der aktuell besten Bild-KIs zu bekommen – kostenlos und ohne Account.
💰 Mistral Pro-Plan
Nach all den Neuerungen und Updates beim französischen OpenAI-Konkurrenten Mistral und deren ChatGPT Version mit dem Namen Le Chat war es vermutlich nur eine Frage der Zeit: Es sind jetzt erste Anzeichen aufgetaucht, die dafürsprechen, dass es auch bei Mistral und dem Le Chat – aktuell ja alles komplett kostenlos – bald einen Pro Plan geben wird. Dabei ist noch nicht ganz klar, was dieser Pro Plan beinhaltet oder inwiefern die kostenlose Variante dadurch eingeschränkt wird, es wurden aber schon mögliche Limits für User, die nichts bezahlen, angedeutet. Fix wissen wir das aber noch nicht, dass der Pro Plan kommt scheint auf der anderen Seite ziemlich sicher zu sein.
📒 Agenten Tutorials von Anthropic
Ein Blogartikel von Anthropic, dem Unternehmen hinter dem Claude Chatbot und starken Modellen wie Opus, Sonnet und Haiku, hat für viel Aufsehen gesorgt. Dabei enthält der Artikel selbst gar keine wirklichen, neuen Informationen, aber es wird darüber gesprochen, wie man effektive KI-Agenten erstellen kann. Das ganze Thema Agenten ist im Bereich KI gerade sehr aktuell. Wir meinen damit einfach Arten von künstlicher Intelligenz die auch selbständig arbeiten können und ohne ständiges Prompten oder Nachfragen größere Projekte erledigen können, also anders als ein normaler Chatbot wie ChatGPT.
In vielen Prognosen für die weitere Entwicklung von KI und unserer Arbeit damit stehen Agenten für das Jahr 2025 ganz oben auf der Liste und das macht ja eigentlich auch Sinn, denn es ist so ein bisschen der nächste, logische Schritt. Mit dem Artikel und der entsprechenden Reaktion der Szene wurde das Ganze jetzt also nochmals bestätigt, aber nicht nur das.
🕵🏻♂️ Agenten Frameworks
Gleichzeitig sprießen nämlich aktuell jede Menge Frameworks, also eigentlich eine Art Grundgerüst für das Arbeiten mit solchen KI-Agenten aus dem Boden. Zuletzt haben jetzt sowohl Huggingface mit ihrem Smolagents Framework und Amazon mit dem Multi Agent Orchestrator auf GitHub zwei absolute Schwergewichte im Bereiche KI ihre Lösungen vorgestellt, mit denen man sich Arbeitsabläufe für KI-Agenten erstellen kann.
Damit reihen sie sich ein in eine ganze Menge anderer, bereits existierender Lösungen und es wird spannend zu sehen, wer sich hier durchsetzen wird oder ob es ähnlich wie bei den Chatbots eine Vielzahl von möglichen Lösungen gibt, die man sich dann je nach persönlicher Präferenz zusammenstellen kann. Auch OpenAI hat mit Swarm ja schon eine Lösung zumindest angedeutet – ob sie damit so unangefochten die Nummer 1 werden wie im Chatbot-Bereich mit ChatGPT ist aktuell aber eher fraglich, denn die Agenten-Frameworks richten sich schon an ein eher technisch versierteres Publikum, das sicherlich unterschiedliche Ansätze testen und vergleichen wird.
⚡ ElevenLabs Flash
Die Sprach-KI ElevenLabs hat ein neues Modell mit dem Namen Flash vorgestellt, dass sich durch unglaublich geringe Latenz auszeichnet. Mit Flash sollen Antworten von der KI in einem Gespräch nach nur 75ms gegeben werden, ich denke, das ist wahrscheinlich schneller als ein Mensch Informationen verarbeitet hat und reagieren kann.
Damit möchte ElevenLabs vor allen den in letzter Zeit stark vorangetriebenen Bereich der Conversational Agents stärkten, also Bots für beispielsweise Kundendienst etc. Die schnell und kompetent antworten müssen. Das Unternehmen selbst gibt an, dass die Flash-Variante durch die schnellere Reaktionszeit etwas weniger emotionale Tiefe und etwas schlechtere Qualität mitbringt, aber da muss man dann eben je nach Anwendung entscheiden, wo die Prioritäten liegen.