Die KI-News der Woche vom 09.12.2024

8 Minuten Lesezeit

Melde Dich für unseren Newsletter an und erhalte alle wichtigen News direkt in dein Postfach!

OpenAI legt zum Jahresende nochmal richtig zu mit neuen Modellen, Pro-Plan und einem Adventskalender, Google möchte aber nicht kampflos aufgeben und arbeitet weiter an Gemini 2.0, eine neue Bild-KI sorgt für Aufregung und Runway verbessert die sowieso schon beeindruckende Funktion Act-One nochmals deutlich.

🆕 Neues o1-Modell und ChatGPT Pro Plan

Letzten Donnerstag hat OpenAI mal wieder für sehr viel Aufregung gesorgt. An nur einem Abend wurden zeitgleich mehrere neue Dinge vorgestellt. Es gibt das o1 Modell jetzt in der Vollversion, also nicht mehr als preview und es ist damit nochmals deutlich verbessert worden, sowohl wenn man den Benchmarks als auch ersten Tests von uns selbst und anderen glauben darf. Aber nicht nur das: Es wurde noch ein weiteres Modell o1-Pro vorgestellt, das Teil eines neuen Pro-Plans für ChatGPT ist, der 200 Dollar jeden Monat kostet – also wirklich ein Top-Level-Abo für die komplexesten Anwendungen und ohne jegliche Limits für Modellnutzung und Advanced Voice Mode.

Wir haben über diese Neuerungen schon ein eigenes Video auf dem Kanal, wenn euch da alle Details interessieren, schaut gerne mal vorbei.

🎄 12 Days of OpenAI

Übrigens haben mit der Vorstellung der neuen o1-Modelle und dem Pro-Plan haben letzten Donnerstag auch die 12 Days of OpenAI begonnen, in denen das Unternehmen jetzt jeden Tag, bzw. Jeden Wochentag etwas Neues vorstellen will – manche größere Features, wie die neuen Modelle und manche eher kleine Neuerungen, am Freitag haben wir zum Beispiel eine Demo von besseren Finetuning-Möglichkeiten für die OpenAI Modelle bekommen, die man aber aktuell außerhalb eines Alpha-Programms mit wenigen Usern noch gar nicht testen kann.

Heute Abend geht es da weiter im Programm, um 19 Uhr deutscher Zeit gibt es wieder einen Live-Stream mit dem nächsten Türchen des OpenAI Adventskalenders.

🏟️ Google Gemini Modell dominiert ChatBot Arena

Aber auch die Konkurrenz schläft keinesfalls. Nachdem wir immer noch darauf warten, dass Google dieses Jahr noch mit Gemini 2 um die Ecke kommt, ist ein neues experimentelles Gemini-Modell in der Chatbot-Arena aufgetaucht und hat durch die Bank abgeräumt. Dieses Modell hat für alle Kategorien den ersten Platz eingeheimst – wohlgemerkt ist aber OpenAIs neues “Nicht-Preview” o1 Modell hier noch nicht dabei und auch das o1-Pro Modell fehlt noch.

Trotzdem ist klar, dass sich die beiden Firmen hier aktuell einen harten Schlagabtausch liefern. Und unsere Hoffnung für Gemini 2.0 wurde wieder ein bisschen gestärkt, denn für eine kurze Zeit war tatsächlich ein Gemini 2 Flash Modell in der Programmier-KI Cursor verfügbar, bevor es wieder entfernt wurde. Es bleibt also spannend.

🦙 Neue Llama 3.3 Modelle von Meta

Im ganzen Trubel um OpenAI und die neuen Gemini Experimente ist fast ein bisschen untergegangen, dass auch Meta mal wieder neue Modelle vorgestellt hat. Die Open Source Konkurrenten zu GPT und Gemini machen zwar aktuell keine riesigen Sprünge aber Llama 70B wurde jetzt auf die Version 3.3 aktualisiert und soll annähernd gut, wie das größte 405B Modell sein.

Laut Mark Zuckerberg arbeitet das Unternehmen aber auch schon hart an der nächsten großen Version, also Llama 4, die laut Plan im Frühjahr 2025 fertig trainiert sein soll. Es dauert ein bisschen, das wohl die zehnfache Rechenleistung benötigt wird im Vergleich zur aktuellen Generation

📼 Sora kurz vor dem Release?

In unserem Video zu den 12 Days of OpenAI hatten wir am Ende ja schon ein bisschen spekuliert, was uns denn alles noch erwarten könnte und ein Thema war natürlich die Video-KI Sora. Jetzt ist ein neues Video aufgetaucht, das Chad Nelson von OpenAI bei einer Keynote in London gezeigt hat. Dabei wird schon von der Version 2 von Sora gesprochen, die bis zu einer Minute lange Videos aus Textprompts erzeugen kann, außerdem Image und Video-to-Video beherrscht. Das Demovideo sieht dabei vor allem zu Beginn absolut beeindruckend aus, wobei wir sagen müssen, dass wenn man länger und vor allem genau hinschaut, doch wieder auch einige Schwachstellen zu sehen sind.

Trotzdem schön, mal wieder ein wirkliches Demo-Video zu sehen und vielleicht ein Zeichen dafür, dass unsere Prognose für ein SORA Release während der zwölf Tage realistisch ist.

🖼️ Neues Bild-Modell von xAI

Im Twitter-Chatbot Grok hat es für kurze Zeit ein neues, wohl eigenes Bild-Modell gegeben, das auf den Namen Aurora hört. Der Fokus des Modells scheint Photorealismus zu sein, denn die Bilder von Personen, die von den Usern erzeugt wurden sehen wirklich extrem gut aus. Leider ist das Modell aber schon nach kurzer Zeit wieder verschwunden, es war wohl keine wirklich beabsichtige Veröffentlichung, denn aktuell steht wie zuvor wieder nur Flux für die Erzeugung von Bildern mit Grok zur Verfügung.

Vielleicht war aber auch ein bisschen Kalkül dabei, denn bei den Leaks der KI-Firmen weiß man ja immer nie, ob man damit nicht auch ein bisschen Aufmerksamkeit erzeugen will. Sobald Aurora wirklich verfügbar sein wird, erfahrt ihr es bei uns natürlich direkt.

📹 Update für Runway Act-One

Über Act-One von Runway, mit dem man einfach durch eine eigene Performance die Stimme und Mimik auf ein statisches Bild übertragen konnte haben wir ja schonmal ein Video gemacht. Jetzt hat die Funktion nochmal ein riesiges Update bekommen und funktioniert noch besser. Aber nicht nur das: Es ist jetzt auch möglich, mit Mimik und Stimme ein anderes Video zu verändern.

Hier kann man sich ein Beispiel ansehen: Oben sehen wir die Stimme die verwendet wird, in der Mitte das Ausgangs-Video und unten dann die Kombination aus beiden, also Stimme und Mimik kombiniert mit dem neuen Video.

Das ist wirklich unglaublich beeindrucken und es gibt schon einige, weitere Beispiele, die ihr auch über die Beschreibung bei Runway finden könnt. Es ist schon fast ein bisschen beängstigend, wie gut manche der Clips aussehen und wenn man es nicht wüsste, dann wäre es vermutlich sehr schwer, hier genau zu entscheiden was echt ist und was nicht.

🎧 Update bei Google Illuminate

Google Illuminate ist jetzt wohl für alle User in den USA verfügbar. Zur Erinnerung: Illuminate ist ein Projekt, relativ ähnlich zu NotebookLM, aber mit dem reinen Fokus auf Podcasts. Im Zuge der Veröffentlichung wurden jetzt ein paar schon vor einiger Zeit geleakte Funktionen live geschalten, so kann man zum Beispiel aus sechs KI-Personen den Host und Gast für den Podcast auswählen. Außerdem kann man “die Hand heben”, um an der Diskussion teilzunehmen. Es sind jetzt außerdem alle Quellen möglich, also man kann einfach einen Link zu einem beliebigen Artikel einfügen, nachdem zu Beginn nur einige ausgewählte Paper zur Verfügung standen.

Wir hoffen, dass auch wir hier in Deutschland bald Zugriff bekommen und das dann für euch einmal richtig testen können, denn es sieht wirklich vielversprechend aus. Aber vielleicht kommen ja auch einfach ein paar der neuen Funktionen bald zu NotebookLM – das fänden wir fast noch besser!

🗣️ Voice Assistants von Elevenlabs

Die Voice Assistants von ElevenLabs, über die wir auch in einem eigenen Video schonmal gesprochen haben, sind jetzt aus dem Beta-Stadium heraus und stehen als Vollversion zur Verfügung. Mit dieser KI kann man ganz einfach sogenannte Conversational Agents erstellen, die eine eigene Stimme, Persönlichkeit und Wissen bekommen, das wir ihnen geben können.

Die Einsatzgebiete für solche Agents sind breit gestreut, aber vor allem im Bereiche Kundendienst sehen wir hier ein riesiges Potenzial. Natürlich war das bisher schon möglich aber ElevenLabs macht es unglaublich einfach, diese Voice-Chatbots zu erstellen und bietet jeder Menge weitere, hilfreiche Funktionen wie Transkripte oder Erfolgskriterien, um das Beste aus den Agenten herauszuholen.

🖥️ Canvas Optionen bei Mistral

Nachdem wir schon bei unserem ersten Test von der neuen Canvas Funktion im Le Chat von Mistral begeistert waren, der immer noch kostenlos nutzbar ist, kommen jetzt wohl bald schon weitere Funktionen in den französischen Chatbot. In ersten Leaks sind Optionen für das direkt Bearbeiten des Canvas aufgetaucht, wir sehen hier bei einer Code-Datei Möglichkeiten zum “Verbessern”, “Debuggen” oder in eine andere Programmiersprache umschreiben. Das deckt sich relativ mit den Optionen, die wir auch im Canvas von ChatGPT haben und biete einfach nochmals eine bessere User Experience. Wir sind allgemein ganz zufrieden mit der Leistung der neuen Mistral KIs und es ist schön zu sehen, dass die Innovation auch hier weitergeht.

📰 Perplexity Publisher Programm

Perplexity hat in einem Blogbeitrag einige neue Partner für das eigene Publisher Programm aufgeführt, an deutschen Verlagen bzw. Outlets sind unter anderem NTV und Stern dabei, der Spiegel war ja bereits Partner. Perplexity bekommt durch diese Partnerschaft Zugang zu den Informationen auf den jeweiligen Website, aber auch für die Publisher ist das ein guter Deal.

Sie werden zum einen an Werbeeinnahmen von Pexplexity beteiligt und bekommen Informationen über Analytics, wenn ihre Inhalte verwendet werden. Außerdem lässt sich die KI-Suchmaschine nicht lumpen und spendiert den kompletten Organisationen für ein Jahr Perplexity Enterprise Pläne und Zugang zur Perplexity API – was bei der Größe der Partner auch ganz ordentlich ist.

🧞‍♂️ Genie 2 von Google DeepMind

Google Deepmind hat ein neues Modell mit dem Namen Genie 2 vorgestellt, das in der Lage ist Videospiele on-the-fly zu erstellen, indem auf Grundlage nur eines Bilds und eines Prompts eine spielbare Welt erzeugt wird. Aktuell ist Genie 2 nur ein Forschungsprojekt und kann nicht wirklich verwendet werden, und ja, die Videos sehen jetzt nicht gerade aus, wie die modernsten, “echten” Spiele. Aber wenn man das Ganze einmal mit Genie 1 vergleicht, das noch nicht einmal ein Jahr alt ist, dann sieht man wie schnell auch hier der Fortschritt ist.

Genie 2 soll laut Google übrigens auch in der Lage sein, bestimmte Teile der Szene, die einmal aus dem Bild waren, wieder richtig zu rendern und sich daran zu erinnern – was das Modell von einigen anderen Ansätzen in diesem Bereich unterscheidet.

Ein ganzes Spiel kann das World Model so trotzdem nicht ersetzen, da nur ca. Eine Minute so erzeugt werden kann, bevor die KI den Stand der Dinge wieder vergisst – aber wir sind gespannt, wie hier die Entwicklung weitergehen wird.

🅰️ Amazon stellt KI-Modelle vor

Relativ überraschend hat Amazon jetzt eine ganze Reihe von neuen Foundation Models vorgestellt, die quasi alle Modalitäten von Text bis Video abdecken sollen. Die Modelle sind aber nicht in einem eigenen Chatbots oder ähnlichem verfügbar, sondern ausschließlich über die API in Amazon Bedrock. Und auch die Leistung soll zwar gut sein, aber nichts bahnbrechendes, zumindest laut ersten Benchmarks. Trotzdem interessant, dass Amazon hier wohl noch nicht aufgegeben hat. Es wurde aber schon von einigen Usern spekuliert ob Nova – so heißt die Modellreihe – aufgrund von vielen Ähnlichkeiten nur ein Finetuning von Metas Llama Modellen ist.

Wer ein bisschen mit Amazon-KI herumspielen möchte kann das übrigens im Chatbot in der Amazon-App machen. Der ist zwar für seinen eigentlichen Einsatzzweck aktuell noch wirklich schlecht, aber man kann im auch ganz allgemeine Fragen stellen, zum Beispiel nach einem Python-Skript und die werden anstandslos beantwortet.

Autor

Timothy Meixner
Timothy Meixner ist Mitgründer und Geschäftsführer der Meixner & Ruof UG. Als KI- und Office-Experte betreibt er zusammen mit Johannes Ruof den erfolgreichen YouTube-Kanal Digitale Profis (125.000+ Abonnent:innen).
Alle Beiträge ansehen

Digitale Profis