Die KI-News der Woche vom 28.10.2024

Die KI-News der Woche vom 28.10.2024

Melde Dich für unseren Newsletter an und erhalte alle wichtigen News direkt in dein Postfach!

Anthropic hat ein neues Modell vorgestellt und nicht nur das, sondern auch neue Tools, die komplett neue Arbeitsweisen mit KI ermöglichen. Neue, noch unbekannte Bild-Modelle werden getestet und lassen die bisherige Konkurrenz weit hinter sich, Googles NotebookLM bekommt wohl noch mehr Updates und vieles mehr. 

🆕 NotebookLM Updates 

Es wird nicht ruhig um das wahrscheinlich aktuell beliebteste KI-Tool. Nach den Updates für die Podcast Funktionen, gibt es schon wieder neue Screenshots von einer zukünftigen NotebookLM Version mit einigen deutlich verbesserten Features. In den Einstellungen wird man wohl schon bald in der Lage sein, mit einem Klick eine Art Persona und einen bevorzugten Stil anzugeben. Eine kleine, aber im Zweifel nützliche Änderung. 

Viele beeindruckender ist aber das neu geplante Chatbot-Feature. Es ist noch nichts final bestätigt, aber es sieht sehr danach aus, als könnten wir in Zukunft für jedes Notebook einfach einen Chatbot erstellen, der den Inhalt des jeweiligen Notizbuchs als Wissen besitzt und Fragen dazu beantworten kann. Diese Chatbots kann man dann anderen Personen zur Verfügung stellen und gerade im Kontext von Unternehmensanwendungen, für die Google ja NotebookLM for Business plant, gibt es da bestimmt einige nützliche Anwendungen – egal ob als Kundendienstbot nach außen oder für interne Dokumentationen und Hilfestellungen. 

👀 Runway Facial Video to Video

Die Video-KI RunwayML hat mal wieder ein bahnbrechendes neues Feature vorgestellt: Mit Act-One ist es möglich aus einem existierenden Sprechervideo jede erdenkliche andere Version zu machen. In diesem Video sieht man wie das in der Praxis aussieht.

Diese Funktion bietet nochmal ganz neue Anwendungsmöglichkeiten für KI-Videos. Wir sind selbst auch schon am Testen der neuen Funktion, die jetzt schon verfügbar ist und werden euch bald unsere Ergebnisse zeigen können. 

🆕 Anthropic Sonnet 3.5 (new) + Computer Use

Die Firma hinter dem Claude-Chatbot, einem der größten Konkurrenten von ChatGPT hat das eigene Sonnet 3.5 Modell nochmals verbessert. Das ab sofort im Chat verfügbare Modell ist nochmal etwas leistungsstärker als der Vorgänger, aber es wurden keine riesigen Sprünge gemacht, daher auch kein neuer Modellname oder ähnliches. Für viel mehr Wirbel hat eine andere Nachricht gesorgt, denn Anthropic hat gleichzeitig auch das neue Tool ”Computer Use” demonstriert, dass Claude die Möglichkeit gibt einen Computer zu steuern, rein über visuelle Erkennung der Inhalte auf dem Bildschirm. Das über die API verwendbare Tool haben wir auch in einem eigenen Video schon getestet und sind wirklich beeindruckt davon, wie gut es schon in dieser ersten Beta-Version funktioniert. 

Auch wenn noch nicht immer das Ziel erreicht wird, ist es mega spannend der KI dabei zuzusehen, wie sie versucht live ein Problem zu lösen und ich glaube, in der RIchtung werden wir in der Zukunft jetzt noch mehr Anwendungen auch von den anderen großen Anbietern wie OpenAI oder Google sehen. 

🎤 ChatGPT Advanced Voice

Auch den neuen Voice Modus von ChatGPT müssen wir im Update natürlich kurz einmal erwähnen, nachdem er letzte Woche kurz nach unserem Video veröffentlicht wurde. Nach langer Wartezeit ist es jetzt also endlich so weit: OpenAI hat den Advanced Voice Mode auch für User in der EU und einigen weiteren Länder freigeschaltet. Das bedeutet, wir können ab sofort ohne VPN oder ähnliche Workarounds mit den neuen Stimmen arbeiten. 

Wer sich für alle Details, unsere ersten Tests und Use Cases sowie praktische Tipps interessiert: Wir haben natürlich ein ausführliches Video dazu auf unserem Kanal.

🗣️ ElevenLabs Voice Design

Die Nummer 1 KI für Sprache, ElevenLabs arbeitet an einigen coolen neuen Features. Zum einen haben wir Voice Design bekommen, das man sogar mit einem kostenlosen Account nutzen kann. Hier kann man einfach einen Prompt für eine Stimme eingeben und dann wird von der KI eine künstliche Stimme erstellt, die so klingt und die man dann für die Vertonung von eigenen Texten verwenden kann. Hier ist das Demo-Video der neuen Funktion.

Aktuell war es in unseren Tests noch so, dass es viel Licht und Schatten gab – manche Stimmen waren super, andere eher schlecht bis komplett unbrauchbar. Aber man kann einfach viel experimentieren und ausprobieren und es ist eine sehr interessante Möglichkeit, eigene, einzigartige Stimmen zu generieren, ohne sich selbst klonen zu müssen. 

Aber das ist noch nicht alles. Jetzt hat ElevenLabs auch noch die Conversational Agents präsentiert, mit denen man sich ganz einfach und schnell eigene Sprachassistenten erstellen kann, mit denen man sich dann ganz ähnlich wie im Voice-Modus von ChatGPT unterhalten kann. Danach bekommt man sogar die ganze Unterhaltung als Audiodatei und eine Zusammenfassung des “Calls” zur Verfügung gestellt. Die Verwendung dieser Agents ist relativ teuer und zukünftig wird da sogar noch die Nutzung der entsprechenden KI-Modelle draufgeschlagen, aber es macht auf jeden Fall Spaß damit zu experimentieren. Und wer es nicht selbst zahlen will: Wir arbeiten schon an unserem Testvideo, dann könnt ihr es Euch einfach hier auf dem Channel noch diese Woche anschauen! 

🥼 Amazon One Medical

Laut einer Studie verbringen Hausärzte bis zu 17 Stunden pro Woche damit, Unterlagen durchzusehen und Notizen zu schreiben – das sind zwei volle Arbeitstage, die dann nicht für die Patientenbetreuung genutzt werden können. Kein Wunder, dass viele Ärzte ausgebrannt sind und es immer mehr Personalmangel im Gesundheitswesen gibt. Mit der KI von Amazon One Medical sollen diese Aufgaben um bis zu 40 % reduziert werden, damit Ärzte mehr Zeit für ihre Patienten haben. Idealerweise würde das dazu führen, dass Ärzte sich voll auf die Gespräche mit ihren Patienten konzentrieren können, ohne von Papierkram abgelenkt zu werden und so auch auf die individuellen Bedürfnisse eingehen.  Die KI-Technologie,verwendet unter anderem die AWS-Dienste Amazon Bedrock und AWS HealthScribe.  

Das geht zum Beispiel so: Besuchsnotizen werden automatisch in Echtzeit erfasst, ohne dass Ärzte alles manuell eintippen müssen. Auch medizinische Vorgeschichten werden von der KI zusammengefasst, damit Ärzte sofort die wichtigsten Infos haben. Zusätzlich gibt es ein Messaging-Tool, das dabei hilft, schneller und persönlicher auf Nachrichten von Patienten zu reagieren. Das System stellt sicher, dass die Aufgaben im Team immer bei der richtigen Person landen. So läuft dann hoffentlich alles reibungslos und Ärzte können sich auf das konzentrieren, was wirklich zählt: die persönliche Betreuung ihrer Patienten. 

🎶 Neues Musik KI-Tool von Google

Google liefert weiter kleine, aber feine KI-Experimente ab. Jetzt hat der Konzern im Bereich Musik-KI nachgelegt und das Tool MusicFX DJ in einer experimentellen Phase, leider aktuell nur Users in den USA zur Verfügung gestellt. Im Gegensatz zu anderen Tools wie Udio oder Suno, bei denen wir ja oft einfach einen Prompt verwenden, um Musik zu erzeugen, ist dieses KI-Tool wie der Name schon andeutet, eher ein Mixing-Programm.

Wirklich eine coole Nummer und hoffentlich macht Google hier bald auch einen Schritt in Richtung der internationalen User, nachdem wir ja auch NotebookLM jetzt auch uneingeschränkt hier nutzen können. 

🖼️ OpenAI revolutioniert Bildgenerierung

In einem relativ unbemerkt veröffentlichten Artikel hat OpenAI über einen neuen Durchbruch in der eigenen Forschung zum Thema Bilderzeugung berichtet. Man vergisst ja oft ein bisschen, dass sich auch der ChatGPT Konzern mit Bild-KI beschäftigt und mit der Dalle-Modellfamilie ganz gute eigene Ansätze verfolgt. Jetzt geht es aber um eine komplett neue Art und Weise Bilder zu erzeugen, die sich von den bisher fast ausschließlich verwendeten Diffusions-Modellen unterscheiden soll.  

Neben dem Paper, das relativ technisch den Prozess beschreibt, wie das sogenannte Consistency Modell mit Diffusions-Modellen vorbereitet wird, sorgt vor allem ein Demo-Video für Aufregung: Hier sieht man nämlich den direkten Vergleich der beiden Ansätze und während das neue Modell nach dem Bruchteil einer Sekunde das fertige Bild erzeugt hat, dauert es beim Diffusions-Modell mehrere Sekunden, was natürlich immer noch schnell ist aber kein Vergleich. Deshalb sind wir sehr gespannt, wann wir das erste Modell mit dieser Technik wirklich auch in der Praxis sehen werden. 

✏️ Stable Diffusion 3.5

Stability AI hat die neue Version der eigenen Bild-KI Stable Diffusion 3.5 veröffentlicht. Die Varianten „Large“ und „Large Turbo“ bieten dabei hohe Bildqualität und schnelle Verarbeitung, während das bald verfügbare „Medium“-Modell den Einsatz auf Standard-Hardware ermöglichen soll. Alle Modelle sind kostenlos und unter Community-Lizenz nutzbar – aber da müssen wir mal schauen, wie das am Ende wirklich aussieht, denn Stability hatte in der Vergangenheit ja viel mit sehr restriktiven und Endnutzerunfreundlichen Lizenzbedingungen für eher negative Schlagzeilen gesorgt. Die ersten Bilder, die wir sehen konnten sind aber auf jeden Fall ein Upgrade zum Vorgänger – was aber natürlich auch wünschenswert wäre. 

🐼 Red Panda und Neptune Next

Ein bisschen wurde der Nachricht zu SD3.5 dann auch direkt der Wind aus den Segeln genommen, denn es gibt noch viel spannendere News aus der Welt der Bild-KIs. Es sind in ersten Benchmarks und Test-Websites zwei neue, noch unbekannte Modelle aufgetaucht mit den Namen Red Panda und Neptune Next. Vor allem das Red Panda Modell konnte sich in ersten Arena-Vergleichen direkt auf den ersten Platz setzen und verdrängte dort sogar die neue Flux Version 1.1 Pro. Wir haben selbst einmal ein bisschen im Vergleich von artificialanalysis.ai ausprobiert und müssen sagen, dass der Hype auf den ersten Blick sehr gerechtfertigt erscheint. Es gibt natürlich schon viel Spekulationen darüber, wer dahinter stecken könnte, aber aktuell tappen wir noch absolut im Dunkeln und können nichts sicher sagen. Red Panda könnte ein bisschen in die Richtung China nahelegen, was nicht sehr überraschend wäre, wenn man bedenkt, wie chinesische Anbieter aktuell den Video-KI Markt erobern. Aber es kann natürlich auch genauso gut ein bewusster Bluff eines anderen Anbieters sein. 

Wir hatten eigentlich nur die News zu Red Panda gehört, sind dann aber bei unseren Tests auch über ein weiteres Modell mit dem Namen Neptune Next gestolpert. Leider taucht es aktuell noch gar nicht in den Leaderboards auf, aber wir waren von der Qualität der Bilder sehr überzeugt. Wir können uns also scheinbar auf eine interessante Zukunft für die KI-Bilder freuen und euch hoffentlich bald genaueres berichten. 

🖌️ Midjourney Image Editor

Wir bleiben immer noch bei Bild-KIs. Midjourney hat zwar kein neues Modell, aber einen Bildbearbeitungs-Editor vorgestellt und die ersten Ergebnisse sehen absolut beeindruckend aus. Hier kann man dann auch eigene Bilder hochladen und bearbeiten, also nicht nur die mit der KI erzeugten Fotos. Man hat zum einen die relativ bekannten Funktionen, die man von anderen Editoren kennt, also Outpainting, Inpainting etc.

Aber besonders eine Funktion sorgt aktuell für viel Wirbel und das ist das sogenannte “Retexturing” von Bildern, bei dem das existierende Bild einfach in einem anderen Stil neu aufgelegt wird. Hier scheint sich die KI wirklich sehr an die bestehende Komposition zu halten und nur den Look anzupassen – dafür gibt es in der Praxis sicherlich den ein oder anderen sinnvollen Use Case und diese Funktion haben wir so gut auch noch von keinem anderen Anbieter gesehen. 

👩🏼‍💻 Ideogram Canvas

Und noch eine letzte Nachricht im Bereich Bilder. Ideogram hat einen neuen “Canvas” vorgestellt, auf dem man jetzt mit dem KI-Tool arbeiten kann. Leider ist das aktuell nur ein Premiumfeature sieht aber wirklich cool aus. Es ist interessant zu beobachten wie aktuell sehr viele der Anbieter weg von einer Oberfläche mit einem Promptfeld und ein paar Reglern gehen und etwas ausgeklügeltere “Arbeitsumgebungen” schaffen, zumindest einmal erste Prototypen davon. 

Klar, das Herumspielen mit KI-Bildern macht viel Spaß, aber wenn man das Thema irgendwie aus der Entertainment-Kategorie in den wirklichen Arbeitsalltag oder semi-professionelles Arbeiten bringen möchte, dann muss man dafür schon auch etwas mehr bieten. Wir haben es in unserem Video zu Kaiber schon gesehen und der Trend scheint jetzt klar zu sein, da immer mehr Anbieter in diese Richtung gehen. 

🦙 NotebookLlama von Meta

Meta bringt weiterhin Innovationen im Open Source Bereich von KI und hat sich als neuestes Projekt die offene Variante der NotebookLM Podcasts ausgesucht. NotebookLlama heißt die Meta-Version und ist ab sofort verfügbar, wenn man ein bisschen technisch versiert ist. Uns haben die Ergebnisse aktuell noch nicht zu hundert Prozent überzeugt.

Im Vergleich zum “echten” NotebookLM ist da schon noch Luft nach oben, aber die Entwicklung wird hier sicherlich nicht aufhören und vielleicht schafft es Meta auch hier im Open Source Bereich ein vergleichbares Angebot auf die Beine zu stellen, was natürlich sehr zu begrüßen wäre. 

Autor

  • Timothy Meixner

    Timothy Meixner ist Mitgründer und Geschäftsführer der Meixner & Ruof UG. Als KI- und Office-Experte betreibt er zusammen mit Johannes Ruof den erfolgreichen YouTube-Kanal Digitale Profis (80.000+ Abonnent:innen).

    Alle Beiträge ansehen
Nach oben scrollen