Sora – das neue Text-to-Video Tool von OpenAI

Sora – das neue Text-to-Video Tool von OpenAI

OpenAI, die Firma hinter ChatGPT schockt die Welt mit ihrer neuesten Innovation. Sora ist das neue Tool des KI-Unternehmens und vermutlich ein Quantensprung in der Text-to-Video Branche. Es bietet fotorealistische Videos, nahezu perfekte Details und vor allem Clips mit einer Länge von fast 60 Sekunden.  

Gestern hat OpenAI völlig überraschenderweise und ohne viel Tamtam ein neues Tool vorgestellt, mit dem man Videos aus einfachen Text-Prompts erstellen kann. Das an sich ist nichts Neues, aber die Clips, die gezeigt wurden, sind mit nichts zu vergleichen, was wir bisher gesehen haben. Die schiere Qualität der Videos ist beeindruckend und es gibt kein Tool, das aktuell in der Lage ist, damit zu konkurrieren.

Prompt: A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. She wears a black leather jacket, a long red dress, and black boots, and carries a black purse. She wears sunglasses and red lipstick. She walks confidently and casually. The street is damp and reflective, creating a mirror effect of the colorful lights. Many pedestrians walk about.

Im ersten Clip haben wir beispielsweise eine Frau, die in Tokyo durch die Straßen läuft. In dem 59 Sekunden langen Video werden Kameraeinstellungen und Perspektiven verändert und das Resultat sieht aus wie echt. OpenAI liefert auch den vollständigen Prompt, mit dem das Video generiert wurde und die Anmerkung, dass hier nichts im Nachhinein bearbeitet wurde. 

Natürlich gibt es auch andere Videos, die zeigen, über welche Fähigkeiten das Tool verfügt. Unter anderem haben wir Drohnenvideos, die beeindruckend realistisch aussehen. Natürlich erkennt man hier und da gewisse Details, die bei genauer Betrachtung nicht zu 100 % echt sein könnten, aber das sind wirklich Kleinigkeiten.

Prompt: A drone camera circles around a beautiful historic church built on a rocky outcropping along the Amalfi Coast, the view showcases historic and magnificent architectural details and tiered pathways and patios, waves are seen crashing against the rocks below as the view overlooks the horizon of the coastal waters and hilly landscapes of the Amalfi Coast Italy, several distant people are seen walking and enjoying vistas on patios of the dramatic ocean views, the warm glow of the afternoon sun creates a magical and romantic feeling to the scene, the view is stunning captured with beautiful photography.

Man würde meinen, das eine Video wurde in Italien an der Amalfiküste und das andere wirklich in Santorini aufgenommen. Ich verlinke euch hier auch nochmal die Seite, damit ihr euch ein eigenes Bild von Sora machen könnt, aber ich verspreche euch wirklich nicht zu viel.

Prompt: Aerial view of Santorini during the blue hour, showcasing the stunning architecture of white Cycladic buildings with blue domes. The caldera views are breathtaking, and the lighting creates a beautiful, serene atmosphere.

Die Möglichkeiten, die sich durch dieses Tool ergeben, sind natürlich Wahnsinn. Egal ob man eigene Werbespots, Videos oder sogar ganze Filme im Stil von Pixar und Co produzieren möchte. Man kann sich kaum ausmalen, was da auf uns zukommt.

Ein paar Videos möchte ich noch hervorheben, besonders dieses hier, in dem eine extreme Nahaufnahme von einem Auge erstellt wurde. Die Details wie Wimpern und Reflexionen sehen, selbst wenn man versucht Fehler zu finden, täuschend echt aus.

Prompt: Extreme close up of a 24 year old woman’s eye blinking, standing in Marrakech during magic hour, cinematic film shot in 70mm, depth of field, vivid colors, cinematic

Andere Videos sehen aus, als wäre es direkt aus einer Natur-Dokumentation. Wenn man diese Videos mit der aktuellen Konkurrenz vergleicht – egal ob Runway, Pika oder andere – dann ist das wirklich ein ganz anderes Level, auf dem wir uns hier bewegen.

Prompt: Borneo wildlife on the Kinabatangan River

Die Videos wirken nicht einfach nur wie animierte Bilder, denen im Nachhinein Leben eingehaucht wurde, sondern die Personen oder Objekte bewegen sich harmonisch, was dem ganzen einen viel realistischeren Touch gibt.  

In einem weiteren Clip, fliegen wir dank Sora durch ein Museum und man kann sich vorstellen, was hier in Zukunft vielleicht dann auch mit VR und Geräten wie der Apple Vision Pro möglich sein wird. Künstlern werden hier neue Welten eröffnet und schon bald können wir eigene hochqualitative Videos nur mithilfe der passenden Prompts erstellen. 

Prompt: Tour of an art gallery with many beautiful works of art in different styles.

OpenAI ist hier auch sehr transparent und gibt an, dass das Modell aktuell noch Schwächen hat. Insbesondere bei der Interaktion von mehreren Subjekten in einem Clip, da es dort die Zusammenhänge noch nicht immer zuverlässig nachvollziehen kann.

Sie nennen hier beispielsweise, dass eine Person in einen Keks beißt, der Keks danach aber weiterhin unverändert bleibt. In diesem Video sehen wir, dass die animierte Katze kurzzeitig an einer Stelle drei Beine hat, sie interagiert mit einer Pfote, mit einem Menschen, die anderen beiden Pfoten sind aber ebenfalls noch zu sehen.

Prompt: Basketball through hoop then explodes.Prompt: Basketball through hoop then explodes.
Weakness: An example of inaccurate physical modeling and unnatural object “morphing.”

Physik ist allgemein auch ein Schwachpunkt des Tools und auch hier hat OpenAI direkt einige Clips mitgeliefert, die diese Probleme verdeutlichen. Aber trotz dieser Schwächen ist Sora bisher das beeindruckendste Text-to-Video Tool, das wir gesehen haben.

Wann Sora offiziell freigegeben wird und ob wir direkt in ChatGPT mit einem Plus Account darauf zugreifen können, lässt OpenAI aktuell offen. Momentan wird das Tool nur von wenigen ausgewählten Testern auf Herz und Nieren geprüft. Wenn man aber die Ergebnisse sieht, dann kann man davon ausgehen, dass das Tool sehr nahe an der Veröffentlichung steht.  

Wir halten euch wie immer auf dem Laufenden, das war sicherlich nicht unser letzter Artikel zu Sora.

Autor

  • Timothy Meixner

    Timothy Meixner ist Mitgründer und Geschäftsführer der Meixner & Ruof UG. Als KI- und Office-Experte betreibt er zusammen mit Johannes Ruof den erfolgreichen YouTube-Kanal Digitale Profis (80.000+ Abonnent:innen).

Nach oben scrollen