ChatGPT Images 2.0 – Neue Bild-KI von OpenAI

ChatGPT Images 2.0 – Neue Bild-KI von OpenAI

Es ist soweit: OpenAI hat nach vielen Spekulationen jetzt offiziell das neue Bild-Modell ChatGPT Images 2.0 vorgestellt und damit einen echten Hammer! 

Seit dem ersten Start der Bildgenerierung in ChatGPT ist ungefähr ein Jahr vergangen. Seitdem hat sich einiges getan – aber Images 2.0 ist kein graduelles Update. OpenAI beschreibt es selbst als „Step Change“ und Sam Altman hat im Livestream einen Sprung von GPT-3 direkt auf GPT-5 als Vergleich genannt. Und die Benchmarks scheinen ihm recht zu geben. ChatGPT Images 2.0 setzt sich mit einem wirklich riesigen Vorsprung an die Spitze der Leaderboards und lässt Nano Banana scheinbar alt aussehen. 


Das Modell ist ab sofort für alle ChatGPT- und Codex-Nutzer verfügbar, auch im kostenlosen Plan. Die erweiterten Funktionen sind aber Usern mit Abo vorbehalten, also Plus, Pro und Business. 

Ein neues Merkmal von Images 2.0 ist die Unterscheidung zwischen zwei Varianten. 

  • Instant: schnell, direkt, für Standard-Anfragen. Wer ein Bild will, bekommt es flott. 
  • Thinking: In diesem Modus plant das Modell, bevor es generiert. Es analysiert den Prompt, prüft Komposition und Proportionen, zählt Objekte, und verifiziert das Ergebnis. Wer schon mal erlebt hat, wie KI-Modelle bei „drei Personen in einem Boot“ plötzlich vier oder zwei Personen produzieren – genau das ist eins der Probleme, die hier angegangen werden. 

Dazu kommt: Im Thinking-Modus kann das Modell das Web durchsuchen. Es kann also auf aktuelle Referenzbilder oder Fakten zurückgreifen, während es generiert. Der Preis dafür: Thinking braucht mehr Zeit. Wer komplexe Outputs erwartet, muss also warten, aber dafür bekommt man echt gute Ergebnisse.

Ein chronisches Problem aller Bildgeneratoren war jahrelang die Unfähigkeit, Text korrekt darzustellen. Das liegt an der Grundarchitektur klassischer Diffusionsmodelle, die Bilder aus Rauschen rekonstruieren – dabei ist Text nur ein kleiner Anteil der Pixel, den die Modelle nie wirklich “verstanden” haben. 

Aber laut OpenAI rendert das neue Modell jetzt zuverlässig: kleine UI-Beschriftungen, Logos, Infografiken, Icons – und das auch in nicht-lateinischen Schriften. Japanisch, Koreanisch, Chinesisch, Hindi, Bengali: all das soll jetzt zuverlässig darstellbar sein. 

Beispiele für ChatGPT Images 2.0 mit Prompts

Es gibt natürlich jede Menge Anwendungsfälle für das neue Bild-Modell von OpenAI. Hier stellen wir kurz einige vor (natürlich mit Prompts zum Kopieren und nachmachen), die die neuen Fähigkeiten des Image 2.0 Modells ausnutzen.


1. Text in Bildern

Das neue Images 2.0 Modell rendert jetzt zuverlässig korrekten Text in Bildern. Das kann man für verschiedene Dinge nutzen, zum Beispiel, um Speisekarten zu erstellen.

KI-generierte Speisekarte von ChatGPT Images 2.0

Prompt zum Kopieren

Bitte erstelle eine Speisekarte für ein Restaurant mit 8 klassischen deutschen Gerichten. Verwende ein freundliches, helles Layout und füge kleine Erklärungen und Notizen zu den Gerichten hinzu.

Wenn man schon genaue Daten hat, zum Beispiel für Gericht und Preise, kann man die natürlich auch mitgeben.


2. Bilder bearbeiten

Wenn wir unsere Bilder bearbeiten wollen ist das aber auch gar kein Problem. Über einen neuen Button mit dem Titel bearbeiten oder einfach im Chat als Folgeprompt können wir Änderungswünsche angeben. Zum Beispiel die gerade eben erstellte Speisekarte auf Englisch übersetzen lassen:

KI-generierte englische Speisekarte von ChatGPT Images 2.0

Prompt zum Kopieren

Bitte übersetze die komplette Speisekarte auf englisch, aber behalte genau denselben Stil bei

Oder alternativ kann man das Format ändern, entweder per direktem Prompt oder über das Menü oben bei unserem Bild in ChatGPT.

Bearbeitungsmöglichkeiten bei ChatGPT Images 2.0 für Formatänderungen

3. Mehrere Bilder auf einmal erstellen

Diese Anwendung benötigt den neuen Thinking-Modus des Bildmodells. Damit ist das im kostenlosen Plan nicht möglich, sondern nur Plus, Pro und Business Kund:innen vorbehalten. Hier können wir aber mit nur einem Prompt ganz einfach mehrere Bilder auf einmal erstellen, beispielsweise für eine Marketingkampagne.

Prompt zum Kopieren

Erstelle 4 Social-Media-Grafiken für eine Kampagne zu einem neuen Kaffeeprodukt – je eine für Instagram (quadratisch), Instagram Story (vertikal), LinkedIn (16:9) und Twitter (3:4).

Das ist natürlich nur ein allgemeines Beispiel. Man könnte hier sogar eigenes Material hochladen, Logos, Farben, Schriftarten, etc. um ein perfekt auf die eigenen Anforderungen zugeschnittenes Ergebnis zu bekommen.


4. Comics aus echten Personen erstellen

Natürlich kann ChatGPT Images 2.0 auch Bilder als Input nutzen. Ein beliebtes Beispiel ist das Erstellen von Comic Strips mit der eigenen Person als Hauptdarsteller oder Charakter.

KI-generierter Comic Strip von ChatGPT Images 2.0

Prompt zum Kopieren

Erstelle einen 4-Panel-Comic-Strip über zwei Programmierer, die versuchen, einen Bug zu finden, und am Ende feststellen, es war ein Tippfehler. Nimm die beiden Personen aus den Fotos als Vorlage für die beiden Programmierer.

Natürlich müssen hier dann entsprechend auch die Bilder für die Vorlage hochgeladen werden, das geht aber einfach über das Plus in der Chatleiste selbst.

Apps und API

ChatGPT Images kann man natürlich auch in der App mit iOS oder Android nutzen. Hier einfach darauf achten, ob beim Starten der App eine kleine Meldung kommt, mit Infos zum Image Modell, dann hat man die neueste Version. Ansonsten muss man die App vermutlich einmal aktualisieren. 

Für Entwicklerinnen und Entwickler ist das Modell übrigens auch über die OpenAI-API als gpt-image-2 verfügbar. Ein Bild in hoher Qualität bei 1024×1024 Pixeln kostet dort ungefähr 21 Cent. Mit Thinking-Modus kommen Reasoning-Tokens obendrauf – die sind dabei je nach Aufgabe variabel.

Autor

  • Profilbild von Johannes Ruof

    Johannes Ruof ist Mitgründer und Geschäftsführer der Meixner & Ruof UG. Als KI- und Office-Experte betreibt er zusammen mit Timothy Meixner den erfolgreichen YouTube-Kanal Digitale Profis (125.000+ Abonnent:innen).

    Alle Beiträge ansehen
Nach oben scrollen