OpenAI stellt GPT-4 offiziell vor – Was kann der ChatGPT-Nachfolger?

Vorschaubild für den GPT-4-Artikel

Nachdem bereits letzte Woche am 9. März 2023 der CTO von Microsoft Deutschland, Dr. Andreas Braun, entsprechende Andeutungen gemacht hatte, gab es gestern eine Demo von OpenAI, bei der das Unternehmen GPT-4 vorgestellt hat. In dem etwa 20-minütigen Livestream hat OpenAI Mitgründer Greg Brockman über das neue Modell gesprochen und einige Anwendungsbeispiele gezeigt. 

Nach dem riesigen Erfolg und dem Hype um ChatGPT waren die Erwartungen natürlich hoch – schon jetzt haben den Livestream mehr als eine Million Menschen angeschaut. Aber kann GPT-4 wirklich so viel mehr? Wie schlägt sich das Modell im Vergleich zum Vorgänger und was bedeutet das für uns? In diesem Artikel haben wir alle wichtigen Fakten für dich zusammengefasst! 

Was kann GPT-4? 

Der wahrscheinlich größte Unterschied zu den Vorgängermodellen liegt darin, dass GPT-4 ein sogenanntes multimodales Modell ist. Das bedeutet in diesem Fall konkret: Das Modell kann sowohl Text als auch Bilder als Input bekommen. Die Antworten sind allerdings immer in Textform, es werden also keine Bilder generiert.

Hier muss man aber direkt erwähnen: Die Möglichkeit Bilder als Input zu verwenden ist momentan noch stark limitiert. OpenAI testet diese Funktion aktuell mit einem einzigen Partner-Unternehmen Be My Eyes.

Diese App hilft blinden und sehbehinderten Menschen dabei, im Alltag Dinge zu erkennen. Das ist natürlich eine wirklich tolle Anwendung für diese Art von künstlicher Intelligenz und es ist sehr schön zu sehen, wie OpenAI hier einen absolut sinnvollen Partner gefunden hat.  

Was sind die Unterschiede zu GPT-3.5?

Was ist sonst neu? In einer einfachen Unterhaltung wird es erst einmal schwerfallen, tatsächlich einen Unterschied zwischen GPT-3.5 und dem neuen GPT-4 zu bemerken. Die Verbesserungen des neuen Modells kommen hauptsächlich dann zum Vorschein, wenn es um komplexere Themen und Fragestellungen geht.

Diese können von GPT-4 besser und zuverlässiger beantwortet werden und auch die Anweisungen an die KI können viel kreativer sein und trotzdem zum gewünschten Ergebnis führen. 

Was bedeutet das aber jetzt konkret? 

Die meisten AI-Modelle werden mit unterschiedlichen Machine-Learning-Tests auf ihre Fähigkeiten geprüft. 

Dabei wird unter anderem der MMLU Benchmark Test eingesetzt – der 14000 Multiple-Choice-Fragen aus 57 unterschiedlichen Themengebieten abfragt. Hierbei konnte GPT 4 ca. 86 % korrekt beantworten, wohingegen GPT-3.5 lediglich 70 % richtig beantworten konnte. Spannend für uns: auf Deutsch konnten immerhin 83,7 % korrekt beantwortet werden.  

Die Ergebnisse von GPT-4 im MMLU Benchmark nach Ländern
Die Ergebnisse von GPT-4 beim MMLU Benchmark

Ein weiterer Fragenkatalog, der gerne getestet wird, ist der HellaSwag-Katalog, der den Fokus auf den Kontext einer Konversation legt und dies unter anderem überprüft, indem die KI Sätze von Nutzern sinngemäß beenden soll.

Auch hier konnte das neue Modell mit über 95 % eine 10-prozentige Verbesserung vorweisen. Noch deutlicher werden die Fähigkeiten, wenn man sich die Ergebnisse der Python Coding Aufgaben ansieht. Hier konnte die Erfolgsrate von 48 auf 67 % gesteigert werden. 

Benchmarks für verschiedene Tests von GPT-4 und GPT-3.5
MMLU und Python Coding Benchmarks für GPT-4 und GPT-3.5

Aber es wurden nicht nur Machine-Learning-Tests durchgeführt, sondern auch ganz normale Prüfungen aus dem Alltag. So hat OpenAI etwa das Bar-Exam – die Anwaltsprüfung in den USA – von GPT-4 und GPT-3.5 durchführen lassen und der Unterschied der Ergebnisse ist beachtlich. GPT-3.5 konnte lediglich eine Punktzahl von 213 erreichen, wohingegen GPT-4 beachtliche 298 von 400 möglichen Punkten erreicht.  

Besonders beeindruckend waren auch die Verbesserungen in den Tests zu Biologie, Programmierung und Medizin, dort konnten die Ergebnisse stellenweise verdoppelt werden.  

Kaum eine Verbesserung war beim Verfassen von analytischen Texten und dem Wissen über Geschichte merkbar.

Getestet wurden aber nicht nur die neue Variante und ihr Vorgänger, bei GPT 4 wurden zwei Varianten getestet, zum einen die „normale“ Variante und dann auch die mit visuellen Möglichkeiten erweiterte Variante.

Das mag bei einem simplen Wissenstest egal sein, wenn man sich aber beispielsweise die Ergebnisse der Mathematikprüfungen anschaut, dann sieht man schnell, dass es da gravierende Verbesserungen gibt. Das macht natürlich auch Sinn, da die KI in der Lage ist, die visuellen Aufgaben wie eben Brüche besser und schneller zu erkennen.   

Mit GPT-4 Bilder als Input verwenden

Ein großer Nachteil von GPT-3.5 war die fehlende Möglichkeit, mit Bildern zu arbeiten. Bilder in diesem Kontext meinen aber nicht nur Fotos, sondern eben auch Scans von Dokumenten, Grafiken und Diagramme. Mit GPT-4 gehört dieses Problem der Vergangenheit an.  

So wurden unter anderem Anwendungsfälle gezeigt, in denen die AI Daten aus einem Balkendiagramm problemlos auswerten und anschließend Aussagen über den Inhalt machen konnte. Des Weiteren wurde ein Beispiel gezeigt, indem eine wissenschaftliche Arbeit, als Scan eingereicht und anschließend zusammengefasst wurde.

Prompt mit einem Scan und Antwort mit Zusammenfassung von GPT-4
In diesem Beispiel kann GPT-4 aus eingescannten Dokumenten eine Zusammenfassung schreiben

Allein diese Möglichkeiten sind beeindruckend, aber es hört an dieser Stelle nicht auf.  

So wurde auch ein Beispiel gezeigt, in denen lediglich ein Foto – völlig ohne Text eingereicht und analysiert wurde. Die AI sollte erkennen, was an diesem Foto ungewöhnlich ist und hat das ohne Schwierigkeiten geschafft.

Wem das noch nicht beeindruckend genug ist, der wird positiv überrascht sein, dass die KI sogar Humor und Memes verstehen und erklären kann.  

Ein Meme, das von GPT-4 erklärt wird
Ob nützlich oder nicht sei dahingestellt – verstanden hat GPT-4 den Witz allemal

GPT 4 ist in der Lage ein simples Meme ohne jegliche Anweisung von außen zu interpretieren und den Witz hinter dem Bild und dem Text darauf zu verstehen. Super für alle, die manchmal Schwierigkeiten damit haben, Witze zu verstehen. 

In der Live-Demo hat Greg Brockman außerdem gezeigt, dass GPT-4 aus einer einfachen – und ziemlich schlechten – Skizze einer Website den HTML- und JavaScript-Code für eine funktionierende Version dieser Website generieren konnte – in wenigen Sekunden. Hier ergeben sich auf lange Sicht wirklich unglaubliche Möglichkeiten.

Die Skizze und die daraus erzeugte Website
Aus der Skizze macht GPT-4 in wenigen Sekunden eine funktionale Website

Steerability – Die Lenkbarkeit des Modells

Eine weitere Verbesserung gibt es bei der sogenannten Steerability. Diese – auf Deutsch könnte man sagen – Lenkbarkeit des Modells ermöglicht es Usern, der AI grundlegende Anweisungen zur Verhaltensweise zu geben.

Auch dazu gibt es ein schönes Beispiel von OpenAI. Hier wird dem System die Anweisung gegeben, als sokratischer Lehrer aufzutreten. Das bedeutet Fragen sollen auf keinen Fall direkt beantwortet werden, sondern die Person soll mit gezielten Gegenfragen dazu gebracht werden, selbst auf die Antwort zu kommen.

Anweisung an GPT-4 als sokratischer Lehrer aufzutreten
GPT-4 setzt die Aufforderung, als sokratischer Lehrer zu agieren, perfekt um

Im Beispiel hilft die AI so dabei, zwei Gleichungen zu lösen, indem geduldig Tipps gegeben werden, wie man zur Lösung kommt. Das ist natürlich nur ein Beispiel und auch hier gibt es zig Szenarien, in denen eine so beeinflusste KI sehr hilfreich sein kann. 

Was sind die Einschränkungen und Limits von GPT-4?

Natürlich hat aber auch GPT-4 Limits und ist absolut nicht perfekt. Auch wenn viele „Baustellen“ schon deutlich besser geworden sind, kann es auch beim neuen Modell vorkommen, dass dieses „halluziniert“ oder Fakten erfindet, die keine sind.

Im Vergleich zum Vorgänger wurde aber dieses Fantasieren deutlich verbessert und in eigenen Tests von OpenAI schnitt GPT-4 um bis zu 40 % besser ab als GPT-3.5.

Vergleich der Faktentreue von verschiedenen GPT-Modellen
GPT-4 ist durch die Bank faktentreuer als die Vorgänger-Modelle

Zudem hat auch GPT-4 noch mit dem Problem von subjektiver Meinung zu kämpfen. Es gibt immer wieder Themen, bei denen die KI eine Tendenz hat und nicht vollständig objektiv antworten kann. Das ist aber natürlich zum einen allgemein ein delikates Thema, zum anderen ist es aktuell fast nicht möglich ein so mächtiges Modell komplett ohne irgendein Bias zu trainieren.

Was die Fähigkeit zur Konversation angeht, bietet GPT-4 nur kleine Unterschiede zum Vorgänger, was aber Sinn macht, da ChatGPT ja schon wirklich ein beeindruckend guter Gesprächspartner war! 

Wie geht es weiter mit GPT und künstlicher Intelligenz?

Also was ist der aktuelle Stand der Dinge und wie sieht die Zukunft künstlicher Intelligenz aus? Nach dem riesigen Hype um ChatGPT und alles, was danach kam, waren die Erwartungen an das neue, multimodale Modell natürlich riesig.

Die eigentliche Realität kann diese Erwartungen quasi nur enttäuschen, denn auch GPT 4 ist noch weit davon entfernt eine sogenannte AGI – Artificial General Intelligence – zu sein. Diese allgemeine KI, die wirklich alles wie ein Mensch verstehen und lernen kann, bleibt zumindest bis auf Weiteres eine Utopie. 

Sam Altman, der CEO von OpenAI, hat es selbst am besten gesagt. In seinem Tweet nach der Vorstellung sagt er nochmals deutlich: 

„GPT 4 ist immer noch nicht perfekt, es gibt immer noch Limits und es ist auch weiterhin so, dass es auf den ersten Blick beeindruckender scheint, als nach einer ausführlicheren Beschäftigung damit.“ 

Durch die hohen Erwartungen an OpenAI selbst, sowie hohe Investitionen von Microsoft kann man auch vermuten, dass GPT 4 vielleicht etwas früher der Öffentlichkeit vorgestellt wurde als erst einmal geplant, auch um die eigene Position weiter zu stärken.

Das zeigt auch der Fakt, dass die Bilderkennung bis auf Weiteres nicht zugänglich sein wird, sondern wie zuvor erwähnt nur in Kooperation mit Be My Eyes getestet wird. 

Trotzdem kann man sagen, dass OpenAI mit der neuen Version des Modells einen weiteren, großen Schritt gemacht hat und allein die Möglichkeit auch multimodale Inputs zu akzeptieren – also Text und Bilder – ist beeindruckend. Man darf in jedem Fall gespannt sein, wie die Reise weitergeht! 

Es gibt neben Be My Eyes noch ein paar weitere ausgewählte Partner, die bereits Apps mit GPT-4 entwickeln durften, unter anderem Duolingo und Morgan Stanley. Diese Anwendungen zeigen, dass das neue Modell durchaus auch schon in der Praxis genutzt werden kann.

GPT 4 ist für zahlende User von ChatGPT+ zum Testen verfügbar, außerdem gibt es die Möglichkeit sich bei OpenAI auf eine Warteliste zu setzen, um möglichst bald Zugriff auf das neue Modell zu bekommen.

Mehr Artikel

Nach oben scrollen