Die Veröffentlichung eines neuen Sprachmodells, das anscheinend sogar ChatGPT mit dem neuen GPT-4o Modell in den Schatten stellt, hat die KI-Welt am 21. Juni 2024 mal wieder komplett auf den Kopf gestellt – und in diesem Artikel erklären wir euch direkt alles, was ihr über Claude Sonnet 3.5, das neue Top-Modell von Anthropic wissen müsst.
Tatsächlich hat sich Anthropic auch aufgrund der strategischen Partnerschaften im Windschatten von OpenAI zu einer ernstzunehmenden Alternative entwickelt und wird oft im gleichen Atemzug genannt wie ChatGPT, Gemini und Copilot.
Das Problem in Europa war, dass wir bis vor kurzem keinen Zugriff auf die Claude Modelle hatten, und somit ist das Tool bei uns relativ unter dem Radar geflogen. Bisher war es eine gute Alternative, aber tatsächlich hatten wir nie das Gefühl, dass Claude signifikant besser als die Topmodelle von OpenAI performt hat, weshalb es auch für uns eher eine Randnotiz war.
Seit dem neuen Update könnte sich das jetzt für einige von uns ändern. Es ist jetzt das erste Mal, dass ein Konkurrenzprodukt zu GPT vorgestellt wird, dass zum einen umsonst im Web, in der App und sogar in der API direkt getestet werden kann und zumindest in den ersten beiden Varianten vollkommen kostenlos.
Hier kannst Du das neue Modell direkt verwenden!
Anthropic stellt das Modell also jetzt einer Unzahl von Testern zur Verfügung und nachdem wir gestern Abend einige unserer Standardtests mit der KI gemacht haben, sind wir wirklich beeindruckt.
Was kann das neue Claude Sonnet 3.5 Modell von Anthropic?
Es ist doppelt so schnell wie das Vorgängermodell, bietet ein 200.000 Token Kontextfenster, hat eine verbesserte Computer-Vision – also Bildverarbeitung und kann in unterschiedlichen Disziplinen bessere Ergebnisse als GPT4o erzielen.
Diese Benchmarks bezeichnen einfach eine Reihe von standardisierten Testergebnissen, die unternehmensübergreifend verwendet werden, um einen einheitlichen Eindruck von der Qualität eines Modells zu erhalten.
Dabei werden die Tests in unterschiedliche Kategorien unterteilt, also z.B. Mathematische Aufgaben, Allgemeinwissen, Programmierkenntnisse usw. Wir sehen dann hier direkt in der Tabelle, dass Claude in fast allen Kategorien die Nase vorn hat.
Man muss dazu sagen, dass von GPT4o nicht für alle Tests offizielle Ergebnisse vorlegen und wir damit arbeiten, was bekannt ist. Aber auch wenn man, das außen vor lässt, entsteht ein eindeutiges Bild. Der Vorsprung mag knapp aussehen, aber hierzu muss man einfach sagen, dass ein halbes Prozent hier schon einen riesigen Unterschied macht und OpenAI kann mit diesen Ergebnissen keinesfalls zufrieden sein.
Aber so beeindruckend, das jetzt klingt, sind diese Benchmarks ja eigentlich nur Testergebnisse, von Tests, die nicht immer 1 zu 1 auf die echte Welt übertragbar sind. Deshalb schauen wir ja immer gerne auf die Vergleiche in der Chatbot Arena, denn dort wird ein Leaderboard erstellt, das durch anonyme Bewertungen der Modelle durch echte User entsteht. Sonnet 3.5 ist schon verfügbar, als wir das Video aufgenommen haben, gab es allerdings noch nicht genug Daten für eine Platzierung.
Das sollte sich aber in den nächsten Tagen ändern und wir sind sehr gespannt, wo sich das neue Modell einreihen kann – vielleicht gibt es sogar einen neuen Platz 1!
Unser Eindruck des neuen Modells Claude Sonnet 3.5
Da es sehr umfangreicher Tests bedarf, bis man sich wirklich eine endgültige Meinung bilden kann, werden wir diesen Artikel in den kommenden Tagen noch ergänzen, aber natürlich haben wir direkt nach dem Release schon fleißig unsere Tests gemacht und was dabei herausgekommen ist, seht ihr jetzt.
Geschwindigkeit – Wie schnell ist das neue Modell?
Als erstes wollten wir uns von der Geschwindigkeit überzeugen. Dazu haben wir einfach mal denselben, relativ einfachen Prompt sowohl an ChatGPT mit dem neuesten 4o-Modell als auch an Claude 3.5 Sonnet abgeschickt.
Hier sehen wir, obwohl das 4o Modell von OpenAI ja auch schon wirklich eine deutliche Steigerung in Bezug auf die Geschwindigkeit hingelegt hat, doch noch mal einen Unterschied und es scheint so, also hätte Anthropic hier wirklich nicht zu viel versprochen. Die Antwort von ChatGPT hatte ein paar Wörter mehr, aber selbst wenn man das miteinbezieht, schlägt Sonnet in unseren Vergleichen den Platzhirsch in Bezug auf das Tempo, in dem die Ausgaben erzeugt werden.
Computer Vision – Die neue Bilderkennung von Claude Sonnet 3.5
Für den Test des Vision-Fähigkeiten haben wir zwei unterschiedliche Arten von Bilder getestet. Einmal ein Foto, bzw. Ein KI-generiertes Bild von einem Porsche mit der einfachen Frage danach, was auf dem Bild zu sehen ist.
Hier haben wir wirklich eine ausführliche Beschreibung aller Bestandteile des Bilds und sogar eine Art emotionale Einordnung bekommen, also wirklich sehr gut.
Aber uns interessiert natürlich auch, wie mit Daten auf Bildern umgegangen wird und deshalb haben wir danach einen Screenshot eines Diagramms ausprobiert und um eine Interpretation des Schaubilds gebeten.
Und auch hier: Eine wirklich detaillierte Einordnung, die die Daten auf unseren Diagramm korrekt erfasst und bewertet. Und das sind ja immer nur die ersten Antworten, man kann dann mit Claude natürlich auch noch genauer über verschiedene Aspekte sprechen, wenn man das möchte.
Unser Eindruck wird dann auch von den Benchmarks der Vision-Fähigkeiten bestätigt, bei denen wir beeindruckende Sprünge in der Performance von bis zu 17% in Bezug auf Claude 3 Opus sehen, was visuelle Mathematik angeht.
Auch wenn das natürlich immense Verbesserungen sind, finde ich persönlich besonders die Entwicklung bei der Erkennung von Diagrammen, Grafiken und Tabellen spannend, da ein Großteil der User meiner Meinung nach eher hiervon Gebrauch machen wird.
Artifacts – interaktive Umgebung für Split-Screen-Arbeit
Eine spannende Funktion, die Anthropic vorgestellt hat, nennt sich Artifacts. Dabei handelt es sich um eine Art Echtzeit-Editor, bei dem das Ergebnis dynamisch neben unseren Eingaben generiert und angezeigt wird. Das ermöglicht uns einfach eine bessere und vor allem flexiblere Zusammenarbeit mit der KI, da wir direkt sehen, was wir momentan bearbeiten. Gerade in Bezug auf kreative Aufgaben bieten sich hier natürlich eine Menge Möglichkeiten und bisher war es bei vielen führenden KIs so, dass man eine Eingabe macht und dann mit einem fertigen Ergebnis konfrontiert wird und man dieses selbst bei Bildern nur sporadisch anpassen konnte.
Das versucht Artifacts jetzt zu ändern und auf den ersten Blick sieht es wirklich toll aus. Wir kommen einfach gerade in eine neue Phase bei der Arbeit mit KI-Tools. Die Technologie ist mittlerweile wirklich gut und fähig, jetzt geht es darum, die Nutzererfahrung zu verbessern und die Arbeit mit den Tools noch intuitiver zu gestalten. Da ist Artifacts auf jeden Fall ein sehr interessanter Ansatz.
Richtig beeindruckend wird das alles jetzt, wenn man diese neuen Fähigkeiten kombiniert. Dazu haben wir einfach einmal einen Screenshot von der ChatGPT-Website gemacht und diesen in Claude hochgeladen. Dazu einfach nur die kurze Bitte, den Frontend-Code für diese Website zu schreiben.
Claude 3.5 Sonnet verwendet jetzt die angesprochenen, sehr guten Vision-Fähigkeiten und benutzt dann Artifacts, um den Code für uns zu schreiben. Man sieht auch direkt in welcher Geschwindigkeit das abläuft und schon nach nicht einmal einer Minute haben wir dieses Ergebnis bekommen. Den Code können wir jetzt einfach direkt in Zusammenarbeit mit Claude weiterentwickeln oder herunterladen und selbst anpassen. Das ist wirklich eine unglaubliche Leistung, die wir so noch in keiner anderen KI gesehen haben – und schon gleich zweimal nicht in dem Tempo.
Fazit zum neuen Claude Sonnet 3.5 Modell
Mit dem neuen Claude 3.5 Modell in der Variante Sonnet hat Anthropic auf den ersten Blick wirklich abgeliefert. Sowohl die Geschwindigkeit, als auch die Qualität der Antworten spielen aktuell in der obersten Liga der Chatbots mit und man darf nicht vergessen: Das große Opus-Modell hat das Update noch gar nicht bekommen. In ChatGPT-Sprache bedeutet das: Wir haben hier eigentlich das Äquivalent zu GPT-3.5 Turbo und nicht GPT-4.
Bevor jetzt die Frage kommt, weshalb die meisten Anbieter zunächst diese „kleineren“ Modelle veröffentlichen, die dann tatsächlich auch oft direkt für alle verfügbar sind, anstatt sich auf ihre Frontier-Modelle, also die Flaggschiffe zu konzentrieren, möchten wir das einfach direkt adressieren, da es hierfür einen extrem simplen Grund gibt.
Es dauert einfach, bis ein großes Modell trainiert ist. Schlicht und einfach. Kleine Modelle mit weniger Parametern sind früher fertig und können in manchen Fällen dann sogar für das Training der großen Modelle genutzt werden und beispielsweise Trainingsdaten vor-filtern und aufbereiten, damit die zukünftigen Modelle wie GPT5 oder Claude 3 Opus effizienter arbeiten.
Natürlich konnten auch wir in der kurzen Zeit seit der Ankündigung noch nicht alles komplett bis ins letzte Detail testen – aber das holen wir natürlich nach. Wir sind bereits bei der Arbeit an einem ausführlicheren Video zum neuen Claude mit mehr Beispiele, Anwendungen und Informationen für euch. Alle neuen Erkenntnisse und Ergebnisse werden in diesem Artikel selbstverständlich ergänzt.