Egal, ob es ChatGPT ist, der Copilot Chat von Microsoft, Claude, Llama oder Gemini – Chatbots mit künstlicher Intelligenz haben die Welt im Sturm erobert und immer mehr Menschen beschäftigen sich mit diesen scheinbar allwissenden Bots. Aber woher kommt dieses Wissen und die Fähigkeit, in normaler Sprache mit uns zu kommunizieren?
Das Geheimnis liegt in den Large Language Models oder kurz LLMs, auf Deutsch nennt man diese Modelle wörtlich übersetzt “große Sprachmodelle”.
Sie bilden die zugrundeliegende Technologie der Chatbots und in diesem Artikel möchte ich Dir ganz oberflächlich erklären, wie Large Language Models funktionieren. Aber beginnen wir von vorne: Woher “weiß” ein Chatbot wie ChatGPT die Antwort auf meine Frage nach der Hauptstadt Italiens?
Das eigentliche Wissen kommt aus dem Sprachmodell, im Fall von ChatGPT sind das die GPT-Modelle, also zum Beispiel GPT-3.5 in der kostenlosen Version und GPT-4 oder GPT-4 Turbo für den bezahlten Plan.
Sprachmodelle werden mit einer Unmenge an Daten gefüttert und trainiert. Das sind dabei ganz unterschiedliche Informationen. Bei den bekannten Sprachmodellen sind es hauptsächlich öffentlich zugängliche Texte, Wissensdatenbanken, Bücher und wissenschaftliche Arbeiten.
All diese Informationen werden vom Sprachmodell und verschiedenen Algorithmen indexiert und verarbeitet. Dabei versucht das Modell Zusammenhänge zwischen den einzelnen Wörtern zu erkennen.
Mit der Zeit lernt es dann solche Dinge wie, dass auf Deutsch sehr häufig auf ein Personalpronomen ein Verb folgt oder in einem Nebensatz ein konjugiertes Verb immer am Ende des Satzes steht. Es erkennt aber auch Zusammenhänge auf oberflächlicher Ebene, wie beispielsweise, dass das Wort Fußball oft im selben Kontext auftaucht wie Tor, Stürmer oder Bundesliga.
Das Sprachmodell lernt Muster und kausale Zusammenhänge in der Sprache und speichert diese intern ab.
Dadurch ist es in der Lage den Kontext zu berücksichtigen und so den Unterschied zu erkennen, ob die Person, die eine Frage gestellt hat, sich bei dem Wort “Tor” auf Fußball oder eine Hofeinfahrt bezieht.
Das ist enorm wichtig, denn Wörter mit unterschiedlichen Bedeutungen würden ohne den Kontext für Verwirrung sorgen. Wenn ich Informationen über eine Bank möchte, dann muss das Sprachmodell in der Lage sein zu unterscheiden, ob ich jetzt das Finanzinstitut oder das Möbelstück meine.
Wenn ich jetzt also frage, welche Informationen für eine Bank relevant sind, wenn ich eine Immobilie finanzieren möchte, dann wird das Sprachmodell meinen Satz analysieren und Stichworte wie finanzieren und Immobilie erkennen und entscheiden, dass ich sehr wahrscheinlich keine Bank zum Sitzen möchte.
Das Modell ruft also intern alle gespeicherten Informationen ab, die es unter dem Stichwort “Bank, Finanzinstitut” gespeichert hat, sieht seine gesamten Trainingsdaten durch und versucht eine sinnvolle Antwort zu bilden.
Aber wie schafft es das jetzt?
Um das zu verstehen, hilft es, mit einem einfacheren Beispiel zu arbeiten. Nehmen wir die Frage nach der Hauptstadt von Italien. Während der Trainingsphase hat das Modell Texte zu Italien gelesen und in diesen Texten wurde mit Sicherheit auch mehrmals die Hauptstadt genannt. Es speichert sich also ab, dass Italien, Hauptstadt und Rom häufig eng beieinanderstehen. Anschließend versucht es, dieses Muster weiter zu bestätigen und sucht gezielter in den Trainingsdaten danach.
Da Sprachmodelle auch auf Basis von Wikipedia trainiert wurden und man dort ja dieses feste Tabellenformat hat, indem Hauptstadt gefolgt vom Namen der Stadt steht, kann diese Assoziation relativ schnell als richtig abgespeichert werden.
Insbesondere deshalb, da es sich bei den Daten von Wikipedia natürlich um sehr hochwertige und zuverlässige Daten handelt.
Sprachmodelle werden aber auch mit “ungefilterten” Daten trainiert, also direkte menschliche Kommunikation beispielsweise aus Foren wie Reddit. Dadurch schafft es die KI dann letzten Endes auch umgangssprachliche Formulierungen und allgemein gesprochene Sprache richtig zu deuten.
Sehen wir uns als Nächstes an, wie das Modell die Antwort formuliert: Die Hauptstadt von Italien ist Rom.
Wenn man sich die Satzstruktur ansieht, dann erkennt man, dass es sich liest, wie eine Herleitung, die eine Lehrerin verwendet, um einen Schüler auf die richtige Lösung zu bringen. Das ist dabei kein Zufall, denn durch diese Struktur wird die Antwort mit einer hohen Wahrscheinlichkeit korrekt sein, da sie eben dem bekannten Muster folgt.
Das Sprachmodell verhält sich also ähnlich zur Autocomplete-Funktion von unserem Handy oder der Google Suche. Es erkennt unseren Satz und versucht ihn korrekt zu beenden. Dafür verwendet es die Informationen, mit denen es trainiert wurde und die Zusammenhänge zwischen den einzelnen Wörtern, die es während der Trainingsphase erkannt hat.
Genau hier unterscheidet sich das Sprachmodell aber von einer einfachen Auto-Complete Funktion, denn es wird nicht immer nur das letzte Wort als Grundlage für die Voraussage des Nächsten verwendet, sondern der gesamte Kontext von Frage und bereits erstellter Antwort wird für jedes neue Wort mit einbezogen.
Man kennt das ja vielleicht auch aus dem Alltag, wenn man sich selbst versucht, die Antwort auf eine Frage herzuleiten. Dann formuliert man eine Antwort, die sich in ihrer Struktur sehr an der eigentlichen Frage orientiert. “Was ist die Hauptstadt von Deutschland?” “Die Hauptstadt von Deutschland ist … Berlin”
Man nutzt also auch als Mensch diese Muster und Verknüpfungen ganz automatisch, um sich bestimmte Verbindungen von Wörtern ins Gedächtnis zu rufen.
Sprachmodelle sind keine Zauberei, aber natürlich auch nicht trivial. Sie funktionieren mithilfe von sehr komplexen und anspruchsvollen Berechnungen.
Nur um ein Beispiel zu machen: Viele dieser Operationen verwenden Vektormultiplikation, um auf ein Ergebnis zu kommen und die Vektoren, die dabei verwendet werden, sind nicht nur 2- oder 3-dimensional, sondern beschreiben nicht selten Punkte mit mehr als 10.000 Dimensionen.
Durch die unglaubliche Rechenleistung, die wir heutzutage zur Verfügung haben, sind Computer in der Lage diese Berechnungen fast schon in Echtzeit durchzuführen. Deshalb kommt es uns oft so vor, als wäre die KI wirklich allwissend, tatsächlich kalkuliert sie aber nur unfassbar schnell Wahrscheinlichkeiten und baut sich auf Basis ihres Trainings dann die Antwort zusammen.