Was ist ein Large Language Model?

Inhaltsverzeichnis

Über diesen Guide

Computerprogramme, mit denen man schreiben und sprechen kann, wie mit einem normalen Menschen, haben lange Zeit nur im Science Fiction-Genre stattgefunden, sind jedoch seit wenigen Jahren für viele Menschen zugänglich. Ein Grund für diese rasante Entwicklung und die enormen Fortschritte sind die sogenannten Large Language Models (LLMs). Diese Algorithmen haben die Art und Weise verändert, wie wir mit Maschinen interagieren können und gehen mittlerweile schon über die reine Verarbeitung von Text und Sprache hinaus. In diesem Artikel wird erläutert, wodurch sich LLMs auszeichnen und wie sie funktionieren. Außerdem werden Wege aufgezeigt, wie sich verschiedene Modelle und deren Vorhersagen vergleichen lassen und die Frage beantwortet, wie weit die Artificial General Intelligence möglicherweise noch entfernt ist.

Was ist ein Large Language Model (LLM)?

Ein Large Language Modell ist eine besondere Art von künstlicher Intelligenz, die im Ursprung in der Lage ist, menschliche Sprache zu “verstehen” und selbst ausgeben zu können. Sie nutzt dabei eine Unterform der künstlichen Intelligenz, das sogenannte Deep Learning, und verwendet neuronale Netzwerke, die von Strukturen im menschlichen Gehirn inspiriert sind. Ihren Namen erhalten sie dadurch, dass Large Language Models eine Vielzahl von Parametern benötigen, um in der Lage zu sein, diese Aufgaben umzusetzen. Zudem werden sie auf riesigen Datenmengen trainiert, um die Sprache zu erlernen. In den meisten Fällen werden dafür Texte aus dem Internet genutzt.

Ein Großteil der LLMs, die heutzutage genutzt werden, sind jedoch nicht nur in der Lage, Text als Eingabe zu verwenden, sondern verarbeiten auch andere Medien, wie beispielsweise Bilder, Videos oder Audio-Dateien. Solche Modelle bezeichnet man als multimodal, da sie in der Lage sind, verschiedene Kommunikationsmethoden zu verstehen, zu verarbeiten und auch wieder auszugeben. In diesem Sinn entwickeln sich diese Modelle weg von reinen Large Language Models, da sie eben nicht nur Sprache verstehen und selbst erzeugen können. Solche Modelle waren in der Vergangenheit als sogenannte Foundation Modelle bekannt, jedoch werden für Large Language Models heutzutage vor allem das Attribut “multimodal” benutzt, welches beschreibt, dass das Modell nicht nur Sprache als Ein- und Ausgabe nutzen kann, sondern auch darüber mit anderen Dateiformaten umgehen kann.

So funktionieren Large Language Models: Daten (Text, Bild, Audio, Video, Sensor, strukturiert, semistrukturiert, Grafiken, Diagramme); Training; Foundation Model; Anpassung; Beispielhafte Aufgaben (Textgenerierung, Übersetzung, Bilderkennung, Codeerstellung, Ausarbeitung von Rechnungen)m — *Funktionsweise von Large Language Models (LLMs)*

Was sind Foundation-Modelle?

Als Foundation-Modelle bezeichnet man überwiegend große neuronale Netzwerke, die bereits für einen gewissen Bereich von Anwendungen, beispielsweise Sprachverarbeitung, vortrainiert sind. Für dieses Vortraining sind riesige Datensätze nötig, damit das Foundation-Modell Zusammenhänge in den Daten erkennen und auf neue Anwendungen übertragen kann. Außerdem müssen große Rechenressourcen vorhanden sein, da die zugrundeliegenden Berechnungen umfangreich sind und in großer Zahl anfallen.

Nachdem das Vortraining stattgefunden hat, können die Modelle dann auf spezielle Anwendungen fein abgestimmt werden (englisch: Finetuning). Solch eine Feinabstimmung wird dann beispielsweise genutzt, damit ein Foundation-Modell Texte zusammenfassen, in verschiedene Sprachen übersetzen oder sogar komplett neue Passagen erzeugen kann.

Diese Foundation-Modell-Architektur ist vor allem deshalb vorteilhaft, weil für die Feinabstimmung deutlich weniger Daten benötigt werden als für das ursprüngliche Vortraining. Zudem kann dadurch auf Ergebnisse und Fortschritte des Modells aus vorherigen Trainings zurückgegriffen werden.

Wie funktioniert ein Large Language Model?

In einem unserer vorherigen Artikel zu Sprachmodellen im Allgemeinen wurde bereits auf die grundlegenden Arten von Sprachmodellen und deren grobe Funktionsweise eingegangen. In diesem Text soll jedoch auf die speziellen Eigenschaften und Herausforderungen eingegangen werden, die sich aus einem LLM ergeben. Ein Large Language Model bekommt in der einfachsten Form einen Text als Eingabe, welcher dann als Basis für die weiteren Berechnungen dient. Viele der heutigen Modelle sind multimodal und können neben Text auch andere Eingabeformen, wie zum Beispiel Bilder oder Audios, verarbeiten. Für die folgenden Erläuterungen beschränken wir uns jedoch auf Texteingaben und -ausgaben.

Die Eingabe wird in sogenannte Tokens aufgeteilt, die entweder einzelne Wörter oder sogar Silben repräsentieren können. Dadurch wird der Text in kleinere Einheiten aufgesplittet, die anschließend einfacher analysiert und verarbeitet werden können. Jedoch können Computer nativ nicht mit Wörtern umgehen, weshalb sie vor der weiteren Verarbeitung in der sogenannten Encoding - Schicht kodiert werden, also in numerische Vektoren umgewandelt werden. Während des Trainings haben einzelne Schichten des Netzwerks die sogenannten Embeddings erlernt. Ein gutes Embedding zeichnet sich dadurch aus, dass die numerische Repräsentation eines Wortes möglichst viel Information über den Inhalt enthält und dadurch Vektoren, die nahe beieinanderliegen auch Tokens repräsentieren, die eine ähnliche Bedeutung haben, wie beispielsweise Synonyme.

Ein Vektor ist ein mehrdimensionaler Datentyp mit Zahlen, die eine Richtung darstellen. Am einfachsten kann man sich einen Vektor wie einen Richtungspfeil vorstellen. Dieser gibt Anweisungen, wie man von einem Punkt zu einem anderen Punkt im Raum kommt. Der Vektor (5, 2) kann zum Beispiel bedeuten, dass zunächst fünf Schritte geradeaus und anschließend zwei Schritte nach links gegangen werden müssen, um den Zielpunkt zu erreichen.

Jedes der Token wird in einen solchen Vektor umgewandelt, damit der Computer mit den Zahlen rechnen kann. Ein weiterer Vorteil dieser Repräsentation ist, dass thematisch ähnliche Wörter, wie beispielsweise „spielen“ und „die Spielerin“ in eine ähnliche Richtung zeigen und somit das Modell erkennt, dass diese zwar nicht gleich sind, jedoch eine ähnliche Bedeutung haben.

So funktioniert Word Embedding: Madrid -> Spanien, Berlin -> Deutschland, langsam -> langsamer -> am langsamsten, klein -> kleiner -> am kleinsten, schwimmen -> geschwommen, Mutter -> Sohn -> Tochter, König -> Prinz -> Prinzessin, Pferd -> Pferde, Geldbörse -> Portemonnaies — *Funktionsweise von Word Embedding*

Ein Großteil der aktuellen LLMs basieren auf einer sogenannten Transformer-Architektur, welche im Paper von Vaswani et. al (2017) zum ersten Mal vorgestellt wurde. Der Kernpunkt dabei ist, dass es eine sogenannte Aufmerksamkeitsschicht gibt, die jedem der Token einen Wert zuweist, der besagt, wie wichtig der Token für die Bearbeitung der Aufgabe ist. Außerdem zeichnen sich diese Modelle dadurch aus, dass sie die genaue Position jedes Tokens abspeichern, um diese Information auch mit in die Vorhersage aufzunehmen.

Dieses Modell wird anschließend mit einer Vielzahl von Texten trainiert, die meist aus dem Internet stammen und dafür sorgen, dass das Modell Sprache und deren Verwendung versteht. Durch dieses Training werden Strukturen erkannt, welche dann für neue Vorhersagen genutzt werden können. Der Begriff “large” ergibt sich jedoch nicht nur aus der Größe der Trainingsdaten, sondern auch aus dem enormen Rechenaufwand, der beim Training, aber auch bei der Nutzung des Modells entsteht.

Um diese immensen Rechenaufwände in direkte Zahlen zu packen, versuchen verschiedene Quellen die Kosten abzuschätzen, die ein einziger Trainingsdurchlauf eines Large Language Models erzeugen. Als Grundlage für diese Berechnungen werden oft lediglich die Hardware-Kosten betrachtet, also wie viel die Nutzung der GPUs, also der Recheneinheiten gekostet hat. So rechnet beispielsweise Forbes damit, dass ein einziger Trainingsdurchlauf von GPT-3 Kosten in Höhe von mindestens fünf Millionen USD allein für GPUs erzeugt. Dabei sind andere Kostenpunkte, wie beispielsweise Personalkosten gar nicht enthalten.

Hierbei wird deutlich, warum der Markt von LLM-Anbieter, die tatsächlich Modelle von Grund auf trainieren so klein ist und auch nur wenige Marktteilnehmer dazustoßen, da der Trainingsaufwand für kleine und mittlere Unternehmen ohne zahlkräftige Investoren im Hintergrund überhaupt nicht stemmbar ist.

Aktuelle Modelle besitzen mehrere Milliarden an Parametern, die Berechnungen durchführen. Dadurch reichen herkömmliche Computer für die Berechnung nicht aus und es wird eine Vielzahl von Prozessoren, sowie Grafikkarten, eingesetzt um dieser Menge gerecht werden zu können.

Obwohl solche großen Modelle mit intensiven Berechnungen bereits sehr gute Ergebnisse liefern können, kann die Leistung nicht einfach durch die Erhöhung der Parameter verbessert werden. Die neueren Modelle, wie beispielsweise GPT-4 oder Mixtral, setzen deshalb auch auf innovative Ansätze, wie den sogenannten Mixture of Experts. Dabei wird ein großes Modell in verschiedene Unterbereiche aufgeteilt, die sogenannten Experts, die für verschiedene Anwendungen genutzt werden. Abhängig von der Eingabe des Benutzers wird dann entschieden, welcher spezielle Teil des Netzwerks angesteuert werden muss, damit eine möglichst gute Vorhersage gemacht werden kann. Durch diesen Ansatz können auch mehrere Experts angesteuert werden, es wird jedoch verhindert, dass bei jeder Anfrage das gesamte Netzwerk mit den Millarden von Parametern komplett durchlaufen wird. Dadurch können die Modelle größer und komplexer werden und gleichzeitig Rechenaufwand gespart werden.

Wie können Modelle verglichen werden?

Bei dem Umgang mit Large Language Models (LLMs) und deren Ausgaben ist es oft die subjektive Empfindung des Users, die darüber bestimmt, ob die Leistung des Modells gut oder schlecht ist. Im Vergleich zu anderen Deep-Learning-Anwendungen bietet der Umgang mit natürlicher Sprache deutlich weniger rationale Kennzahlen, die die Qualität eines Modells ausdrücken können. Oftmals ist es die subjektive Wahrnehmung und der Anwendungsfall selbst, der darüber bestimmt, ob das Modell ausreichend gut performt.

Um die Leistungsfähigkeit der Modelle trotzdem unabhängig und rational vergleichbar zu machen, gibt es sogenannte Benchmarks, die belastbare Zahlen liefern. Dabei werden standardisierte Tests und Datensätze genutzt, um die Performance eines LLMs bewerten und es mit den Ergebnissen von anderen Modellen vergleichen zu können. Abhängig von der Anwendung haben sich verschiedene Benchmarks mit der Zeit entwickelt. Zu den am weitesten verbreiteten zählen Folgende:

IFEval Dataset: Das Instruction Following Evaluation Dataset umfasst mehr als 500 Benutzereingaben mit Befehlen. Mit diesem Datensatz soll gemessen werden, wie gut das Modell auf die Einzelheiten des Befehls eingeht und diesen auch wirklich umsetzt.
BIG-Bench Hard: Dies umfasst eine Reihe von insgesamt 23 verschiedenen Aufgaben, die aus dem Bewertungstest BIG-Bench entnommen wurden und als “hart” eingestuft wurden, da vorherige Sprachmodelle in diesen Aufgaben menschliche Kontrahenten nicht schlagen konnten. Eine Aufgabe umfasst beispielsweise das Verständnis für geometrische Figuren.
Graduate-Level Google Proof Q&A Benchmark (GPQA): In diesem Datensatz sind über 400 Multiple-Choice Fragen enthalten, die Verständnis in den Bereichen Chemie, Physik und Biologie abfragen. Selbst gut gebildete Testpersonen konnten im Durchschnitt 65% der Fragen richtig beantworten. Zudem sind die Fragen “Google-Proof”, was bedeutet, dass man die Antworten auch mit unbegrenztem Internetzugang nicht lösen kann und sie somit ausschließlich auf dem eigenen Wissen beruhen.

Aus diesen und anderen Benchmarks kann dann eine Rangfolge der Large Language Models erstellt werden, die aufzeigt, wie gut einzelne LLMs performen. Eine weit verbreitete Liste bietet beispielsweise die Large Model Systems Organization (LMSYS), welche die Modelle unter anderem nach ihrem sogenannten Elo Score anordnet. Dabei handelt es sich um ein Konzept aus dem Schachsport, welches einzelne Spieler bewertet, abhängig davon, wie viele Spiele diese gewonnen haben und wie stark die Gegner dabei waren. Bei den LLMs werden dabei auch Duelle zwischen zwei Modellen veranstaltet, bei denen Nutzer anonymisiert entscheiden, welches Modell das bessere Ergebnis geliefert hat.

Wie weit sind LLMs noch von Artificial General Intelligence entfernt?

Die Artificial General Intelligence beschreibt eine Maschine, die alle Fähigkeiten besitzt, die einem menschlichen Wesen zugeschrieben werden. Dazu zählen neben dem Verständnis von Sprache auch beispielsweise die Eigenschaft, Dinge zu erlernen, Schlussfolgerungen zu ziehen oder kreative Projekte umzusetzen. Da viele LLMs Sprache nicht nur gut verstehen, sondern auch kreative und neue Texte generieren können, entsteht leicht der Eindruck, dass sie menschlicher Intelligenz bereits sehr nahe kommen. Hinzu kommt, dass sich die Modelle in einem schnellen Tempo weiterentwickeln und vorgeben, bereits einfachere Rechenaufgaben in Mathematik oder Physik lösen zu können. Das Modell Gemini von Google findet beispielsweise Fehler in verschiedenen Rechenaufgaben und kann auch bereits die richtige Lösung dazu anbieten, wie man in diesem Video sieht.

Jedoch gibt es auch namhafte Verfechter innerhalb der KI-Community, die bezweifeln, dass LLMs so wie sie heute funktionieren eine solche generelle Intelligenz erreichen können. Den Grund dafür sieht beispielsweise Metas AI-Chef Yann LeCun darin, dass LLMs ihr Wissen aus den riesigen Textmengen beziehen, mit denen sie trainiert werden. Er argumentiert in einem Artikel, dass wir Menschen einen Großteil unserer Intelligenz nicht aus Texten und Büchern beziehen, sondern aus den Interaktionen mit unserer Umwelt. Deshalb schlägt er vor, dass die Modelle vielmehr durch ihren Austausch mit der physikalischen Welt lernen sollen, indem sie Reaktionen über Sensoren oder Kameras aufnehmen. Für LeCun sind außerdem sogenannte “World Models” von großer Bedeutung, auf denen menschliche Intelligenz aufbaut. Ein Großteil der Entscheidungen im Alltag besteht darauf, dass die Umwelt beobachtet wird und anschließend beurteilt wird, welche nächste Aktion am Besten wäre und welchen zukünftigen Zustand diese Aktion hervorrufen würde. Laut Yann LeCun können diese World Models jedoch nicht allein mithilfe von Sprache aufgebaut werden, sondern umfassen unter anderem auch physikalische Aspekte, die beispielsweise durch ein physisches Feedback, wie Greifen, erlernt werden können. Mehr darüber gibt es auch im Podcast von Lex Friedman, Folge: Yann Lecun: Meta AI, Open Source, Limits of LLMs, AGI & the Future of AI.

Auch die Forschung untersucht bereits, ob die heutigen LLMs überhaupt technisch so aufgesetzt sind, dass sie zur Entwicklung von Artificial General Intelligence (AGI) führen können. Einige Paper, wie beispielsweise Chen et al. (2024) Transformer-Based Large Language Models are not General Learners: A Universal Circuit Perspective, kommen zu dem Schluss, dass die heutige Transformer-Architektur aus denen die meisten LLMs bestehen, technisch limitiert sind, da ihre Kapazitäten nicht ausreichen, um die unterschiedlichen Darstellungsoptionen von Wissen abzubilden. Deshalb fordern sie, dass die zukünftige Forschung neue Architekturen finden muss, um diese Lücke zu schließen. Anders sei es nicht möglich, solch allgemein lernende Modelle zu erstellen.

Fazit: Das Wichtigste im Überblick

Wir fassen zusammen: Large Language Models sind Computerprogramme, die in der Lage sind, menschliche Sprache zu verarbeiten und zu generieren. Sie können für verschiedene Anwendungen genutzt werden, wie zum Beispiel das Übersetzen von Texten, das Zusammenfassen von längeren Artikeln, das Erstellen von Inhalten oder das Beantworten von Fragen in Support- und Kundenservice-Szenarien. Technisch gesehen basieren viele der aktuellen Modelle auf der sogenannten Transformerarchitektur, die durch ihre einzigartige Aufmerksamkeitsschicht (Attention Mechanism) ermöglicht, kontextbezogene Beziehungen in Texten zu analysieren und so relevante Informationen besser zu gewichten.

Um die Leistungsfähigkeit der Modelle zu vergleichen, werden Benchmarks verwendet. Diese enthalten spezifische Aufgabenstellungen, deren Ausgaben mit menschlichen Antworten oder denen anderer Modelle verglichen werden. Obwohl die Modelle in Benchmarks und echten Anwendungen bereits sehr gut abschneiden, gibt es Zweifel daran, dass mithilfe dieser Architektur auch eine menschenähnliche Intelligenz, die sogenannte Artificial General Intelligence (AGI), erreicht werden kann. Es wird spannend sein, zu beobachten, wie sich dieses Feld in Zukunft weiterentwickelt.

Fordern Sie jetzt Ihren eigenen Chatbot-Prototyp an!

Jetzt, da Sie mehr über die Möglichkeiten von Large Language Models wissen, wird es Zeit, selbst zu erleben, wie diese Technologie Ihrem Unternehmen nutzen kann. Klicken Sie auf das Banner, um ganz unverbindlich Ihren ersten Chatbot-Prototyp zu erstellen – und entdecken Sie, wie LLMs in der Praxis funktionieren und wie sie Ihnen helfen können, Ihre Kundenkommunikation auf ein neues Level zu heben.

‍