In den letzten Monaten haben verschiedene Big Player, wie Google, Meta oder OpenAI, unterschiedliche Modelle und Architekturen vorgestellt und weiterentwickelt, was die Übersicht über den Markt erschwert. Zusätzlich gibt es auch einige kleinere Organisationen, vor allem aus dem Open Source Bereich, die beachtliche Ergebnisse vorweisen können. Daher stellt dieser Artikel einige der bekanntesten und leistungsstärksten LLMs vor und erläutert die Unterschiede.
Was ist ein LLM und wie funktioniert es?
Ein Large Language Model ist eine Unterkategorie von maschinellen Lernmodellen, die darauf trainiert wird, menschliche Sprache zu verstehen, zu verarbeiten und selbst zu generieren. Diese Architekturen haben in den meisten Fällen Milliarden von erlernbaren Parametern, die das Modell “large” machen und die Möglichkeit bieten, dass komplexe Strukturen in den Daten erlernt werden können. Zusätzlich werden riesige Textmengen verwendet, um das Modell zu trainieren und möglichst gut die Sprache mit all ihren Eigenheiten, wie Grammatik oder Synonyme, zu verstehen.
Heutzutage sind viele Modelle “multimodal”. Sie sind in der Lage, nicht nur Text, sondern auch Audio-, Video- und andere Dateiformate zu verarbeiten. Deshalb spricht man in vielen Fällen auch nicht mehr von “Large Language Models”, sondern von sogenannten “Foundation Modellen”, da sie nicht ausschließlich Sprache verarbeiten können und eine breite Wissensbasis besitzen.
Welches sind die wichtigsten LLMs?
Seit der Veröffentlichung von ChatGPT im November 2022 durch OpenAI gab es einige Bewegung im Bereich der Large Language Models und viele größere Tech-Firmen haben ihre eigenen Modelle veröffentlicht. In diesem Abschnitt beschäftigen wir uns deshalb mit einigen der wichtigsten LLMs und deren Eigenschaften.
1. OpenAI GPT
(aktuelles Modell: GPT-4o, Mai 2024)
GPT-4o ist die neueste Generation der Generative Pretrained Transformer (kurz: GPT), die vom Unternehmen OpenAI, welches hinter ChatGPT steckt, veröffentlicht wurde. Das “o” am Ende steht dabei für “omni”, da die neueste Version in der Lage ist, die Fähigkeiten im Bereich der Audio-, Bild- und Textverarbeitung zu kombinieren und dabei noch deutlich performanter und effizienter agiert als bei vorherigen Versionen.
Das Interessante an dieser Architektur ist, dass es sich nicht um ein einziges, großes Modell handelt, sondern um eine Vielzahl von “kleineren” Modellen, die gezielt zusammenarbeiten. Dieses Vorgehen wird als “Mixture of Experts (MoE)” bezeichnet. Obwohl OpenAI die genaue Architektur unter Verschluss hält, geht man davon aus, dass es insgesamt 16 sogenannte Expertenmodelle gibt, die für verschiedene Teilbereiche trainiert wurden. Für jede Vorhersage werden dann zwei dieser Modelle aktiviert und sorgen für den Output (). Für die neue Version GPT-4o sind solch genaue Zahlen zwar noch nicht verfügbar, es wird aber davon ausgegangen, dass es ähnlich funktioniert (Quelle).
Außerdem wurde im Juli 2024 eine kleinere Version von GPT-4o mit dem Namen GPT-4o mini vorgestellt, die eine kleinere Architektur mit weniger Parametern besitzt. Allgemein ergeben sich daraus für viele Anwendungsfälle die nicht die höchste Ausgabe-Qualität benötigen, Vorteile, da deutlich weniger Rechenkapazität benötigt wird, wodurch die Kosten sinken, und außerdem die Modelle auch auf schwächeren Geräten, wie zum Beispiel Smartphones oder Tablets, genutzt werden können. Außerdem werden solch kleinere Modelle auch gerne für Real-Time Anwendungen genutzt, bei denen die Antwortzeit höher gewichtet wird und dafür auch Kompromisse bei der Leistungsfähigkeit gemacht werden können. Trotz dieser kleineren Architektur schafft es GPT-4o mini trotzdem auch größere Modelle in einzelnen Benchmarks zu übertreffen. Es schneidet beispielsweise in Programmier- und Mathematikbenchmarks besser ab, als das Llama 3 Modell mit acht Milliarden Parametern oder als Mistral Large.
2. Mistral / Mixtral
(Letzte Aktualisierung: April 2024)
Das Unternehmen Mistral AI ist ein Startup mit Sitz in Frankreich, das verschiedenste Large Language Models anbietet. Es wurde unter anderem von ehemaligen Mitarbeitern von Google und Meta gegründet und hat namhafte Investoren wie beispielsweise Microsoft. Im Unterschied zu anderen Anbietern sind einige Modelle von Mistral Open-Source, sodass sie nicht nur kostenlos genutzt, sondern auch ohne weiteres abgeändert werden können. Damit verfolgen sie das Ziel, die Entwicklung von Künstlicher Intelligenz transparenter und glaubhafter zu gestalten. Zu diesen frei zugänglichen Modellen zählen:
- Mistral 7B: Dieses Modell hat etwa sieben Milliarden Parameter (englisch: 7 Billion = 7B) und ist das kleinste Modell der Mistral-Familie. Obwohl es weniger Parameter als vergleichbare LLMs besitzt, kann es trotzdem mit größeren Modellen mithalten. Durch die vergleichsweise kompakte Architektur besticht es durch eine schnelle Vorhersage und eher geringen Rechenaufwand. Jedoch ist es dadurch auch bei den Anwendungen eingeschränkt und kann nur für englische Sprachverarbeitung oder für die Programmierung eingesetzt werden.
- Mixtral 8x7B: Dieses Modell verfolgt einen sogenannten “Mixture of Experts”-Ansatz und besteht aus acht Einzelmodellen. Dadurch kann es auch noch mit vergleichsweise wenig Rechenaufwand betrieben werden und bietet trotzdem eine große Vielfalt von Anwendungen. Mixtral 8x7B kann dadurch nicht nur Programmcode erzeugen, sondern beherrscht auch die Sprachen Englisch, Französisch, Spanisch, Italienisch und Deutsch fließend. In einigen Benchmarks schneidet diese Architektur sogar besser ab als GPT3.5, also das initiale Modell hinter ChatGPT.
- Mixtral 8x22B: Hierbei handelt es sich um eine noch größere Ansammlung von Modellen, die aus acht Einzelmodellen besteht, wovon jedes 22 Milliarden Parameter besitzt. Es ist das aktuell fortschrittlichste Modell, das Mistral AI im Open-Source Bereich anbietet, und kann durch die große Architektur deutlich komplexere Aufgaben erledigen. Das Modell eignet sich beispielsweise besonders gut für das Zusammenfassen von sehr langen Texten oder die Generierung von großen Textmengen. Im Vergleich zu den bisher genannten Mistral Modellen kann es die doppelte Textmenge, also 64.000 Tokens, verarbeiten. In der englischen Sprache sind das etwa 48.000 Wörter, da ein Token etwa vier Buchstaben entspricht.
All diese Modelle sind jedoch reine Large Language Models und unterstützen keine Multimodalität, sind also rein text-basiert. Neben diesen Open-Source Modellen bietet Mistral auch diese kommerziellen Modelle an:
- Mistral Large: Dieses Modell ist eines der leistungsstärksten von Mistral AI und ist in verschiedenen Leistungstests auf dem zweiten Platz hinter GPT4. Es kann für die Generierung von verschiedenen Sprachen und Programmiercode genutzt werden.
- Mistral Small: Diese Architektur bietet sich für schnelle und nicht rechenintensive Vorhersagen an, die eine schnelle Antwortzeit erfordern. Dazu zählen beispielsweise die Klassifizierung im Customer Support, um festzustellen, ob der Kunde verärgert ist oder nicht. Das Modell kann auch zusätzlich für die Textgenerierung von kürzeren Antworten in diesem Zusammenhang genutzt werden. Für aufwendigere Aufgaben hingegen, die ein gewisses Maß an Schlussfolgerungen benötigen, wie zum Beispiel die Datenextraktion oder die Erstellung von Textzusammenfassungen, sollten die größeren Modelle verwendet werden.
- Mistral Embed: Dieses Modell kann genutzt werden, um sogenannte Word Embeddings in englischer Sprache zu erstellen. Dabei wird als Eingabe natürlicher Text übergeben und die Vorhersage umfasst dann numerische Repräsentationen dieser Wörter, die wiederum von Computern genutzt werden können.
Zusätzlich zu dieser großen Vielfalt an Modellen bietet Mistral AI auch den sogenannten “Le Chat” an, also einen KI-Chatbot mit dem Unterhaltungen geführt werden und Inhalte erstellt werden können, ähnlich zu ChatGPT.
3. Llama Modellfamilie
(Letzte Aktualisierung: Juli 2024)
Im Februar 2023 stieg auch der Mutterkonzern von Facebook, Meta, in die Welt der Large Language Models ein und stellte ihr sogenanntes Large Language Model Meta AI, oder kurz Llama, vor. Diese Veröffentlichung war bereits erwartet worden, da Meta schon sehr früh beachtliche Fortschritte im Bereich des Natural Langauge Processings erzielen konnte. Schon im Jahr 2019 beispielsweise stellten sie ein Tool namens Laser vor, welches Sätze und deren Inhalt in verschiedenen Sprachen in einen Vektorraum überführen konnte. Seit der Vorstellung des Large Language Models liegt der Fokus darauf, ein möglichst gutes Foundation Modell vorzustellen, welches für verschiedene Anwendungen mit natürlicher Sprache angepasst werden kann. Um die Forschung in diesem Bereich anzukurbeln, entschied sich Meta, den Programmiercode für die Modellfamilie öffentlich zugänglich zu machen und veröffentlichte außerdem ein Paper, in dem unter anderem eine Reihe von Benchmarks auch die Schwächen aufzeigen sollte. Die dazugehörige Rechenpower, die für das Training genutzt wird, stammt von der Power Meta Corporation. Laut Aussagen von Mark Zuckerberg vom 18. Januar 2024, die er auf Instagram veröffentlicht hat, will das Unternehmen bis Ende 2024 weitere 350.000 GPUs vom Typ NVIDIA H100 einkaufen, die einen Stückpreis von etwa 30.000 € besitzen. Somit hätte Meta dann eine verfügbare Rechenleistung von etwa 600.000 GPUs vom Typ NVIDIA H100. Dazu äußert sich Mark Zuckerberg u.a. in diesem Instagram Reel.
Seit dem initialen Release in 2023 wurden insgesamt drei Modellfamilien vorgestellt:
- Llama: Die ursprüngliche Variante des Modells wurde in verschiedenen Größen angeboten, die so konzipiert waren, dass auch kleinere Infrastrukturen mit geringerer Rechenleistung das Modell trainieren konnten. . Es gab dabei vier Varianten mit jeweils sieben, 13, 33 oder 65 Milliarden Parametern, die alle auf mindestens einer Billion Tokens trainiert wurden.
- Llama 2: Die Llama 2 Variante folgte im Juli 2023 und enthielt drei verschiedene Modelle mit sieben, 13 und 70 Milliarden Parametern, die mit einem deutlich größeren Datensatz von zwei Billionen Tokens trainiert wurden. Dadurch konnte Llama 2 mit 70 Milliarden Parametern auch in vielen Benchmarks deutlich besser abschneiden als das Llama (1) mit 65 Milliarden Parametern.
- Llama 3: Nach knapp einem weiteren Jahr im April 2024 veröffentlichte Meta die dritte und bisher aktuellste Version von Llama in den Varianten mit acht und 70 Milliarden Parametern. Im Vergleich zu Llama 2 wurden einige Verbesserungen vorgenommen, unter anderem ein neuer sogenannter Tokenizer, der die natürliche Sprache in die Tokens umwandelt und dabei deutlich effizienter vorging und ein größeres Vokabular von insgesamt 128 Tausend Tokens besitzt. Nach eigenen Angaben schlägt das 70 Milliarden Parameter Modell dadurch andere Modelle wie beispielsweise GPT3.5 oder Mistral Medium.
4. Modelle von Google
(Letzte Aktualisierung: Juni 2024)
Die Google Research Abteilung lieferte bereits 2018 erste Large Language Modelle, die auf dem Transformer-Ansatz aus dem Jahr 2017 basierten und beachtliche Fortschritte lieferten. Obwohl die ersten Modelle nicht die Bekanntheit von ChatGPT erreichten, erfreuten sie sich in Fachkreisen großer Beliebtheit.
- BERT: Das Modell BERT (Bidirectional Encoder Representations from Transformers) wurde 2018 in einem wissenschaftlichen Artikel vorgestellt. Sein Hauptziel war es, die Beziehungen und Kontexte zwischen Wörtern besser zu verstehen. Dabei arbeitete es bidirektional, bezog also sowohl die Worte vor und nach einer Phrase in die Vorhersage mit ein. Diese Eigenschaft eröffnete verschiedene Anwendungsfelder, wie beispielsweise die Frage-Antwort-Generierung oder die Stimmungsanalyse von Texten.
- T5: Der Begriff T5 umfasst eine Reihe von Large Language Models von Google, die sich dadurch auszeichnen, dass sie verschiedene Aufgabenstellungen im Bereich der natürlichen Sprachverarbeitung in eine Text-to-Text-Aufgabe umwandelt. Das spiegelt sich auch im Namen “Text-to-Text Transfer Transformer”. Der Unterschied zu anderen Modellen ist dabei, dass T5 zwar auch einen Text als Eingabe nutzt, jedoch vorangestellt wird, dass die Aufgabe bereits auch als Text genannt werden kann. Der gleiche Eingabetext kann dadurch vom selben Modell einmal übersetzt werden, indem man “translate English to German: …” voranstellt und ein weiteres Mal zusammengefasst werden, indem das Stichwort “summarize: …” genannt wird.
- Google Gemini: Nachdem Google mit BERT und T5 zwar bereits wichtige Modelle für die Weiterentwicklung von Natural Language Processing geliefert hatte, die jedoch nur in Fachkreisen bekannt waren, stahl ChatGPT Google in der breiten Öffentlichkeit die Show. Im Jahr 2023 wurde deshalb die Gemini Serie vorgestellt, die als multimodaler Chatbot genutzt werden kann und mit der GPT-Modellfamilie konkurriert. Aktuell sind davon vier Versionen vorhanden, die sich in der Größe und der benötigten Rechenleistung unterscheiden und damit für unterschiedliche Anwendungsfälle konzipiert wurden. Google gibt dabei vor, dass die größten Varianten “Flash” und “Pro” einen Kontext von bis zu einer Million Tokens aufrechterhalten können, was ein einzigartiger Wert innerhalb der Foundation Modelle ist. Zusammen mit der multimodalen Fähigkeit bietet sich dieses Modell vor allem für Anwendungen im Bereich der Bildung an, in dem Erklärungen mit Texten, Diagrammen und Bildern erstellt werden können, die einen großen Kontext mit einbeziehen.
- Gemma 2: Gemma 2 ist die neueste Version von Google`s Open Source LLMs und wurde im Juni 2024 vorgestellt. Das Modell hat zwei Varianten eine mit neun und 27 Milliarden Parametern, die für unterschiedlich komplexe Aufgabenstellungen verwendet werden können. Im Vergleich zur ersten Generation hat Gemma 2 unter anderem die Fähigkeit mehrere LLMs miteinander kombinieren zu können. Außerdem nutzt es die sogenannte Sliding Window Attention, die zum Beispiel auch Mistral nutzt, und dafür sorgt, dass die Modelle deutlich weniger Zeit und Arbeitsspeicher für die Berechnung der Attention benötigen.
5. Weitere Große Modelle
Obwohl in diesem Artikel bereits eine Vielzahl von Modellen vorgestellt wurden, ist der Markt noch lange nicht gesättigt und es gibt auch neue, vermeintlich unbekanntere Unternehmen, die sehr leistungsstarke Modelle vorstellen. Auf einige dieser Modelle soll in den folgenden Abschnitten genauer eingegangen werden.
- Grok AI: Das Sprachmodell von X, ehemals Twitter, mit dem Namen Grok AI macht leider nicht nur aufgrund der Leistungsfähigkeit von sich reden. Zwar ist der genaue Datensatz von Grok AI nicht offengelegt, jedoch gehen unterschiedliche Berichterstattungen davon aus, dass auch Inhalte von X zu einem signifikanten Teil für das Training benutzt wurden, was bei anderen Modellen wie beispielsweise ChatGPT nicht der Fall ist. Leistungstechnisch hinkt Grok AI in diversen Benchmarks hinter anderen, aktuellen LLMs hinterher und hat auch einen geringeren Leistungsumfang als die Mitbewerber. Für einige Aufregung sorgte das Modell auch, als es zu halluzinieren begann und eine Geschichte über den amerikanischen Basketballer Klay Thompson veröffentlichte, in dem er beschuldigt wurde, Häuser mit Ziegelsteinen beworfen zu haben. Der vermeintliche Grund dafür war ein schwaches Spiel des Basketballers, das dazu geführt hatte, dass einige Fans ihn als “Ziegelsteinwerfer” in ihren Tweets bezeichneten, was vom Modell zu wörtlich genommen wurde.
Für Verwechslungsgefahr sorgt außerdem ein neuer Chip zum Training von LLMs mit dem ähnlichen Namen Groq. Diese Recheneinheit wird als LPU bezeichnet, also als Language Processing Unit. Sie bietet deutlich mehr Rechenkapazität und kann dadurch auch Speicherengpässen vorbeugen. Einzelne Leistungstest konnten nachweisen, dass ChatGPT mit Groq’s LPUs 13mal schnellere Vorhersagen liefern könnte.
- Claude 3.5: Die LLMs der “Claude-Serie” stammen von dem KI-Forschungsunternehmen Anthropic, welches im Jahr 2021 von einigen ehemaligen Entwicklern von OpenAI, dem Unternehmen hinter ChatGPT, gegründet wurde. Das Ziel von Anthropic ist es, KI zu entwickeln, die den Menschen dient und ethische Grundsätze einhält. Die Entwickler hatten bereits an den Modellen GPT-2 und GPT-3 mitgearbeitet und verfügten über umfangreiches Know-how in diesem Bereich. Das aktuell neueste Modell von Anthropic Claude 3.5 ist ein ernsthafter Konkurrent im Vergleich zu GPT-4 und schlägt dieses in verschiedenen Benchmarks. Es gibt dabei insgesamt drei Versionen mit den Namen Haiku, Sonnet und Opus, die sich in der Leistungsfähigkeit und Größe unterscheiden.
Welche Entwicklungen gibt es außerhalb von Europa und den USA?
In der öffentlichen Wahrnehmung spielt sich ein Großteil der KI-Entwicklung im Bereich Large Language Models vor allem in Europa und den USA ab, die bereits große, etablierte Unternehmen haben und zudem über ausreichende Datensätze in ihren Sprachen verfügen. So sind oft auch die Trainingsdaten von “westlichen” Modellen eher blind für Sprachen und Kulturen von anderen Kontinenten. Der Senior AI Direktorin von AI Singapore zufolge umfassen die Trainingsdaten von LlaMa-2 lediglich 0,5 Prozent Daten, die spezifisch sind für süd-ostasiatische Staaten. Das ist vor allem auch deshalb problematisch, da in dieser Region über 1.200 Dialekte und Sprachen gesprochen werden, auf die ein LLM im besten Fall reagieren kann.
Mit dem Modell SEA-LION wurde deshalb im Jahr 2024 zum ersten Mal ein Large Language Model vorgestellt, welches speziell für die ASEAN Region trainiert wurde. Zwar umfasst es nur einen Bruchteil der Größe von beispielsweise GPT-4, jedoch kann es in spezifischen Applikationen, wie zum Beispiel dem Kundensupport, hilfreicher sein, da es spezieller auf die kulturellen Unterschiede der einzelnen Länder eingehen kann.
Zusätzlich gibt es auch in China verschiedene Bestrebungen zum Training von eigenen Large Language Models, da ChatGPT beispielsweise in China nicht verfügbar ist. Der Konzern Baidu hat eine eigene Reihe an Modellen mit dem Namen ERNIE herausgebracht. Die neueste Version wurde im Juni 2023 vorgestellt und schlägt laut eigener Aussage GPT 3.5 in allgemeinen Verständnisaufgaben und GPT-4 im Umgang mit der chinesischen Sprache. Laut dem OpenCompass Benchmark jedoch schneiden die bereits vorgestellten Modelle auch bei den chinesischen Benchmarks besser ab.