Was steckt hinter Google Gemini?
Google Gemini umfasst eine Familie von multimodalen Large Language Modells, die in der Lage sein soll Texte, Bilder, Videos und Programmiercode zu verstehen und auch selbst zu generieren. In dieser Definition stecken gleich zwei Begriffe, die besser erklärt werden sollten, damit man Google Gemini besser verstehen kann.
Als Large Language Models (kurz: LLM) werden im Bereich der künstlichen Intelligenz vor allem neuronale Netzwerke bezeichnet, die in der Lage sind, menschliche Sprache auf verschiedene Weise zu verstehen, zu verarbeiten und selbst zu generieren. Der Begriff „large“ umschreibt dabei die Eigenschaft, dass diese Modelle auf Unmengen von Daten trainiert werden und mehrere Milliarden Neuronen bzw. Parameter besitzen, die die zugrundeliegenden Strukturen im Text erkennen.
Multimodale Modelle sind ein Teilbereich des Machine Learnings und umfassen Architekturen, die mehrere Varianten von Daten, die sogenannten Modalitäten, verarbeiten können. Bisher konnten die meisten Modelle nur einen einzigen Datentyp verarbeiten, wie zum Beispiel Text oder Bilder. Multimodale Modelle hingegen sind in der Lage, verschiedene Formate aufzunehmen und zu verarbeiten.
GRAFIK
Genau wie GPT-4 ist auch Google Gemini multimodal, kann also verschiedene Input-Arten, wie Texte, Bilder oder Programmiercode, verarbeiten und diese auch als Output bereitstellen. Im Unterschied zu GPT-4 jedoch ist Gemini von Grund auf multimodal gebaut und nutzt nicht verschiedene Modelle für die unterschiedlichen Inputs. Welche Architektur sich im Endeffekt durchsetzt, wird sich zeigen.
Das Neue an Google Gemini ist dabei nicht nur die Möglichkeit Texte, Audios, Videos, Bilder und sogar Programmiercode verarbeiten zu können, sondern diese auch zu nutzen, um eigene Schlussfolgerungen anzustellen. Damit sollen von nun an auch Rückschlüsse in Feldern wie der Mathematik oder der Physik kein Problem mehr sein. In den Beispielen von Google werden beispielsweise Fehler in einer Matheberechnung gefunden und zusätzlich auch die korrigierte Lösung erstellt und erklärt.
Was kann Google Gemini?
Auf einer virtuellen Pressekonferenz wurde Google Gemini am 06. Dezember 2023 zum ersten Mal vorgestellt. Gleichzeitig gingen sowohl im Google Blog als auch auf der Website des KI-Unternehmens Google DeepMind, Artikel online, die die Funktionalitäten der neuen KI-Familie beschreiben.
Laut diesen Berichten und den zusätzlich veröffentlichten YouTube-Videos sollen beispielsweise die folgenden Anwendungen möglich sein:
Google Gemini soll in der Lage sein, Programmiercode zu erstellen, einzig und allein durch ein Bild der fertigen Anwendung. Dadurch können zum Beispiel Websites nachgebaut werden, indem man lediglich einen Screenshot der aktuellen Seite nutzt. Dies war zwar auch schon bei GPT-4 und Google Bard möglich, jedoch wurden die Fertigkeiten nochmals verbessert. Nichtsdestotrotz sollten hier keine allzu großen Sprünge erwartet werden, da ein Großteil der Komplexität einer Website oder eines Computer Programms nicht über einen Screenshot dargestellt werden kann. Jedoch kann es ein guter Startpunkt für die weitere Programmierung sein.
Außerdem werden Beispiele gezeigt, in denen zwei Bilder zu einem neuen Bild kombiniert werden und ein entsprechender Text dazu geschrieben wird. In dem Beispiel von Google wird die KI gefragt, was der Nutzer mit zwei Wollknäuel anstellen kann. Als zusätzlichen Input wird ein Bild der zwei verschiedenfarbigen Knäuel gezeigt. Das Modell liefert ein fertiges Bild eines Oktopusses aus Wolle, der aus den beiden Knäueln gefertigt werden kann.
SCREENSHOT
Die mit Abstand beeindruckendste Anwendung ist nicht nur für alle Schüler, Studenten und Eltern interessant, wie man auf den ersten Blick vermuten könnte. In dem Video wird gezeigt, wie Gemini dafür genutzt wird, die Hausaufgaben in Physik zu korrigieren. Dabei stellt es nicht nur fest, welche Aufgaben richtig und welche falsch gelöst wurden, sondern es kann auch erklären, welche Fehler gemacht wurden und wie diese korrigiert werden können. Eine solche Argumentationsführung ist für ein Sprachmodell tatsächlich eine bemerkenswerte Leistung.
Bereits wenige Tage nach der initialen Vorstellung entdeckten einige Nutzer die wichtigen Informationen, die in den Videobeschreibungen der YouTube Videos versteckt waren. Google hatte nämlich bei ihren Vorstellungsvideos getrickst, indem es zum Beispiel mit Standbildern und Texteingaben arbeitete, als das Modell erkennen sollte, dass das Video eine Partie Schere-Stein-Papier zeigt. Dieses Vorgehen stieß auf einige Kritik, da durch die Darstellung in ihrem Blog deutlich mehr Fähigkeiten suggeriert wurden, die das Modell dann jedoch nicht aufweisen konnte.
Welche Versionen von Gemini gibt es?
Zum Start wird es Google Gemini in drei verschiedenen Varianten geben, die für unterschiedliche Geräte optimiert wurden. Gemini Ultra ist das größte und leistungsstärkste Modell, das auch für einen Großteil der Anwendungen genutzt wird. Da es sehr rechenintensiv ist, wird es nur für leistungsstarke Endgeräte, also nicht auf mobilen Geräten, wie Handys oder Tablets, zur Verfügung stehen. Aktuell wird es noch internen Sicherheitstests unterzogen, um ein Hacking der KI zu verhindern. Diese Variante ist von der Leistung mit GPT-4 vergleichbar und schlägt in den meisten Tests die Leistungen des OpenAI Konkurrenten in den Bereichen Argumentation, Programmieren und Mathematik. Jedoch steht bei OpenAI der Nachfolger GPT-4 Turbo bereits in den Startlöchern, sodass es interessant wird zu beobachten, wie dieses Modell im Vergleich zu Gemini Ultra abschneidet.
Gemini Pro ist der Allrounder in der KI-Familie und soll für eine Vielzahl von Anwendungen genutzt werden können. Hierzu lässt Google jedoch einige Fragen offen, was damit genau möglich sein wird. Aktuell wird es bereits im Google Chatbot Bard eingesetzt. Jedoch soll es im Jahr 2024 von Gemini Ultra abgelöst werden. Von der Leistungsfähigkeit ist diese Variante mit GPT-3.5 vergleichbar, die aktuell für ChatGPT genutzt wird.
Die Gemini Nano Version schließlich wurde für Anwendungen optimiert, die auf dem Endgerät berechnet werden können. Dadurch kann Gemini auf Android-Geräten genutzt werden und es können Apps entwickelt werden, die direkt von Google Gemini profitieren. Der Vorteil ist, dass für die Berechnung keine Verbindung zu Google Servern hergestellt werden muss, sodass auch mit vertraulichen Daten, wie zum Beispiel Nachrichten, gearbeitet werden kann. In diesem Bereich stellt Google tatsächlich eine Neuerung vor, da es komplett autark ohne Verbindung zu einem Server oder Internet auskommt und außerdem performant genug ist, um auf Mobilgeräten zu laufen, die meist leistungsschwächer als Computer oder Notebooks sind.
Wie kann Google Gemini genutzt werden?
Google Gemini ist keine alleinstehende App oder Anwendung und kann deshalb nicht direkt genutzt oder getestet werden. Es wird jedoch verschiedene Google Dienste verbessern und dadurch indirekt bei den Nutzern ankommen.
Die Gemini Pro Version wird bereits in Google eigenem Chatbot Bard genutzt. Dieser Chatbot ist Teil der Google Suchmaschine und kann auch dort genutzt werden. Ab Anfang 2024 soll es dann eine Weiterentwicklung von Bard geben, in der der große Bruder Gemini Ultra genutzt werden soll.
Auf dem neuen Android Smartphone von Google, dem Pixel 8 Pro, läuft die kleinste Version Gemini Nano bereits lokal auf dem Handy und kann unter anderem in der App für Sprachaufnahmen genutzt werden, um eine Zusammenfassung von Audio-Dateien zu bekommen. Außerdem werden die Antwortvorschläge der Google Tastatur auf dem Smartphone mithilfe von Gemini Nano vorhergesagt.
Google Bard vs. OpenAI GPT-4
Als im November 2022 OpenAI mit der Anwendung ChatGPT und dem dazugehörigen Modell GPT3 an den Start ging, war der Hype groß und die erwartete Antwort von Google hatte eine Weile auf sich warten lassen.
Es dauerte bis März 2023, als der von Google entwickelte Chatbot Bard veröffentlicht wurde. Dieser macht jedoch anfangs eher aufgrund von falschen oder witzigen Antworten auf sich aufmerksam. Wie es scheint, wurde dieses Rennen nun deutlich enger, da Google Bard durch Gemini einen echten Boost erfahren hat.
Vor allem auf X, ehemals Twitter, wurden einige Tweets erstellt, die die teilweise lustigen und teilweise beängstigenden Fehler zeigen, die in der vorherigen Version von Google Bard sehr häufig vorkamen:
Bard über das Monopol-Verfahren gegen Google: