Was steckt hinter Google Gemini?
Google Gemini umfasst eine Familie von multimodalen Large Language Modells, die in der Lage ist, Texte, Bilder, Videos und Programmiercode zu verstehen und auch selbst zu generieren. In dieser Definition stecken gleich zwei Begriffe, die besser erklärt werden sollten, damit man Google Gemini besser verstehen kann.
Als Large Language Models (kurz: LLM) werden im Bereich der künstlichen Intelligenz vor allem neuronale Netzwerke bezeichnet, die in der Lage sind, menschliche Sprache auf verschiedene Weise zu verstehen, zu verarbeiten und selbst zu generieren. Der Begriff „large“ umschreibt dabei die Eigenschaft, dass diese Modelle auf Unmengen von Daten trainiert werden und mehrere Milliarden Neuronen bzw. Parameter besitzen, die die zugrundeliegenden Strukturen im Text erkennen.
Multimodale Modelle sind ein Teilbereich des Machine Learnings und umfassen Architekturen, die mehrere Varianten von Daten, die sogenannten Modalitäten, verarbeiten können. Bisher konnten die meisten Modelle nur einen einzigen Datentyp verarbeiten, wie zum Beispiel Text oder Bilder. Multimodale Modelle hingegen sind in der Lage, verschiedene Formate aufzunehmen und zu verarbeiten.
Genau wie GPT-4 ist auch Google Gemini multimodal, kann also verschiedene Input-Arten, wie Texte, Bilder oder Programmiercode, verarbeiten und diese auch als Output bereitstellen. Im Unterschied zu GPT-4 jedoch ist Gemini von Grund auf multimodal gebaut und nutzt nicht verschiedene Modelle für die unterschiedlichen Inputs. Welche Architektur sich im Endeffekt durchsetzt, wird sich zeigen.
Das Neue an Google Gemini ist dabei nicht nur die Möglichkeit Texte, Audios, Videos, Bilder und sogar Programmiercode verarbeiten zu können, sondern diese auch zu nutzen, um eigene Schlussfolgerungen anzustellen. Damit sollen von nun an auch Rückschlüsse in Feldern wie der Mathematik oder der Physik kein Problem mehr sein. In den Beispielen von Google werden beispielsweise Fehler in einer Matheberechnung gefunden und zusätzlich auch die korrigierte Lösung erstellt und erklärt.
Was kann Google Gemini?
Auf einer virtuellen Pressekonferenz wurde Google Gemini am 06. Dezember 2023 zum ersten Mal vorgestellt. Gleichzeitig gingen sowohl im Google Blog als auch auf der Website des KI-Unternehmens Google DeepMind, Artikel online, die die Funktionalitäten der neuen KI-Familie beschreiben.
Laut diesen Berichten und den zusätzlich veröffentlichten YouTube-Videos sind beispielsweise die folgenden Anwendungen möglich:
Google Gemini ist in der Lage, Programmiercode zu erstellen, einzig und allein durch ein Bild der fertigen Anwendung. Dadurch können zum Beispiel Websites nachgebaut werden, indem man lediglich einen Screenshot der aktuellen Seite nutzt. Dies war zwar auch schon bei GPT-4 und Google Bard (der Chatbot heißt inzwischen Google Gemini wie das Sprachmodell) möglich, jedoch wurden die Fertigkeiten nochmals verbessert. Nichtsdestotrotz sind hier keine allzu großen Sprünge zu erwarten, da ein Großteil der Komplexität einer Website oder eines Computer Programms nicht über einen Screenshot dargestellt werden kann. Jedoch ist es ein guter Startpunkt für die weitere Programmierung.
Außerdem wurden Beispiele gezeigt, in denen zwei Bilder zu einem neuen Bild kombiniert werden und ein entsprechender Text dazu geschrieben wird. In dem Beispiel von Google wird die KI gefragt, was der Nutzer mit zwei Wollknäuel anstellen kann. Als zusätzlichen Input wird ein Bild der zwei verschiedenfarbigen Knäuel gezeigt. Das Modell liefert ein fertiges Bild eines Oktopusses aus Wolle, der aus den beiden Knäueln gefertigt werden kann.
Die mit Abstand beeindruckendste Anwendung ist nicht nur für alle Schüler, Studenten und Eltern interessant, wie man auf den ersten Blick vermuten könnte. In dem Video wird gezeigt, wie Gemini dafür genutzt wird, die Hausaufgaben in Physik zu korrigieren. Dabei stellt es nicht nur fest, welche Aufgaben richtig und welche falsch gelöst wurden, sondern es kann auch erklären, welche Fehler gemacht wurden und wie diese korrigiert werden können. Eine solche Argumentationsführung ist für ein Sprachmodell tatsächlich eine bemerkenswerte Leistung.
Bereits wenige Tage nach der initialen Vorstellung entdeckten einige Nutzer die wichtigen Informationen, die in den Videobeschreibungen der YouTube Videos versteckt waren. Google hatte nämlich bei ihren Vorstellungsvideos getrickst, indem es zum Beispiel mit Standbildern und Texteingaben arbeitete, als das Modell erkennen sollte, dass das Video eine Partie Schere-Stein-Papier zeigt. Dieses Vorgehen stieß auf einige Kritik, da durch die Darstellung in ihrem Blog deutlich mehr Fähigkeiten suggeriert wurden, die das Modell dann jedoch nicht aufweisen konnte.
Ein neues Feature wurde Anfang September vorgestellt: Gemini Live. Mit Gemini Live sind Android-Nutzer in der Lage, Echtzeit-Gespräche mit Googles KI zu erleben. Es können also Gespräche ohne Tippen geführt werden, wobei Gemini mündlich antwortet. Erst vor Kurzem gab Google bekannt, dass Gemini Live nun in über 40 Sprachen verfügbar ist. Dadurch können Nutzer, die verschiedene Sprachen sprechen, nahtlos über ein einziges Gerät kommunizieren.
Und noch mehr Neues: Mit Gemini Advanced können User jetzt einstellen, dass die KI sich an Unterhaltungen erinnert, also zum Beispiel an erwähnte Hobbies oder spezielle Lebensumstände. Diese Funktion sollte allerdings mit Vorsicht genossen werden, da die persönlichen Daten so gesammelt werden und womöglich an Dritte geraten können.
Welche Versionen von Gemini gibt es?
Gemini 1.0
Die erste Version von Google Gemini, Gemini 1.0, gibt es in drei verschiedenen Varianten, die für unterschiedliche Geräte optimiert wurden:
Gemini 1.0 Ultra war bis zur Veröffentlichung von Gemini 1.5 das größte und leistungsstärkste Modell und wird für einen Großteil der Anwendungen genutzt. Da es sehr rechenintensiv ist, steht es nur für leistungsstarke Endgeräte, also nicht auf mobilen Geräten, wie Handys oder Tablets, zur Verfügung. Diese Variante ist von der Leistung mit GPT-4 vergleichbar und schlägt in den meisten Tests die Leistungen des OpenAI Konkurrenten in den Bereichen Argumentation, Programmieren und Mathematik.
Gemini 1.0 Pro ist der Allrounder in der KI-Familie und kann für eine Vielzahl von Anwendungen genutzt werden. Beispielsweise wird Gemini 1.0 Pro zurzeit in der kostenlosen Version des Gemini-Chatbots eingesetzt. Von der Leistungsfähigkeit ist diese Variante mit GPT-4o vergleichbar, die aktuell für die kostenfreie Version von ChatGPT genutzt wird.
Die Gemini Nano Version schließlich wurde für Anwendungen optimiert, die auf dem Endgerät berechnet werden können. Dadurch kann Gemini auf Android-Geräten genutzt werden und es können Apps entwickelt werden, die direkt von Google Gemini profitieren. Der Vorteil ist, dass für die Berechnung keine Verbindung zu Google Servern hergestellt werden muss, sodass auch mit vertraulichen Daten, wie zum Beispiel Nachrichten, gearbeitet werden kann. In diesem Bereich stellt Google tatsächlich eine Neuerung vor, da es komplett autark ohne Verbindung zu einem Server oder Internet auskommt und außerdem performant genug ist, um auf Mobilgeräten zu laufen, die meist leistungsschwächer als Computer oder Notebooks sind.
Gemini 1.5
Nur kurze Zeit nachdem Google die drei Varianten Gemini 1.0 Ultra, Pro und Nano veröffentlichte, kündigte der Konzern Anfang 2024 bereits die aktualisierte, leistungsstärkere Version Gemini 1.5 an.
Gemini 1.5 Pro soll vergleichbare Ergebnisse wie Gemini 1.0 Ultra liefern, dafür aber weniger Rechenleistung benötigen und beeindruckende Fähigkeiten in Hinblick auf das Verstehen besonders langer Kontexte und die Erstellung verschiedener Arten von Audio (Musik, Sprache, Tonspuren für Videos) aufweisen. So soll Gemini 1.5 Pro dazu in der Lage sein,
- eine Stunde Video
- 11 Stunden Audio
- 30.000 Codezeilen und
- 700.000 Wörter
zu verarbeiten.
Seit Mai 2024 wird Gemini 1.5 Pro für die kostenpflichtige Version Gemini Advanced verwendet und ist dort in über 45 Sprachen nutzbar.
Gemini 1.5 Flash ist im Vergleich zu Gemini 1.5 Pro ein leichteres Modell, das auf Geschwindigkeit und Effizienz optimiert sowie kostengünstiger in der Bereitstellung ist. Diese Variante wird seit Ende Juli 2024 für die kostenlose Version des Gemini KI-Chatbots verwendet.
Seit Ende August 2024 gibt es nun Zuwachs in der Gemini 1.5 Familie. Logan Kilpatrick, der Produktleiter von Google AI Studio, gab am 27. August 2024 auf X (ehemals Twitter) bekannt, dass das Unternehmen drei neue Varianten von Gemini herausgebracht hat: ein kleineres Modell Gemini 1.5 Flash-8B, ein „leistungsstärkeres“ Modell Gemini 1.5 Pro und ein „deutlich verbessertes“ Gemini 1.5 Flash - diese Versionen sind jedoch vorerst nur experimentell.
Wie kann Google Gemini genutzt werden?
Gemini 1.5 Flash wird bereits in der kostenlosen Version von Googles eigenem Chatbot Google Gemini (ehemals Bard) genutzt. Dieser Chatbot ist Teil der Google Suchmaschine und kann auch dort genutzt werden. Seit Anfang 2024 gibt es die Weiterentwicklung Google Gemini Advanced, die auf Gemini 1.5 Pro basiert, kostenpflichtig ist und auch in Deutschland genutzt werden kann.
Auch auf den neuen Android Smartphones von Google, der Pixel 9 Serie, kann Google Gemini genutzt werden. Google tauscht den vorinstallierten Google Assistenten gegen Gemini als neuen Standard-AI-Assistenten aus. Es wird die kleinste Version, Gemini Nano, verwendet. Diese kann durch den Einsatz multimodaler Modelle, über Text, Bilder oder Sprache interagieren. Auch für IOS-Nutzer wurde im November etwas Passendes gelauncht: Die Gemini-App, die die Nutzung für alle Apple-Liebhaber nun noch einfacher gestaltet.
Außerdem soll Gemini künftig mit weiteren Google-Apps, wie Google Calendar oder Gmail , verbunden werden, um die Benutzererfahrung noch weiter zu verbessern. Google verdeutlicht diese Funktion folgendermaßen:
“Lass Gemini das Lasagne-Rezept aus deinem Gmail-Account heraussuchen und bitte den KI-Assistenten, die Zutaten zu deiner Einkaufsliste in Keep hinzuzufügen."
Auch innerhalb von Google Maps ist der Gemini-Assistent neuerdings vernetzt. Nutzer können einfach in der App selbst nach inspirierenden Aktivitäten oder Orten fragen und dank Gemini bekommen sie personalisierte Empfehlungen mit zusammengefassten Bewertungen sowie spezifischen Details zum Zielort – alles in Echtzeit und ohne eigenes Suchen.
Google Gemini, GPT-4 oder GPT-4o?
Als im November 2022 OpenAI mit der Anwendung ChatGPT und dem dazugehörigen Modell GPT3 an den Start ging, war der Hype groß und die erwartete Antwort von Google hatte eine Weile auf sich warten lassen.
Es dauerte bis März 2023, als der von Google entwickelte Chatbot Bard (inzwischen Google Gemini) veröffentlicht wurde. Dieser macht jedoch anfangs eher aufgrund von falschen oder witzigen Antworten auf sich aufmerksam. Wie es scheint, wurde dieses Rennen nun deutlich enger, da Google Bard durch Gemini einen echten Boost erfahren hat.
Vor allem auf X, ehemals Twitter, wurden einige Tweets erstellt, die die teilweise lustigen und teilweise beängstigenden Fehler zeigen, die in der vorherigen Version von Google Bard sehr häufig vorkamen:
Bard über das Monopol-Verfahren gegen Google:
Google Bards Probleme mit einfachen Matheaufgaben:
Google Bards Umgang mit Tippfehlern:
In einem Artikel des Business Insiders werden zehn (englische) Fragen sowohl an ChatGPT mit dem zugrundeliegenden GPT4 Modell als auch an Google Gemini (ehemals Bard) mit Gemini Pro gestellt. In dem Artikel fällt auf, dass Google Gemini auf Grenzfragen zur Sexualität und Politik nur sehr verhalten reagiert. Wahrscheinlich, um unangenehme Fehltritte wie in der Vergangenheit aus dem Weg zu gehen. Außerdem erscheinen die Antworten von Google Gemini (vorher Bard) teilweise etwas zurückhaltender und rationaler, während ChatGPT auch Emojis und emotionale Antworten nutzt.
In technischer Hinsicht soll Gemini gegenüber GPT-4 in den Bild-, Video- und Audio-Benchmarks zurzeit besser abschneiden, dafür soll GPT-4 allerdings stärker im Bereich logisches Denken sein.
Die Wahl des “besseren” Modell scheint insgesamt also schwierig zu treffen und hängt wohl sehr vom jeweiligen Anwendungsfall ab: GPT-4 überzeugt mit einer hohen Genauigkeit und detaillierten Antworten, während GPT-4o mit Geschwindigkeit und Effizienz auftrumpfen kann. Für ein erweitertes kontextbezogenes Verständnis und schnelle Reaktionszeiten scheint Gemini 1.5 eine überzeugende Lösung zu sein.
Neben diesen Platzhirschen sollten jedoch auch die anderen konkurrierenden Chatbot-Systeme und Large Language Modelle nicht vergessen werden, die beispielsweise auch dadurch überzeugen können, dass sie teilweise aktuellere Informationen enthalten. Deshalb haben wir für Sie einen ausführlichen Beitrag vorbereitet, der interessante Alternativen zu ChatGPT und Google Bard (inzwischen Google Gemini) vorstellt.
Fazit
Google Gemini ist eine interessante Innovation von Google, die hauptsächlich durch die Möglichkeit besticht, mit einer Vielzahl an Formaten umgehen zu können. Die ersten gezeigten Anwendungen sind vor allem aufgrund der Eigenschaft interessant, gezielte Rückschlüsse treffen zu können und die Antworten so zu begründen.
Testen Sie jetzt moinAI und erleben Sie die Zukunft der Kundenkommunikation auf eine sichere, effiziente und benutzerfreundliche Weise. In nur vier einfachen Schritten können Sie einen Chatbot-Prototyp erstellen und so einen ersten Eindruck von der Technologie gewinnen – völlig unverbindlich und kostenlos.