Google Gemini: Ein Überblick zur neuen Google KI

Inhaltsverzeichnis

Über diesen Guide

Am 6. Dezember 2023 stellte Google ihre lang erwartete neue künstliche Intelligenz Gemini vor. Damit stellen sie knapp ein Jahr nach der erfolgreichen Veröffentlichung von ChatGPT einen ernstzunehmenden Konkurrenten zu GPT-4, dem “Gehirn” hinter ChatGPT, vor. In diesem Artikel werfen wir einen Blick auf die vorgestellte KI von Google, erklären, was die Neuerungen sind und wie Google Gemini den Chatbot langfristig verändern wird. Außerdem vergleichen wir die Fähigkeiten von Google Gemini mit denen der aktuellen OpenAI GPT-4 Version.

Was steckt hinter Google Gemini?

Google Gemini umfasst eine Familie von multimodalen Large Language Modells, die in der Lage ist, Texte, Bilder, Videos und Programmiercode zu verstehen und auch selbst zu generieren. In dieser Definition stecken gleich zwei Begriffe, die besser erklärt werden sollten, damit man Google Gemini besser verstehen kann.

Als Large Language Models (kurz: LLM) werden im Bereich der künstlichen Intelligenz vor allem neuronale Netzwerke bezeichnet, die in der Lage sind, menschliche Sprache auf verschiedene Weise zu verstehen, zu verarbeiten und selbst zu generieren. Der Begriff „large“ umschreibt dabei die Eigenschaft, dass diese Modelle auf Unmengen von Daten trainiert werden und mehrere Milliarden Neuronen bzw. Parameter besitzen, die die zugrundeliegenden Strukturen im Text erkennen.

Multimodale Modelle sind ein Teilbereich des Machine Learnings und umfassen Architekturen, die mehrere Varianten von Daten, die sogenannten Modalitäten, verarbeiten können. Bisher konnten die meisten Modelle nur einen einzigen Datentyp verarbeiten, wie zum Beispiel Text oder Bilder. Multimodale Modelle hingegen sind in der Lage, verschiedene Formate aufzunehmen und zu verarbeiten.

Veranschaulichung eines multimodalen Modells

Genau wie GPT-4 ist auch Google Gemini multimodal, kann also verschiedene Input-Arten, wie Texte, Bilder oder Programmiercode, verarbeiten und diese auch als Output bereitstellen. Im Unterschied zu GPT-4 jedoch ist Gemini von Grund auf multimodal gebaut und nutzt nicht verschiedene Modelle für die unterschiedlichen Inputs. Welche Architektur sich im Endeffekt durchsetzt, wird sich zeigen.

Das Neue an Google Gemini ist dabei nicht nur die Möglichkeit Texte, Audios, Videos, Bilder und sogar Programmiercode verarbeiten zu können, sondern diese auch zu nutzen, um eigene Schlussfolgerungen anzustellen. Damit sollen von nun an auch Rückschlüsse in Feldern wie der Mathematik oder der Physik kein Problem mehr sein. In den Beispielen von Google werden beispielsweise Fehler in einer Matheberechnung gefunden und zusätzlich auch die korrigierte Lösung erstellt und erklärt.

Was kann Google Gemini?

Auf einer virtuellen Pressekonferenz wurde Google Gemini am 06. Dezember 2023 zum ersten Mal vorgestellt. Gleichzeitig gingen sowohl im Google Blog als auch auf der Website des KI-Unternehmens Google DeepMind, Artikel online, die die Funktionalitäten der neuen KI-Familie beschreiben.

Laut diesen Berichten und den zusätzlich veröffentlichten YouTube-Videos sind beispielsweise die folgenden Anwendungen möglich:

Google Gemini ist in der Lage, Programmiercode zu erstellen, einzig und allein durch ein Bild der fertigen Anwendung. Dadurch können zum Beispiel Websites nachgebaut werden, indem man lediglich einen Screenshot der aktuellen Seite nutzt. Dies war zwar auch schon bei GPT-4 und Google Bard (der Chatbot heißt inzwischen Google Gemini wie das Sprachmodell) möglich, jedoch wurden die Fertigkeiten nochmals verbessert. Nichtsdestotrotz sind hier keine allzu großen Sprünge zu erwarten, da ein Großteil der Komplexität einer Website oder eines Computer Programms nicht über einen Screenshot dargestellt werden kann. Jedoch ist es ein guter Startpunkt für die weitere Programmierung.

Außerdem wurden Beispiele gezeigt, in denen zwei Bilder zu einem neuen Bild kombiniert werden und ein entsprechender Text dazu geschrieben wird. In dem Beispiel von Google wird die KI gefragt, was der Nutzer mit zwei Wollknäuel anstellen kann. Als zusätzlichen Input wird ein Bild der zwei verschiedenfarbigen Knäuel gezeigt. Das Modell liefert ein fertiges Bild eines Oktopusses aus Wolle, der aus den beiden Knäueln gefertigt werden kann.

Vorschlag, was aus zwei Wollknäuel gebastelt werden kann | Quelle: Google Vorstellungsvideo (Minute 4:02)

Die mit Abstand beeindruckendste Anwendung ist nicht nur für alle Schüler, Studenten und Eltern interessant, wie man auf den ersten Blick vermuten könnte. In dem Video wird gezeigt, wie Gemini dafür genutzt wird, die Hausaufgaben in Physik zu korrigieren. Dabei stellt es nicht nur fest, welche Aufgaben richtig und welche falsch gelöst wurden, sondern es kann auch erklären, welche Fehler gemacht wurden und wie diese korrigiert werden können. Eine solche Argumentationsführung ist für ein Sprachmodell tatsächlich eine bemerkenswerte Leistung.

Bereits wenige Tage nach der initialen Vorstellung entdeckten einige Nutzer die wichtigen Informationen, die in den Videobeschreibungen der YouTube Videos versteckt waren. Google hatte nämlich bei ihren Vorstellungsvideos getrickst, indem es zum Beispiel mit Standbildern und Texteingaben arbeitete, als das Modell erkennen sollte, dass das Video eine Partie Schere-Stein-Papier zeigt. Dieses Vorgehen stieß auf einige Kritik, da durch die Darstellung in ihrem Blog deutlich mehr Fähigkeiten suggeriert wurden, die das Modell dann jedoch nicht aufweisen konnte.

Ein neues Feature wurde Anfang September vorgestellt: Gemini Live. Mit Gemini Live sind Android-Nutzer in der Lage, Echtzeit-Gespräche mit Googles KI zu erleben. Es können also Gespräche ohne Tippen geführt werden, wobei Gemini mündlich antwortet. Erst vor Kurzem gab Google bekannt, dass Gemini Live nun in über 40 Sprachen verfügbar ist. Dadurch können Nutzer, die verschiedene Sprachen sprechen, nahtlos über ein einziges Gerät kommunizieren.

Und noch mehr Neues: Mit Gemini Advanced können User jetzt einstellen, dass die KI sich an Unterhaltungen erinnert, also zum Beispiel an erwähnte Hobbies oder spezielle Lebensumstände. Diese Funktion sollte allerdings mit Vorsicht genossen werden, da die persönlichen Daten so gesammelt werden und womöglich an Dritte geraten können.

Zudem wird Gemini Deep Research nun mit dem neuen 2.0 Flash Thinking Modell (experimentell) betrieben und steht allen Nutzern kostenlos zur Verfügung. Dieses Upgrade verbessert die Fähigkeit von Gemini, relevante Informationen zu analysieren und in Minuten umfassende mehrseitige Berichte zu erstellen.

Welche Versionen von Gemini gibt es?

Gemini 1.0

Die erste Version von Google Gemini, Gemini 1.0, gibt es in drei verschiedenen Varianten, die für unterschiedliche Geräte optimiert wurden:

‍Gemini 1.0 Ultra war bis zur Veröffentlichung von Gemini 1.5 das größte und leistungsstärkste Modell und wird für einen Großteil der Anwendungen genutzt. Da es sehr rechenintensiv ist, steht es nur für leistungsstarke Endgeräte, also nicht auf mobilen Geräten, wie Handys oder Tablets, zur Verfügung. Diese Variante ist von der Leistung mit GPT-4 vergleichbar und schlägt in den meisten Tests die Leistungen des OpenAI Konkurrenten in den Bereichen Argumentation, Programmieren und Mathematik.

Gemini 1.0 Pro ist der Allrounder in der KI-Familie und kann für eine Vielzahl von Anwendungen genutzt werden. Beispielsweise wird Gemini 1.0 Pro zurzeit in der kostenlosen Version des Gemini-Chatbots eingesetzt. Von der Leistungsfähigkeit ist diese Variante mit GPT-4o vergleichbar, die aktuell für die kostenfreie Version von ChatGPT genutzt wird.

Die Gemini Nano Version schließlich wurde für Anwendungen optimiert, die auf dem Endgerät berechnet werden können. Dadurch kann Gemini auf Android-Geräten genutzt werden und es können Apps entwickelt werden, die direkt von Google Gemini profitieren. Der Vorteil ist, dass für die Berechnung keine Verbindung zu Google Servern hergestellt werden muss, sodass auch mit vertraulichen Daten, wie zum Beispiel Nachrichten, gearbeitet werden kann. In diesem Bereich stellt Google tatsächlich eine Neuerung vor, da es komplett autark ohne Verbindung zu einem Server oder Internet auskommt und außerdem performant genug ist, um auf Mobilgeräten zu laufen, die meist leistungsschwächer als Computer oder Notebooks sind.

Gemini 1.5

Nur kurze Zeit nachdem Google die drei Varianten Gemini 1.0 Ultra, Pro und Nano veröffentlichte, kündigte der Konzern Anfang 2024 bereits die aktualisierte, leistungsstärkere Version Gemini 1.5 an.

‍Gemini 1.5 Pro soll vergleichbare Ergebnisse wie Gemini 1.0 Ultra liefern, dafür aber weniger Rechenleistung benötigen und beeindruckende Fähigkeiten in Hinblick auf das Verstehen besonders langer Kontexte und die Erstellung verschiedener Arten von Audio (Musik, Sprache, Tonspuren für Videos) aufweisen. So soll Gemini 1.5 Pro dazu in der Lage sein,

eine Stunde Video
11 Stunden Audio
30.000 Codezeilen und
700.000 Wörter

zu verarbeiten.

Seit Mai 2024 wird Gemini 1.5 Pro für die kostenpflichtige Version Gemini Advanced verwendet und ist dort in über 45 Sprachen nutzbar.

Gemini 1.5 Flash ist im Vergleich zu Gemini 1.5 Pro ein leichteres Modell, das auf Geschwindigkeit und Effizienz optimiert sowie kostengünstiger in der Bereitstellung ist. Diese Variante wird seit Ende Juli 2024 für die kostenlose Version des Gemini KI-Chatbots verwendet.

Seit Ende August 2024 gibt es nun Zuwachs in der Gemini 1.5 Familie. Logan Kilpatrick, der Produktleiter von Google AI Studio, gab am 27. August 2024 auf X (ehemals Twitter) bekannt, dass das Unternehmen drei neue Varianten von Gemini herausgebracht hat: ein kleineres Modell Gemini 1.5 Flash-8B, ein „leistungsstärkeres“ Modell Gemini 1.5 Pro und ein „deutlich verbessertes“ Gemini 1.5 Flash - diese Versionen sind jedoch vorerst nur experimentell.
‍

Tweet von Logan Kilpatrick über experimentelle Modelle von Google Gemini — Logan Kilpatrick (@OfficialLoganK), 27. August 2024

Gemini 2.0

Gemini 2.0 wurde im Dezember 2024 vorgestellt und bringt nicht nur spannende Neuerungen mit sich sondern zeigt auch, wie vielseitig moderne KI sein kann:

Ein besonderer Fokus liegt auf der proaktiven Unterstützung: Mit sogenannten autonomen Agenten plant Gemini 2.0 voraus und handelt eigenständig – natürlich immer unter menschlicher Aufsicht. So könnte Gemini beispielsweise eigenständig bei Reiseplanungen passende Flüge, Hotels oder Aktivitäten vorschlagen, die perfekt zum Nutzerprofil passen.

Es gibt vier verschiedene Versionen von Gemini 2.0:

Gemini 2.0 Flash
Gemini 2.0 Flash Lite
Gemini 2.0 Flash Thinking (experimentell)
Gemini 2.0 Pro (experimentell)

Die Flash-Version von Gemini 2.0 ist seit Januar 2025 allgemein verfügbar. Das Besondere: Die neue Version arbeitet doppelt so schnell wie ihr Vorgänger und unterstützt neben Text auch multimodale Ausgaben wie Bilder oder Audio. Gleichzeitig hat Google Gemini 2.0 Flash in Produkte wie die Google-Suche integriert, um noch präzisere Antworten auf komplexe Fragen zu ermöglichen. Gemini 2.0 Flash Lite hat ähnliche Funktionen wie die normale Flash-Version und ist laut Google selbst das bisher kosteneffizienteste Modell.

Darüber hinaus wird Gemini 2.0 in innovativen Prototypen getestet, darunter Project Astra, ein vielseitiger Assistent mit erweiterten Dialog-Fähigkeiten und Project Mariner, eine smarte Browser-Erweiterung. Auch in der Gaming-Welt und der Robotik zeigt Gemini 2.0, wie vielseitig KI genutzt werden kann – von der Unterstützung von Spielern bis hin zu Anwendungen mit räumlichem Denken.

Und ab sofort können Gemini-Nutzer die experimentellen Modelle 2.0 Flash Thinking und 2.0 Pro testen.

2.0 Flash Thinking ist ein Reasoning-Modell, das auf Geschwindigkeit optimiert ist und den Denkprozess des Modells zeigt, um präzisere Antworten zu liefern. Es unterstützt auch Apps wie YouTube und Google Maps für komplexe, mehrstufige Fragen.
2.0 Pro richtet sich an Gemini Advanced-Abonnenten und hilft bei komplexen Aufgaben wie Programmierung und Mathematik.

Beide Modelle sind in der Web- und Mobil-App verfügbar und befinden sich noch in der experimentellen Phase mit möglichen Fehlern und eingeschränkter Funktionalität.

Wie kann Google Gemini genutzt werden?

Der Zugang zu Google Gemini 2.0 Flash und Flash-Lite ist nun für alle Nutzer über die Gemini-App auf Desktop und Mobilgeräten verfügbar. Für Entwickler und Unternehmen steht Gemini 2.0 Flash über die Gemini-API in Google AI Studio und Vertex AI zur Verfügung. Zusätzlich können Gemini Advanced-Abonnenten das 2.0 Pro und 2.0 Flash Thinking Experimental Modell nutzen, das für komplexe Aufgaben wie Programmierung und Mathematik optimiert ist.

Gemini 2.0 Flash und Flash Lite wird jetzt auch in der kostenlosen Version von Googles eigenem Chatbot Google Gemini (ehemals Bard) genutzt. Dieser Chatbot ist Teil der Google-Suchmaschine und kann auch dort verwendet werden. Gemini 1.5 Flash und 1.5 Pro bleiben noch für einige Wochen verfügbar.

Auch auf den neuen Android Smartphones von Google, der Pixel 9 Serie, kann Google Gemini genutzt werden. Google tauscht den vorinstallierten Google Assistenten gegen Gemini als neuen Standard-AI-Assistenten aus. Es wird die kleinste Version, Gemini Nano, verwendet. Diese kann durch den Einsatz multimodaler Modelle, über Text, Bilder oder Sprache interagieren. Auch für IOS-Nutzer wurde im November etwas Passendes gelauncht: Die Gemini-App, die die Nutzung für alle Apple-Liebhaber nun noch einfacher gestaltet.

Außerdem soll Gemini künftig mit weiteren Google-Apps, wie Google Calendar oder Gmail , verbunden werden, um die Benutzererfahrung noch weiter zu verbessern. Google verdeutlicht diese Funktion folgendermaßen:

“Lass Gemini das Lasagne-Rezept aus deinem Gmail-Account heraussuchen und bitte den KI-Assistenten, die Zutaten zu deiner Einkaufsliste in Keep hinzuzufügen."

Auch innerhalb von Google Maps ist der Gemini-Assistent neuerdings vernetzt. Nutzer können einfach in der App selbst nach inspirierenden Aktivitäten oder Orten fragen und dank Gemini bekommen sie personalisierte Empfehlungen mit zusammengefassten Bewertungen sowie spezifischen Details zum Zielort – alles in Echtzeit und ohne eigenes Suchen.

Und es geht noch weiter: Auch auf dem Google TV ersetzt Gemini den Google Assistenten und durch eine neue Funktion kann Gemini im Sperrbildschirm Smart Home-Geräte bedienen, sodass Nutzer bequem ohne Entsperren des Handy z.B. das Licht, Heizung oder Kameras steuern können.

Google Gemini, GPT-4 oder GPT-4o?

Als im November 2022 OpenAI mit der Anwendung ChatGPT und dem dazugehörigen Modell GPT3 an den Start ging, war der Hype groß und die erwartete Antwort von Google hatte eine Weile auf sich warten lassen.

Es dauerte bis März 2023, als der von Google entwickelte Chatbot Bard (inzwischen Google Gemini) veröffentlicht wurde. Dieser macht jedoch anfangs eher aufgrund von falschen oder witzigen Antworten auf sich aufmerksam. Wie es scheint, wurde dieses Rennen nun deutlich enger, da Google Bard durch Gemini einen echten Boost erfahren hat.

Vor allem auf X, ehemals Twitter, wurden einige Tweets erstellt, die die teilweise lustigen und teilweise beängstigenden Fehler zeigen, die in der vorherigen Version von Google Bard sehr häufig vorkamen:

Bard über das Monopol-Verfahren gegen Google:

Google Bard sides with the Justice Department in the Google antitrust case

“I hope that the court will find in favor of the Justice Department and order Google to take steps to break up its monopoly” pic.twitter.com/uqoXrCVAYI
— Jane Manchun Wong (@wongmjane) March 21, 2023

‍

Google Bards Probleme mit einfachen Matheaufgaben:

google just released their AI and all I’m going to say is that ur jobs are safe pic.twitter.com/7lnAIB5fO8
— Hurt CoPain (@SaeedDiCaprio) March 21, 2023

‍

Google Bards Umgang mit Tippfehlern:

Bard over GPT by a nose(trunk?) on that one pic.twitter.com/R4wLq7M4fk
— Rasmus Lerdorf (@rasmus) March 29, 2023

‍

In einem Artikel des Business Insiders werden zehn (englische) Fragen sowohl an ChatGPT mit dem zugrundeliegenden GPT4 Modell als auch an Google Gemini (ehemals Bard) mit Gemini Pro gestellt. In dem Artikel fällt auf, dass Google Gemini auf Grenzfragen zur Sexualität und Politik nur sehr verhalten reagiert. Wahrscheinlich, um unangenehme Fehltritte wie in der Vergangenheit aus dem Weg zu gehen. Außerdem erscheinen die Antworten von Google Gemini (vorher Bard) teilweise etwas zurückhaltender und rationaler, während ChatGPT auch Emojis und emotionale Antworten nutzt.

In technischer Hinsicht soll Gemini gegenüber GPT-4 in den Bild-, Video- und Audio-Benchmarks zurzeit besser abschneiden, dafür soll GPT-4 allerdings stärker im Bereich logisches Denken sein.

Die Wahl des “besseren” Modell scheint insgesamt also schwierig zu treffen und hängt wohl sehr vom jeweiligen Anwendungsfall ab: GPT-4 überzeugt mit einer hohen Genauigkeit und detaillierten Antworten, während GPT-4o mit Geschwindigkeit und Effizienz auftrumpfen kann. Für ein erweitertes kontextbezogenes Verständnis und schnelle Reaktionszeiten scheint Gemini 1.5 eine überzeugende Lösung zu sein.

Neben diesen Platzhirschen sollten jedoch auch die anderen konkurrierenden Chatbot-Systeme und Large Language Modelle nicht vergessen werden, die beispielsweise auch dadurch überzeugen können, dass sie teilweise aktuellere Informationen enthalten. Mehr dazu gibt es in unserem Artikel, der 20 ChatGPT-Alternativen aufzeigt.

Fazit

Google Gemini ist eine interessante Innovation von Google, die hauptsächlich durch die Möglichkeit besticht, mit einer Vielzahl an Formaten umgehen zu können. Die ersten gezeigten Anwendungen sind vor allem aufgrund der Eigenschaft interessant, gezielte Rückschlüsse treffen zu können und die Antworten so zu begründen.

Testen Sie jetzt moinAI und erleben Sie die Zukunft der Kundenkommunikation auf eine sichere, effiziente und benutzerfreundliche Weise. In nur vier einfachen Schritten können Sie einen Chatbot-Prototyp erstellen und so einen ersten Eindruck von der Technologie gewinnen – völlig unverbindlich und kostenlos.