Das sogenannte Natural Language Understanding befasst sich mit der Aufgabe, menschliche Sprache für den Computer verarbeitbar und den Inhalt für andere Aufgaben zu erfassen, quasi inhaltlich zu verstehen. Dieser Artikel befasst sich mit den Konzepten von Natural Language Understanding, dem Unterschied zu NLP und welche Anwendungen sich damit umsetzen lassen.
Was ist Natural Language Understanding?
Das Natural Language Understanding, kurz NLU, umfasst einen Teilbereich der künstlichen Intelligenz, der sich damit beschäftigt, natürliche Sprache für Computer inhaltlich verständlich zu machen. Dadurch lassen sich sehr komplexe Anwendungen umsetzen, wie beispielsweise das Zusammenfassen von Texten. Die Komplexität bei NLU besteht darin, die Sprache mit all ihren Facetten, wie Synonymen oder Ironie, für den Computer verständlich zu machen.
Was für uns Menschen einfach erscheint, ist für die Maschine hochkomplex, denn zum einen assoziiert unser Gehirn die Worte mit Erinnerungen, Bilder und Gefühlen und stellt die Worte in den richtigen Kontext. Dieses Wissen muss die Computer-Software erst erlernen und durch andere Hilfsmittel ersetzen. Außerdem muss die Software die Texte in maschinen-verständliche Bausteine, also lange Zahlenkolonnen umwandeln.
Was haben NLP und NLU miteinander zu tun?
Natural Language Understanding (NLU) und Natural Language Processing (NLP) werden häufig verwechselt oder fälschlicherweise als Synonyme verwendet. Deshalb ist es interessant, genauer einzusteigen, wie diese Gebiete miteinander zusammenhängen. Für einen tieferen Einstieg in das Natural Language Processing gibt es in diesem Lexikon auch einen eigenen Artikel zu NLP. Die grundlegenden Punkte werden jedoch auch in diesem Beitrag wiederholt.
Bei NLP handelt es sich um ein Themengebiet, das sich mit der Verarbeitung von Text durch Software beschäftigt. Es ist als eigenständiges Themenfeld auch schon vergleichsweise alt und wird bereits seit den 1950er Jahren betrieben. Es versucht mithilfe von Methoden aus der Künstlichen Intelligenz, der Linguistik und der Informatik menschliche Sprache in geschriebener und gesprochener Form zu verarbeiten. Neben dem Verständnis von bereits bestehenden Texten umfasst NLP auch die Erstellung von neuen Textdaten.
Mögliche Anwendungen für Natural Language Unterstanding (NLU):
- Sprachassistenten
- Entitenerkennung, z.B. Personen oder Orte, für Chatbots
- Automatische Übersetzung
- Spamfilter
- Sprachanalyse für die Marktforschung
Mögliche Anwendungen für Natural Language Generation (NLG):
- Erstellung von personalisierten E-Mails
- Content Marketing
- Echtzeit Textgenerierung in Spielen
- Erstellung von Produktbeschreibungen
- Erstellungen von Textzusammenfassungen
Das Natural Language Understanding (NLU) beschäftigt sich mit dem tatsächlichen Verständnis des verarbeiteten Textes und umfasst Aufgaben, wie die Untersuchung der Semantik und Syntax oder die Bestimmung der Gefühlslage, in der der Text verfasst wurde. Somit ist NLU eine von vielen Themengebieten im Bereich des NLP.
Die Natural Language Generation hingegen ermöglicht es Computern, eigenen Text zu generieren, der basierend auf einer Eingabe erstellt wird. Außerdem fällt in diesen Bereich auch die Eigenschaft, ganze Texte zusammenzufassen und nur die Hauptpunkte wiederzugeben. Jedoch überschneidet sich dieser Punkt mit NLU, da der Text erst verstanden werden muss, bevor er zusammengefasst werden kann.
Wie funktioniert Natural Language Understanding?
Im Bereich des Natural Language Understanding wird häufig mit unstrukturierten Textdaten gearbeitet, die keine feste Struktur aufweisen, wie das beispielsweise bei einer Tabelle der Fall ist. Solche Daten erschweren es, konkrete Informationen abzufragen. Um zum Beispiel Namen aus einer Tabelle abzufragen, muss lediglich die entsprechende Spalte ausgelesen werden, bei Textdaten hingegen, können die Namen an unterschiedlichen Stellen stehen, sodass es deutlich schwieriger ist, alle Namen aus dem Text zu entnehmen. Es handelt sich dabei meist um große, zusammenhängende Textpassagen, die für den Computer so nicht direkt verarbeitbar sind. Mittlerweile gibt es verschiedene Möglichkeiten, wie eine solche Vorverarbeitung stattfinden kann. Durch die Entwicklung von besseren und leistungsstärkeren Modellen im Bereich der künstlichen Intelligenz haben sich verschiedene Wege herausgebildet, die auch von der Anwendung abhängen. Frühere NLU Modelle haben sich dabei zum Beispiel auf die folgenden Punkte konzentriert:
- Tokenisierung: Der Text wird in sogenannte Tokens aufgeteilt. Diese können Wörter, Phrasen oder sogar nur einzelne Silben sein. Mithilfe von Tokens lässt sich dann bereits eine gewisse Aussage über den Inhalt des Textes treffen, beispielsweise indem häufig vorkommende Wörter gezählt werden. Außerdem können Füllwörter entfernt werden, die keine große Auswirkung auf den Inhalt des Textes haben, also zum Beispiel Artikel, wie „ein“ oder „das“. Nachdem die sogenannten „Stop Words“ entfernt wurden, kann sich der Computer auf den eigentlichen Inhalt fokussieren.
- Analyse der Syntax: Nachdem die einzelnen Worte erkannt wurden, wird eine grammatikalische Analyse durchgeführt, um die Struktur der Sätze zu verstehen. Dabei wird als Technik das sogenannte Part-of-Speech Tagging oder kurz POS Tagging genutzt. Dies erkennt und markiert beispielsweise Substantive, Verben und Adjektive, wodurch die Wörter miteinander in Verbindung gebracht werden können, was zum weiteren Verständnis beiträgt.
- Semantische Analyse: Bei diesem finalen Schritt wird versucht, den Inhalt des Textes und dessen Bedeutung zu verstehen. Die semantische Analyse basiert auf den vorangegangenen Verarbeitungsschritten. Eine Methode in diesem Bereich ist die sogenannte Named Entity Recognition (NER), bei der Entitäten, wie Namen, Orte oder Organisationen, im Text erkannt und markiert werden. Dadurch können relevante Informationen extrahiert und Zusammenhänge gebildet werden. Außerdem kann das „Sentiment“ des Textes herausgefunden werden, also, ob der Text eher in einem freundlichen, neutralen oder einem negativen Ton verfasst wurde.
Aktuell werden vermehrt Large Language Modelle für die natürliche Sprachverarbeitung genutzt, die eine solche detaillierte Vorarbeit nicht mehr notwendig macht.
Was ist der Unterschied zwischen NLU und LLMs?
NLU und LLMs sind zwei Abkürzungen, die im Bereich des Machine Learnings häufig verwendet werden. Das NLU steht für Natural Language Understanding und umfasst einen von vielen Teilbereichen der Künstlichen Intelligenz. Das Ziel ist es, Computer-Software zu erstellen, die in der Lage ist menschliche Sprache zu verstehen und verarbeiten zu können. Diese Technik wird in verschiedensten Anwendungen, wie zum Beispiel in Spamfiltern oder Sprachassistenten genutzt.
Die Large Language Models, kurz LLMs, hingegen bilden eine Klasse von Machine Learning Modellen, die mithilfe von großen Textdatenmengen versuchen, linguistische Strukturen und Muster zu erkennen und dadurch natürliche Sprache zu erlernen. Der wohl bekannteste Vertreter von LLMs ist der Generative Pretrained Transformer, kurz GPT, welcher die Basis für die Anwendung ChatGPT ist und in verschiedenen Varianten genutzt werden kann.
Somit sind LLMs eine mögliche Technologie, die eingesetzt wird, um Natural Language Understanding umzusetzen.
Welche Anwendungen nutzen NLU?
Das automatisierte Verständnis von natürlicher Sprache findet in vielen Bereichen Anwendung, in denen große Textmengen automatisiert verarbeitet werden sollen.
Sprachassistenten, wie beispielsweise Alexa oder Siri, ermöglichen es, dass gesprochene Befehle von Geräten verstanden und ausgeführt werden. Dadurch lässt sich im Smart Home das Licht ausschalten oder der nächste Song abspielen. Die zugrundeliegenden Modelle müssen dafür die gesprochene Sprache und zudem verschiedene Dialekte oder Ausdrucksweisen verstehen können.
Vor allem Unternehmen und Behörden setzen auf Chatbots, die es ermöglichen, schriftliche Benutzeranfragen entweder direkt live zu bearbeiten oder an eine richtige Ansprechperson weiterzuleiten. Dadurch kann dem Nutzer schnell geholfen werden und die Arbeitslast von Fachkräften reduziert werden. Dabei werden die Eingaben des Nutzers verarbeitet und zum Beispiel konkrete Entitäten extrahiert, wie beispielsweise Informationen zu Person und Ort, die im Verlauf der Anfrage benötigt werden. Außerdem wird die Eingabe genutzt und eine sogenannte Intentanalyse gestartet, die herausfindet, um welches Anliegen es sich bei der Anfrage nutzt. Für einen Deep-Dive in Chatbots, ihre Grundlagen und Anwendung kann man unter anderem unser detailliertes E-Book zu diesem Thema verwenden, das hier heruntergeladen werden kann.
Das NLU wird zudem für sogenannte Sentimentanalysen genutzt, bei denen Produktbewertungen oder Social Media Kommentare klassifiziert werden, anhand ihrer Stimmung. Damit soll erkannt werden, ob die Bewertungen eher positiv oder negativ gestimmt sind. Mithilfe solcher Analysen kann die große Zahl an Kommentaren einfach und schnell verarbeitet werden. Modelle, die für Sentimentanalysen genutzt werden, müssen in der Lage sein, die Eigenheiten von sozialen Medien zu verstehen und obendrein ironische oder sarkastische Aussagen richtig deuten zu können.
Ein weiteres Anwendungsfeld von NLU ist die Nutzung innerhalb der automatischen Übersetzung. Eine gute Übersetzung zeichnet sich schließlich nicht nur dadurch aus, dass alle Wörter richtig in die neue Sprache übernommen werden, sondern auch, dass dabei auf Kontexte eingegangen wird und somit auch die passende Übersetzung einzelner Wörter oder Phrasen genutzt wird.
Stolpersteine für NLU-Systeme
Die menschliche Sprache hat viele Tücken, mit denen Softwaresysteme im Bereich NLU umgehen müssen. Diese erschweren es, den tatsächlichen Inhalt und Kontext zu ermitteln und müssen in der Erstellung der Modelle berücksichtigt werden. Zu den Herausforderungen gehören zum Beispiel:
- Semantische Vielfalt: Die natürliche Sprache ist äußerst vielfältig und stark vom Kontext abhängig. So kann ein Wort mehrere Bedeutungen haben, je nachdem, in welchem Zusammenhang es verwendet wird oder wie es ausgesprochen wird. Bei dem Wort Fall kann es sich beispielsweise entweder um einen Sturz oder um einen Kriminalfall handeln.
- Demonstrativpronomen: Demonstrativpronomen verweisen auf Personen oder Gegenstände, die in einem vorangegangenen Kontext verwendet wurden, z.B. "Der Nachbarshund ist ein Welpe. Dieser hat ein braunes Fell." Um diese Pronomen richtig einordnen zu können, müssen NLU-Modelle ein Kurzzeitgedächtnis aufweisen, um die Informationen aus dem vorangegangenen Satz noch parat zu haben, wenn das Wort „dieser“ verarbeitet wird.
- Ironie und Sarkasmus: Der Sinn von ironischen oder sarkastischen Aussagen ist meistens das Gegenteil von dem eigentlich Gesagten. An einem regnerischen und kalten Tag könnte in einem ironischen Zusammenhang schnell mal die Aussage „Das Wetter ist heute aber besonders schön.“ fallen. Die ironische Bedeutung ist dann größtenteils nur durch die Betonung oder den Kontext verständlich, und es fällt auch uns Menschen teilweise schwer, die ironische Bedeutung zu erkennen. Dementsprechend ist es für Computersysteme noch deutlich schwerer, den wahren Inhalt einer ironischen oder sarkastischen Aussage zu verstehen.
- Dialekte und Slang: Die Nutzung von Sprache variiert nicht nur stark zwischen verschiedenen Regionen, sondern auch zwischen sozialen Gruppen und Altersgruppen. Dabei werden vermehrt Worte verkürzt oder leicht verändert ausgesprochen oder geschrieben. Diese Nuancen müssen NLU-Systeme erkennen und richtig deuten.
Dies ist nur eine Auswahl von Eigenheiten, die nahezu jede menschliche Sprache mit sich bringt und von NLU-Systemen erlernt werden müssen. Um das zu erreichen, gibt es verschiedene Ansätze, die genutzt werden können. Eine Möglichkeit ist es, beim Training auf große Datensätze mit Texten aus den unterschiedlichsten Zusammenhängen und Anwendungen genutzt werden. Das Internet ist dafür oft eine gute Quelle, da es eine Vielzahl von Texten enthält, die umgangssprachlich oder auch sehr technisch sein können. Jedoch ergeben sich hier wiederum andere Probleme, wie beispielsweise die Verarbeitung von sehr großen Datenmengen oder die fehlende Regulierung der Inhalte, die sehr einseitige Meinungen oder schlichtweg falsche Informationen enthalten kann. Deshalb sollte man auch bei den Ausgaben von heutigen Chatbots vorsichtig sein und die Informationen möglichst mit unabhängigen Quellen vergleichen.
Fazit
Das Natural Language Understanding ist ein aufregender Teilbereich der künstlichen Intelligenz, der aktuell viele Fortschritte macht und in einigen Anwendungen, wie Sprachsystemen oder Chatbots zum Einsatz kommt. Es steht dabei vor einigen Herausforderungen, die die menschliche Sprache mit sich bringt, wie beispielsweise das Verstehen von Ironie oder Sarkasmus oder das Erlernen von Dialekten.
In Zukunft wird sich die Forschung auf noch robustere Modelle konzentrieren, die höhere Genauigkeiten erzielen können und dadurch besser auf Einzelheiten eingehen können. Insgesamt bietet Natural Language Understanding die Chance, dass die Interaktion zwischen Mensch und Computer immer besser wird und sich die Mensch-Computer-Interaktion grundlegend verändern kann.