Digitalisierung & Technologie, 05. Dezember 2022

Auf dem Weg zur sprechenden Super-KI?

NLU, LLM und GPT-3

Junge Frau vor blauem Hintergrund spricht in ein Smartphone

Die klassischen, regelbasierten Sprachassistenten auf Smartspeakern und Smartphones oder Chatbots auf Webseiten sind nicht perfekt. Manchmal werde ich nicht verstanden und muss unterschiedliche Varianten ausprobieren, bis ich verstanden werde. Aber warum ist es für einen Computer eigentlich so schwierig, gesprochene Sprache korrekt zu verarbeiten? Darüber haben sich Nicolas Konnerth, Head of Voice bei ERGO, und Sebastian Groth, Product Owner für Voice Assistants und Conversational Services bei ERGO, auf LinkedIn Gedanken gemacht.

Sebastian Groth, Product Owner für Voice Assistants und Conversational Services

„Ich glaube, jeder Bot-Entwickler träumt heimlich von eine künstlichen Intelligenz wie J.A.R.V.I.S. oder C3PO, die ohne Probleme die gesprochenen Anweisungen eines Menschen versteht und daraus korrekte Handlungen ableiten kann – ganz ohne Missverständnisse“, schreibt Sebastian Groth in seinem neuen Essay und fragt sich: „Warum ist es aus einer programmiertechnischen Sicht aber so schwierig, das gesprochene Wort richtig zu interpretieren?“ In seinem Streifzug durch die Geschichte der Spracherkennung blickt er zurück auf die Anfänge in den 1980er Jahren („Grammatik als Schlüssel“), betrachtet die 1990er (erste Machine-Learning-Ansätze) und landet schließlich bei aktuellen Methoden (Deep Neural Networks und Large Language Models). 

Wie geht es also weiter mit der Entwicklung von Sprachmodellen? Sind wir auf dem Weg zu einer Super-KI wie wie J.A.R.V.I.S. oder C3PO, die jede unserer Äußerungen genauso gut versteht wie ein Mensch? Wer es wissen möchte, findet Sebastian Groths Beitrag hier bei LinkedIn:

Nicolas Konnerth, Head of Conversational AI

Einen detaillierten Blick darauf, welche Large Language Models (LLMs) es bereits gibt, was sie leisten können und welche Fallstricke sie mit sich bringen, gibt es passend dazu im neuesten Blogbeitrag von Nicolas Konnerth, Head of Voice bei ERGO. LLMs berechnen aus der Erfahrung riesiger Datenmengen, welche Antwort ein Nutzer auf seine Frage wohl erwarten könnte. Die Antwort ist also eine statistische Wahrscheinlichkeit.

„Large Language Models wie GPT3, BERT oder LaMDA haben immer eine scheinbar perfekte Antwort parat und kommen einer echten Intelligenz so nahe, dass manche sogar behaupten, dahinter stecke eine echte Empfindungsfähigkeit“, schreibt Nicolas Konnerth. Doch: Die Technologie hat ihre  Tücken. Mehr dazu sowie einige anschauliche Beispiele gibt es in seinem Blogbeitrag bei LinkedIn: 


Ihre Meinung
Wenn Sie uns Ihre Meinung zu diesem Beitrag mitteilen möchten, senden Sie uns bitte eine E-Mail an: next@ergo.de


Weitere Magazin-Beiträge