Wie ein Voicebot sprechen lernt: Die Rolle von Linguistik-Experten bei der Entwicklung eines Voicebots

Wie sprachwissenschaftliche Expertise von UX Designern bei der Entwicklung von Voicebots zu einer verbesserten Customer Experience beiträgt.
Das Aufsetzen und Training eines Voicebots ist ein komplexes Unterfangen, denn schließlich versuchen wir einer Maschine eine der größten Errungenschaften der Menschheit beizubringen – unsere Sprache. Dabei spielt Linguistik eine tragende Rolle und ist entscheidend für die Qualität eines Voicebots. Denn nur wer das komplexe System der Sprache erfassen und herunterbrechen kann, ist auch in der Lage, die menschliche Fähigkeit zu sprechen künstlich zu erzeugen (Sprachsynthese) und weiterzuentwickeln. Sprachwissenschaftler, auch Linguisten genannt, untersuchen mit unterschiedlichen Herangehensweisen die menschliche Sprache. Sie können Sprache in Regeln und Modelle umwandeln, die sich auch bei der Entwicklung eines Bots anwenden lassen. Schließlich kann die Sprachsynthese immer nur so gut sein, wie die Modelle der Sprachproduktion, die ihr zugrunde liegen.
Nur durch das Zusammenspiel von menschlicher Expertise und intelligenter Technologie kann ein Voicebot entstehen, der das Anliegen der Anrufer unkompliziert löst und dabei ein hervorragendes Serviceerlebnis bietet. Die UX Designer im majBOT-Team des Customer Experience-Dienstleisters Majorel wissen aufgrund ihrer langjährigen Erfahrungen im Customer Service sehr genau, wie Dialoge mit Kunden ablaufen und können so ein hervorragendes Kundenerlebnis mit menschlichen Dialogen ermöglichen. Linguisten können diesen operativen Dialoge den nötigen Feinschliff verpassen und die Spracherkennung verbessern – aus diesem Grund ist die Expertise von Sprachwissenschaftlern im Chat- und Voicebot-Entwicklungsteam von majBOT fest verankert. Annika Besser, UX & Sales Consultant bei majBOT und studierte Linguistin: „Linguisten verstehen, welche Informationen in der zwischenmenschlichen Kommunikation mit einfließen. Die Herausforderung bei Voicebots besteht darin, dass der Informationsaustausch nur mit Wörtern gestaltet werden kann – Mimik, Gestik oder zögernde Laute, die normalerweise zur interpersonellen Kommunikation gehören, fallen weg. Es müssen also Dialogwege gefunden werden, die diesen Mangel an Kontext kompensieren können und zugleich nicht zu komplex oder umständlich sind. Schließlich hört der Gesprächspartner sämtliche Informationen des Voicebots nur und muss sie sich merken können. Für diese Zusammenhänge sind Linguisten durch ihre Ausbildung sensibilisiert.“
Dialoge mithilfe von Linguistik automatisiert und doch menschlich gestalten
Ein Bot kann nicht einfach eingeschaltet werden – er benötigt beispielsweise Kontext, unternehmensspezifische Begriffe und Vorgaben, wie Kunden angesprochen werden sollen. Nur wer über umfassende Expertise im Customer Experience Management verfügt, kann automatisierte und doch menschliche Service-Dialoge umsetzen. Dabei ist ein linguistischer Blick gerade beim Dialogdesign eines Bots sehr wertvoll. Er kann dabei helfen, Dialoge inhaltlich zielführend und besonders nutzerfreundlich zu gestalten. Aber auch bei der Programmierung von Sprachtechnologie ist eine linguistische Perspektive hilfreich – schließlich muss auch eine Technologie das System Sprache erst erlernen. Linguisten kennen das Regelwerk der Sprache und können es dementsprechend in Form von Regeln, Bedingungen und Algorithmen einem Computer antrainieren. Auf der Bedeutungsebene untersuchen Linguisten zum Beispiel das Zusammenspiel aus Kundenäußerungen den Absichten dahinter. Durch eine genaue Analyse des Gesagten werden die Absichten abgeleitet, deren zielsichere Erkennung dem Bot dann antrainiert werden kann. So wird die Erkennung von Anliegen und damit auch die Kundenzufriedenheit stetig verbessert.
Je ausdrucksstärker der Bot ist, desto besser kann der Kunde mit ihm interagieren – dies wiederum hat erheblichen Einfluss auf die Customer Experience. Wenn eine Maschine mit uns spricht, fangen wir häufig selbst an, mechanisch zu sprechen, was sich für uns unnatürlich und unangenehm anfühlt. Wenn der Voicebot aber eine natürliche und menschliche Ausdrucksweise hat, muss der Gesprächspartner seinen Sprachstil nicht anpassen. Besonders wichtig ist dieser Aspekt, wenn man in Betracht zieht, dass Bots zukünftig beispielsweise auch komplexe Themen wie Beratung oder Cross- und Upselling im Kundengespräch übernehmen könnten.
Ein sympathischer Voicebot dank Erkenntnissen über phonetische Stimmeigenschaften
Ob wir eine Person als sympathisch empfinden oder nicht, hängt zu großen Teilen von ihrer Sprechweise und damit auch von ihrer Stimme ab. Das Wissen von Linguisten über die Laute unserer Stimme, also phonetische Stimmeigenschaften, kann auch hier für die Optimierung von Voicebots genutzt werden. Denn die Verständlichkeit und Nutzerfreundlichkeit von Sprachsynthese verbessert sich durch positiv wahrgenommene phonetische Stimmeigenschaften – auch bei Voicebots macht der Ton die Musik. Mithilfe eines Voicebot, der den Kunden sympathisch ist, kann die Customer Experience erheblich verbessert werden. Intonation und Sprachpausen an den richtigen Stellen können hierfür ein Mittel sein.
„Die Expertise von Linguisten ist für die optimale User Experience mit Voicebots unumgänglich. Durch das sprachliche Fachwissen kann der Bot so trainiert werden, dass ein automatisierter und doch menschlicher Dialog mit den Kunden entsteht.“

Annika Besser, UX & Sales Consultant bei majBOT und studierte Linguistin
Phonetik als Instrument für Natural Language Understanding & Processing von Voicebots
Die telefonische Kommunikation mit einem Voicebot ist aus linguistischer Perspektive prädestiniert für Fehlerquellen. Der Frequenzbereich der menschlichen Sprache, in dem alle sprachlichen Informationen inklusive höherer Frequenzen abgebildet sind, ist viel höher als das Frequenzspektrum des Telefonkanals. Es liegt also auf der Hand, dass einige Laute im Telefonat nicht gut übermittelt werden können. Insbesondere Frikative (alle Reibe- und Zischlaute unserer Sprache) und nasale Laute sind per Telefon sehr schlecht verständlich. Bei der Adress- oder Datenaufnahme durch den Bot kann es deshalb zu Komplikationen kommen, wenn dieser nicht entsprechend trainiert ist. Möglich wird eine reibungslose Kommunikation trotz dieser Einschränkungen durch Natural Language Understanding & Processing des Bots. Unser Gehirn füllt fehlende Laute und entsprechende Lücken in der Sprache durch unsere Erfahrungswerte automatisch aus. Genau dies muss der Bot auch lernen, damit seine Spracherkennung optimal ist. „Ich bin Phonetikerin und befasse mich mit allen lautlichen Aspekten sprachlicher Kommunikation. Ein spezifisch phonetischer Blick kann dabei helfen, die Verarbeitung von gesprochener Sprache durch den Voicebot zu optimieren. Er deckt Hürden sowie Optimierungspotenziale in der Art und Weise wie Mensch und Maschine miteinander sprechen auf,“ so Annika Besser.
Ausblick: Was mit einer linguistischen Perspektive zukünftig möglich sein kann
Die aktuellen Entwicklungen rund um generative KI und der Durchbruch von ChatGPT bieten im Kundendialog viele spannende Potenziale. Es ist davon auszugehen, dass generative KI in Zukunft dazu eingesetzt werden wird, automatisierte Dialoge noch menschlicher zu gestalten und gleichzeitig die Effizienz der Abläufe in den Servicecentern weiter zu steigern. Dennoch wird menschliche Expertise von UX Designern und Sprachwissenschaftlern im Customer Service auch in Verbindung mit generativer KI nötig sein, um kundenzentrierte Dialoge, welche der jeweiligen CI entsprechen, mit hervorragender Spracherkennung und korrekten Informationen zu ermöglichen. Denn hierfür muss auch generative KI von Experten trainiert sowie überwacht werden und spezifische Anwendungsfälle von Fachpersonal implementiert werden.
Mit einem gut aufgesetzten und trainierten Bot ist eine Interaktion mit ChatGPT heute noch nicht vergleichbar. Besonders durch die Verbindung von künstlicher Intelligenz und sprachwissenschaftlicher Expertise können Bots einen transparenten, konsistenten und zuverlässigen Kundendialog bieten und perspektivisch immer näher an menschliche Kommunikation herankommen. Über die Stimme eines Menschen werden weitaus mehr Informationen transportiert als nur der explizite Inhalt einer Äußerung. Es schwingen immer auch sogenannte extra- und paralinguistische Informationen mit, die wir ebenfalls verarbeiten und aus denen wir unterbewusst Vieles ablesen – wir können aus ihnen zum Beispiel auf das Alter, den Gesundheitszustand, das Geschlecht, die Muttersprache und die emotionale Verfassung der sprechenden Person schließen. Wenn künstliche Intelligenzen so weiterentwickelt werden, dass sie extra- und paralinguistische Informationen verarbeiten können, würde dies empathische und vorausschauende Dialoge mit Kunden ermöglichen, indem auf die Stimmung der Kunden besser eingegangen werden kann. Mit linguistischem Expertenwissen können in der Zukunft also noch sehr viele Potenziale von Bots entfaltet werden.
Nehmen Sie Kontakt mit uns auf!
Mehr über majBOT erfahren Sie unter majbot.com