Sprachschnittstellentechnologie: Das müssen Sie wissen!

Voice Interface Technology: What You Need to Know

Sprachschnittstellen sind inzwischen allgegenwärtig – sogar bei uns zu Hause. Digitale Sprachassistenten wie Alexa, Siri, und der Google Assistant steuern bereits über 3 Milliarden Geräte, und bis 2023 werden es wohl doppelt so viele sein. Diese vertrauten Begleiter sind die bekannteste Seite der beliebten sprachgesteuerten Benutzerschnittstellen, kurz: VUI.

Doch VUIs kommen nicht nur bei Smart Speakers zum Einsatz. Die Technologie unterstützt z. B. auch entscheidende Geschäftsprozesse: von der freihändigen Steuerung von Produktionslinien bis hin zur Buchung von Sitzungsräumen von unterwegs aus. Wir haben für Entscheidungsträger einige wichtige Punkte zu diesem Thema zusammengefasst: Worum geht es dabei? Was kann die Technik leisten? Und wie lassen sich damit Geschäftsziele erreichen?

Sprachgesteuerte Benutzeroberfläche: Was ist das?

In der Computerwissenschaft wird als Benutzerschnittstelle Hardware und Software bezeichnet, die eine Interaktion zwischen Mensch und Maschine ermöglicht. Dazu können z. B. eine Tastatur, eine Maus und ein Touchscreen, aber auch die Software zur Generierung der Bildschirmelemente gehören, auf die Sie klicken, die Sie verschieben oder in die Sie tippen.

PCs aus den frühen 1980er Jahren wurden noch über eine rein textbasierte Schnittstelle gesteuert. Damit die Maschine eine Aktion durchführte, mussten hochspezifische Textbefehle eingegeben werden. Grafische Benutzerschnittstellen (Graphical User Interface/GUI) wie beim revolutionären Apple Macintosh von 1984, ersetzten diese komplizierten Befehlseingaben durch visuelle Symbole, die über eine Maus gesteuert werden konnten. So entstand der Bildschirm, wie wir ihn noch heute verwenden.

Genau wie bei einer GUI und zuvor bei einer Befehlszeile eröffnet eine VUI neue Möglichkeiten, digitalen Geräten Anweisungen zu erteilen, allerdings jetzt ganz ohne Bildschirm, Tastatur oder Maus. Zusammengefasst ist eine VUI also eine Technologie, die es Menschen ermöglicht, über die Stimme mit digitalen Geräten zu interagieren.

Bestandteile der sprachgesteuerten Benutzerschnittstelle

Eine rein sprachgesteuerte Benutzerschnittstelle akzeptiert nur gesprochene Eingaben und generiert auch nur gesprochenen Output. Dagegen werden bei einer bimodalen Benutzerschnittstelle Sprache und ein weiteres Medium, etwa Texte auf dem Bildschirm, kombiniert. Ein Beispiel für eine solche bimodale Schnittstelle sind Smart-TV-Geräte, bei denen die Lautstärke per Sprachbefehl reduziert werden kann. Das Gerät ist sprachfähig, aber der Lautstärkebalken wird als Grafik auf dem Bildschirm angezeigt.

An dieser Stelle wird lediglich auf End-to-End-VUIs eingegangen, also Systeme, die Sprachbefehle erkennen und darauf mit maschinell generierter Sprache antworten. Bei solchen VUIs werden drei verschiedene Technologien zu einer zunehmend natürlichen Interaktion zwischen Menschen und ihren Tools kombiniert:

  1. Automatische Spracherkennung (Automated Speech Recognition/ASR): Die erste Aufgabe einer VUI besteht darin, gesprochene Befehle in ein maschinenlesbares Format, in der Regel in Text umzuwandeln. Zu Beginn der VUI-Entwicklung, Mitte der 2000er Jahre, beschränkte sich die ASR noch auf wenige feststehende Befehle und die frühen Speech-to-Text-Geräte konnten nur schlecht mit unterschiedlichen Sprechgeschwindigkeiten, Stimmfarben und Akzenten umgehen. Das ist heute anders. Wir kommen beim dritten Punkt noch darauf zurück.
  2. Text-to-Speech (TTS): Sprachfähige Geräte konvertieren gesprochene Befehle in Text, führen die Befehle aus und bereiten eine vorgefertigte Antwort in Textform vor. Eine TTS-Engine macht aus diesem Text synthetische Sprache und komplettiert so die Interaktion mit dem Benutzer. In Sachen Qualität gibt es bei TTS auch heute noch große Unterschiede: von roboterhaften Stimmen ohne Emotionen bis hin zu natürlich und lebensecht klingenden Lösungen wie bei ReadSpeaker.
  3. Künstliche Intelligenz (KI): Die frühen VUIs hatten ihre Tücken. Schon kleine Unterschiede bei Akzenten und Dialekten brachten sie ins Stolpern. Die gescripteten TTS-Antworten klangen wirr und unnatürlich, waren zum Teil kaum zu verstehen. Mithilfe Künstlicher Intelligenz lassen sich diese Probleme lösen. Deep Neural Networks (DNNs) sind in der Lage, von menschlicher Sprache zu lernen und diese mit der Zeit immer besser zu erkennen. Diese Art von KI-basierter ASR wird als Natural Language Understanding (NLU) bezeichnet. Genau dadurch weiß Alexa, dass „spiel meine Lieblingsplaylist“ und „starte die Musikwiedergabe“ das Gleiche bedeuten. Auf der TTS-Seite entstehen durch das Deep Learning Sprachmodelle, die die subtilen Variationen in der Sprache der Benutzer aufnehmen, um so lebensechtere Stimmen zu generieren, die ggf. sogar Dialekte beherrschen. Diesen Prozess nennen wir Natural Language Generation (NLG).

Künstliche Intelligenz eröffnet also für die automatische Spracherkennung und Text-to-Speech-Engines völlig neue Möglichkeiten. Es handelt sich aber nach wie vor um ganz verschiedene Technologien. Wenn Entwickler sprachfähige Benutzerschnittstellen bauen, brauchen sie dafür mindestens zwei Partner: einen Spezialisten für ASR-Systeme und einen weiteren für TTS.

Sie suchen nach einem TTS-Anbieter für eine individuelle VUI? Die Erfahrungsberichte unserer Kunden geben Aufschluss über die Arbeit mit ReadSpeaker.

 

Überblick über die Geschichte der Sprachschnittstellentechnologie

In den Privathaushalten hielten sprachgesteuerte Benutzerschnittstellen erst Einzug, als Apple 2011 mit dem iPhone 4S den Sprachassistenten Siri präsentierte. Die Ursprünge von VUIs reichen allerdings viel weiter zurück, und im Lauf der Entwicklung gingen ASR und TTS jeweils ganz eigene Wege.

Das International Computer Science Institute datiert die Anfänge der maschinellen Spracherkennung auf 1952. Damals entwickelten die Bell Laboratories ein Gerät namens Audrey. Audrey konnte die gesprochenen Ziffern Null bis Neun mit 99%iger Genauigkeit verstehen und ließ sich daher nur zum Wählen von Telefonnummer per Stimme verwenden. Die Kosten waren außerdem immens und das zugehörige Relais-Rack maß fast zwei Meter. Audrey war also kein Verbraucherprodukt, bewies aber, dass das Prinzip funktionierte.

Zehn Jahre später präsentierte IBM bei der Weltausstellung von 1962 seine „Shoebox“, eine Maschine, die 16 englische Worte verstehen konnte. 1971 begann die US-amerikanische Defense Advanced Research Project Agency (DARPA) mit der Entwicklung von Harpy, dem ersten Spracherkennungsgerät mit einem Wortschatz von über 1000 Wörtern. Bis Ende der 1980er Jahre blieb ASR aber außerhalb der Reichweite der Verbraucher.

Das änderte sich 1990, als ein Unternehmen namens Dragon Systems ein limitiertes ASR-Produkt für Endverbraucher auf den Markt brachte. Sieben Jahre später startete Dragon den Verkauf der ersten allgemein verfügbaren Spracherkennungssoftware, die ganze Sätze erkennen konnte: Dragon NaturallySpeaking. Ärzte verwenden bis heute eine adaptierte Version des Programms zum Diktieren ihrer Berichte.

Ab 2010 entstanden im Zuge der Fortschritte beim Verstehen natürlicher Sprache die ersten Sprachassistenten, darunter auch Watson von IBM, der in der Quizshow Jeopardy zum Einsatz kam. Inzwischen sind Spracherkennungssysteme dank NLU in der Lage, auch kleine Nuancen in gesprochener Sprache zu erkennen, und ermöglichen so eine natürliche Interaktion zwischen den Geräten und den Menschen, die sie nutzen.

 

Watson and Two Other Jeopardy Podiums

 

Die Geschichte der synthetischen Sprachausgabe beginnt sogar noch früher. In einem Beitrag zum  Podcast Alpha Voice vermittelt Niclas Bergström von ReadSpeaker einen kurzen Überblick über die Geschichte von TTS. Er beginnt 1779 mit einer Maschine zur synthetischen Spracherzeugung, die aus Schilf und Resonatoren bestand.

Die Bell Laboratories experimentierten ab Ende der 1920er Jahre mit elektronischen Sprachgeneratoren. Dabei entwickelte der Ingenieur Homer Dudley 19 Jahre später schließlich den ersten voll funktionsfähigen Sprachsynthesizer Voder.

Das erste echte Text-to-Speech-System entstand Bergström zufolge 1968 in Japan. In den 1970er Jahren kam es im Bereich TTS zu einer wahren Explosion, mit wichtigen Handelssystemen wie Speak and Spell von Texas Instruments und den Lesemaschinen für Menschen mit Sehbehinderungen von Ray Kurzweil.

Ab 1990 entstanden dank Text-to-Speech immer mehr Sprachdialogsysteme (Interactive Voice Response/IVR), also die automatisierten Telefonsysteme, wie wir sie heute noch kennen.

1999 wurde ReadSpeaker gegründet und führte TTS bald darauf als erstes Unternehmen bei Cloud-Computing-Systemen ein. Dank dieser Innovation konnten Entwickler TTS problemlos in andere Software und später auch in mobile Apps integrieren. Auch heute noch bringt ReadSpeaker die TTS-Technologie mit völlig neuen Ansätzen weiter voran, etwa mit der Nutzung von Deep Neural Networks, einer Technologie, die VUIs kontinuierlich dynamischer und benutzerfreundlicher werden lässt. Nachstehend erfahren Sie, wie Unternehmen und andere Organisationen aktuell von VUIs profitieren.

 

Aktuelle Beispiele für sprachgesteuerte Benutzerschnittstellen aus der Geschäfts- und Arbeitswelt

Die bekanntesten Beispiele für VUIs finden wir natürlich bei Mobiltelefonen und Smart Speakers. Unternehmen nutzen die Technologie dagegen zur Optimierung der Zusammenarbeit, zur Erschließung neuer Branding-Möglichkeiten, für ein besseres Kundenerlebnis usw. Hier einige Beispiele:

  • Hersteller verwenden VUIs für die Steuerung von Produktionslinien. Die Mitarbeiter nutzen das industrielle Internet der Dinge, ohne dabei das Werkzeug aus der Hand zu legen.
  • Lehrer setzen VUI-Geräte im Klassenzimmer ein, um Fragen der Schüler zu beantworten, Definitionen und Sachverhalte zu vermitteln und sogar den Sprachunterricht zu unterstützen.
  • Im Gesundheitswesen schätzen Mitarbeiter die Möglichkeit einer freihändigen Steuerung von Diktiergeräten, die die Erstellung von Krankenakten vereinfacht.
  • Bei serverbasierten Computersystemen ermöglicht eine VUI den Mitarbeitern die zeitliche Planung von Sitzungsräumen, die Änderung von Terminen und die Erfassung von Notizen in einem geschlossenen und sicheren System – ganz ohne Kontakt zu einem Computer-Terminal.
  • Einige Unternehmen bieten sofort einsatzfähige Sprachassistenzdienste an, so z. B. Synqq, eine intelligente App auf der Grundlage von NLU, mit der Notizen gemacht, Meetings aufgezeichnet und wichtige Momente, etwa die Besprechung von Aktionspunkten, hervorgehoben werden können.
  • KI-Konversationsplattformen wie MindMeld bieten Unternehmen, die eine VUI in die eigenen Kundenservice-Systeme integrieren möchten, eine Basis.

Diese Beispiele zeigen, dass VUIs in der Geschäfts- und Arbeitswelt auf zweierlei Weise genutzt werden: im Büro, zur Optimierung interner Prozesse, und in Bezug auf die Produkte, für ein verbessertes Benutzererlebnis. Bei jeder Anwendung kann eine einzigartige Branded Voice für einen höheren Wiedererkennungswert, mehr Treue und eine stärkere Bindung zwischen Unternehmer und Zuhörer sorgen. Erfahren Sie hier, wie ReadSpeaker VUIs und andere Text-to-Speech-Anwendungen voranbringt.

 

Sie sind auf der Suche nach neuronaler Text-to-Speech-Technologie für eine sprachgesteuerte Benutzerschnittstelle?

Individuelle Stimmen von ReadSpeaker sind von menschlichen Stimmen nahezu nicht zu unterscheiden. Sie werden exklusiv für Ihre Marke designt. Verfügbar sind sie in über 30 Sprachen – und ständig werden es mehr. Da bei Sprachschnittstellen herkömmliche visuelle Identifikationselemente wie Logos und Farbschemen keine Rolle spielen, liegt es ganz an der Stimme, dass eine Marke klar erkennbar ist. Und genau hier kommt ReadSpeaker ins Spiel.

Ganz gleich, ob Sie sich für eine individuelle Branded Voice oder eine Standardstimme entscheiden: Die TTS-Services von ReadSpeaker sind die ideale Grundlage für alle, die sprachgesteuerte Benutzerschnittstellen entwickeln. Wir bieten cloud- oder serverbasierte Lösungen und sogar Offline-Produkte für Standalone-Geräte. Alle TTS-Lösungen von ReadSpeaker werden von Ingenieuren, Linguisten und Deep Neural Networks gemeinsam entwickelt – und das bereits seit 1999. Nehmen Sie am besten gleich Kontakt mit uns auf und erfahren Sie, wie wir Sie bei der Entwicklung und Implementierung von Sprachschnittstellentechnologie für Ihre wesentlichen Systeme unterstützen können.

Sprechen Sie mit uns

Noch Fragen? Oder Vorschläge? Nehmen Sie am besten gleich Kontakt mit uns auf. Wir freuen uns, von Ihnen zu hören.

Wenden Sie sich an Readspeaker