Künstliche Sprachintelligenz: Was ist das?

Voice Artificial Intelligence: What Is It?

Ende 2019 wurde auf Voicebot.ai eine Liste mit den 20 innovativsten Marken in Sachen Sprachtechnologie veröffentlicht. Darunter sind Unternehmen aus erstaunlich unterschiedlichen Bereichen: Gesundheit und Kosmetik, Finanzdienstleistungen, Medien, Unterhaltung, Fast Food, Fertiglebensmittel und Getränke, Gesundheitswesen, Bildung, Automobile und Verbrauchsgüter. Sie alle haben eine Sprachanwendung entwickelt – die meisten davon für Smart Speakers aber auch einige Sprachassistenten mit Branded Voice und mindestens ein Sprachbedienungssystem für Fahrzeuge.

All diese Marken sind Marktführer in ihrer Branche. Was können wir aus dieser Liste lernen?

Sprachtechnologie ist nicht nur etwas für die Technologiebranche.

 

Die führenden Marken von morgen, auch die in Ihrer Branche, arbeiten heute schon an Sprachstrategien. Wer hier einsteigen möchte, muss etwas über die zugrunde liegende Technologie wissen: die künstliche Sprachintelligenz.

ReadSpeaker nutzt künstliche Sprachintelligenz für die Entwicklung lebensechter, individueller Stimmen für Marken. Erfahren Sie mehr.

 

Künstliche Sprachintelligenz: Was ist das?

De künstliche Sprachintelligenz ist eine relativ neue Technologie. Selbst Insider haben sich noch nicht auf eine klare Definition des Begriffs geeinigt. Tech-Blogger verwenden ihn für alle möglichen Unterbereiche von KI mit automatischer Spracherkennung (Verständnis von gesprochener Sprache durch Computer) bzw. Text-to-Speech-Generierung (sprechende Computer).

Einige Autoren bezeichnen Smart-Speaker-Stimmen wie Alexa als „Sprach-KI“. Andere wiederum verwenden den Begriff für die synthetische Spracherzeugung auf der Grundlage von maschinellem Lernen. Daraus ergeben sich nun zwei mögliche Definitionen, die Eingang in künftige Wörterbücher finden könnten:

Künstliche Sprachintelligenz

Substantiv

Kurzform: Sprach-KI

 

Definition von künstlicher Sprachintelligenz

1. Software, die zu maschinellem Lernen in der Lage ist und über eine sprachgesteuerte Benutzerschnittstelle (VUI) verfügt, über die Befehle erkannt und in Aktionen umgesetzt werden, etwa bei Sprachassistenten wie Alexa, Siri und dem Google Assistant.

Zitat: „Terminverwaltung, Nachbestellung von Waren und vieles mehr (…) die Sprach-KI verknüpft sämtliche Daten von Ihren Geräten und erledigt das für Sie (…).“

BecomingHuman.ai

 

2. Der Prozess der synthetischen Sprachgenerierung auf der Grundlage von Deep Neural Networks, einschließlich KI-Sprachklonung und Deep Voice Software, und das Ergebnis dieses Prozesses.

Zitat: „Sprach-KI beinhaltet das Verständnis dafür, was eine menschliche Stimme ausmacht, und ihre Reproduktion nach Erfassung der betreffenden Merkmale.“

Jetson.ai

 

Die erste Definition bezieht sich auf KI-basierte Stimmen, die mit den Benutzern interagieren, die zweite auf die Nutzung von KI für die Generierung einer synthetischen Stimme, z. B. eines KI-Stimmklons. Progressive Marken nutzen Sprach-KI auf beide Arten. So kreieren sie ein stärkeres Bewusstsein und eine stärkere Kundenbindung und heben sich in der Medienumgebung von heute, in der visuelle Elemente immer mehr in den Hintergrund treten, von der Konkurrenz ab.

 

Wie KI-Sprachassistenten von Unternehmen genutzt werden

Die meisten Marken nutzen Sprach-KI im Sinne der zweiten Definition. Sie entwickeln also mithilfe eines Deep Neural Networks eines Anbieters wie ReadSpeaker eine Markenstimme (wir kommen darauf noch zurück).

Aber wie die Voicebot-Liste zeigt, steht am Ende der Entwicklung eventuell auch ein eigener virtueller Assistent oder andere smarte Produkte, die der Stimme ein „Zuhause“ bieten. Hier einige Beispiele für KI-Assistenten mit Branded Voice:

  • 2018 präsentierte die Bank of America eine KI-basierte virtuelle Assistentin namens Erica. Die Stimme von Erica gehört zur mobilen App der Bank. Bis März 2019 hatte Erica bereits 335 Millionen Anfragen von 6 Millionen Benutzern Dabei ging es um so unterschiedliche Dinge wie das Vorlesen einer Bankleitzahl, die Suche nach bestimmten Transaktionen oder die Mitteilung, dass sich der Betrag für eine Einzugsermächtigung geändert hatte. Das alles wird über eine sprachgesteuerte Benutzerschnittstelle abgewickelt.
  • Capital One hat im Vergangenen Jahr einen KI-Assistenten namens Eno Eno war einer der ersten Bots mit Branded Voice, der nicht zu einem Smart Speaker gehörte. Der virtuelle Assistent agiert in der mobilen App von Capital One und auf der Website.
  • Fahrer von neuen Mercedes-Fahrzeugmodellen können mit den Worten „Hey Mercedes“ den markeneigenen virtuellen MBUX-Interieur-Assistenten zum Leben erwecken. Dieses System verwendet die Technik des Natural Language Understanding, eine spezielle Form der Künstlichen Intelligenz, um verschiedene Befehle zu erkennen. Der Fahrer kann über den Sprachassistenten ganz einfach mit seiner Stimme nach der Richtung fragen, die Klimaanlage drosseln, den Radiosender wechseln usw.

Natürlich verfügen nicht alle Marken über die Mittel für die Entwicklung solcher KI-Produkte mit individueller Stimme. Eine weiter verbreitete Möglichkeit, die Branding-Vorteile in rein sprachgesteuerten Umgebungen zu nutzen, ist eine Branded Voice. Und auch bei diesem Verfahren kann Künstliche Intelligenz zum Einsatz kommen.

 

Künstliche Intelligenz bei der synthetischen Sprachgenerierung

Mithilfe Künstlicher Intelligenz können lebensechte synthetische Stimmen erzeugt werden, u. a. KI-Stimmklone, die den Klang eines bestimmten Sprechers nahezu perfekt imitieren. Bei der Entwicklung eines solchen KI-Stimmklons kommen Deep Neural Networks (DNNs) zum Einsatz, komplexe Computerarchitekturen, die die synaptischen Verbindungen im menschlichen Gehirn nachahmen. Diese Systeme sind in der Lage, Muster in Datensätzen zu erkennen, und „lernen“ auf diese Weise. Der Lernvorgang eines DNN wird als Deep Learning bezeichnet.

Wenn eine Stimme geklont werden soll, füttern die Techniker die Deep Voice Software, eine spezielle Art von neuronalem Netzwerk, mit Aufnahmen des betreffenden Sprechers. Das DNN erkennt detailliert die Muster in der Stimme – Klang, Aussprache, Sprechgeschwindigkeit, Betonung, Rhythmus usw. – und erstellt ein Modell, mit dem all diese Feinheiten auch bei völlig neuen Skripten nachgeahmt werden können. Diese KI-Sprachtechnologie eröffnet ungeahnte Möglichkeiten in puncto Branding. Hier einige Beispiele:

1. KI-Stimmklone für berühmte Sprecher

In den 2000er Jahren war der Schauspieler James Earl Jones die Stimme des US-Telekommunikationsunternehmens Verizon. Er war in Werbespots und auch bei Live-Veranstaltungen zu sehen. Damals gab es allerdings noch relativ wenige sprachbasierte Schnittstellen zwischen Marken und Kunden. Der Aufnahmeaufwand für Jones war also überschaubar.

Wenn Verizon heute noch auf diese Weise mit Jones zusammenarbeiten würde, würden die Kosten für die Aufnahmen bei all den neuen sprachbasierten Kanälen das Unternehmen wohl in den Ruin treiben: ADS, Smart-Speaker-Apps, Sprachdialogsysteme (IVR) usw. Mithilfe eines lizenzierten Stimmklons von James Earl Jones könnte Verizon das Branding auf sämtlichen Sprachkanälen einheitlich gestalten, ganz ohne die enormen Kosten und endlose Aufnahmesitzungen.

2. Einheitliche Stimmen für fiktive Figuren

Geklont werden können nicht nur die Stimmen von echten Promis. Auch fiktive Figuren wie Ronald McDonald oder Micky Maus können über Audio-Kanäle für ein einheitliches Markenerlebnis sorgen. Anders als bei wechselnden Sprechern bleiben ihre Stimmen mithilfe von Stimmklonung über Generationen hinweg unverändert.

3. Nagelneue Branded Voices

Ein Unternehmen kann auch dann die Vorteile der neuronalen Text-to-Speech-Technologie nutzen, wenn es noch nicht über eine Branded Voice verfügt. Die Voice Engine von ReadSpeaker kann mithilfe eines Deep Neural Networks exklusiv für Ihre Marke eine einzigartige Text-to-Speech-Stimme erschaffen. Dabei suchen wir zunächst gemeinsam mit Ihnen nach der idealen Quelle, also einem Sprecher, der für das Training mit den KI-Modellen verwendet wird. Anschließend werden die Modelle personalisiert und es wird ein Marken-Wörterbuch erstellt, das Fachbegriffe und die typische Aussprache enthält. Auch der Ausdruck von Emotionen kann ergänzt werden. In naher Zukunft werden die sprachbasierten Systeme mithilfe responsiver Technologie sogar in der Lage sein, den emotionalen Klang an die Sprachmuster des Kunden anzupassen.

Die Entwicklung einer individuellen Stimme macht es Marken möglich, dieses einzigartige Identifikationsmerkmal für alle möglichen Voice-first-Geräte und Medien einzusetzen: KI-Sprachassistenten, Sprachdialogsysteme, Fahrzeug-Infotainment, interaktive In-store-Displays, E-Learning, Fernsehen, Radio, Online-Werbung, Instruktionsvideos, Barrierefreiheitstools, Konversationsroboter und vieles mehr. So entsteht ein einheitliches Erlebnis, das die Kunden den ganzen Tag über begleitet und den Wiedererkennungswert, das Vertrauen und die Treue fördert – ganz ohne Personalkosten.

Genau diese Art von künstlicher Sprachintelligenz wird beim Branding auch künftig für Innovationen sorgen. In der Liste von Voicebot.ai für 2019 waren viele von diesen Ki-basierten Branded Voices noch nicht enthalten. Die Entwicklung einer Smart-Speaker-App genügte damals noch. Das wird sich in Zukunft ändern.

Amazon etwa kündigte 2020 an, Branded Voices für Alexa Skills zu ermöglichen. Diesem Beispiel werden andere Hersteller ohne Zweifel folgen. Unter den innovativsten Marken in Sachen Sprachtechnologie werden künftig diejenigen sein, die künstliche Sprachintelligenz am effektivsten in ihre digitalen Strategien einbinden. Nehmen Sie deshalb Kontakt mit ReadSpeaker auf und starten Sie jetzt!

Sprechen Sie mit uns

Noch Fragen? Oder Vorschläge? Nehmen Sie am besten gleich Kontakt mit uns auf. Wir freuen uns, von Ihnen zu hören.

Wenden Sie sich an Readspeaker