L’intelligence artificielle vocale : qu’est-ce que c’est ?

Voice Artificial Intelligence: What Is It?

Fin 2019, Voicebot.ai a publié la liste des « 20 meilleurs innovateurs de marque de l’année dans le domaine de la voix ». Cette liste regroupe des entreprises provenant d’une incroyable variété de secteurs (santé et beauté, services financiers, média, divertissement, restauration rapide, boissons et aliments emballés, soins de santé, éducation, automobile et même biens de consommation emballés). Ces entreprises ont produit une application vocale quelle qu’elle soit, la plupart du temps pour des enceintes connectées, mais aussi pour quelques assistants vocaux dédiés uniques et également au moins un système de commande vocale pour véhicule.

Toutes les marques figurant sur cette liste sont des leaders dans leurs domaines. Que pouvons-nous retirer d’une telle liste ?

La technologie vocale n’est pas réservée au seul secteur de la technologie.

Les plus grandes marques de demain, y compris celles de votre secteur, travaillent aujourd’hui sur des stratégies vocales. Pour faire de même, vous devez en savoir un peu plus sur la technologie qui se cache derrière les systèmes vocaux numériques d’aujourd’hui : l’intelligence artificielle vocale.

ReadSpeaker utilise l’intelligence artificielle vocale pour développer des voix personnalisées réalistes pour des marques. En savoir plus ici.

L’intelligence artificielle vocale : qu’est-ce que c’est ?

L’intelligence artificielle vocale est une technologie émergente et même les initiés de l’industrie n’ont pas encore pu s’entendre sur une définition claire du terme. Les blogueurs tech l’utilisent pour désigner toute intersection entre l’intelligence artificielle et la reconnaissance vocale automatisée (comment les ordinateurs comprennent le langage parlé) et / ou la génération de synthèse vocale (comment les ordinateurs parlent).

Certains écrivains appellent les profils des enceintes connectées telles qu’Alexa des « Intelligences artificielles vocales ». D’autres utilisent ce terme pour décrire la production vocale synthétique qui utilise l’apprentissage automatique. Ces différences d’usage suggèrent deux définitions. Sachant cela, voici une proposition d’entrée pour un futur dictionnaire :

Intelligence artificielle vocale

Nom

Abréviation : IA vocale

 

Définition de l’intelligence artificielle vocale

1. Logiciel capable d’apprentissage automatique utilisant une interface utilisateur vocale (IUV) pour accepter des commandes et renvoyer des résultats, comme dans les assistants vocaux tels qu’Alexa, Siri et Google Assistant

Par ex., « Donner des rendez-vous, réorganiser des choses et plus encore, … votre IA vocale connectera toutes les données de vos appareils et exécutera ces tâches pour vous … »

BecomingHuman.ai

 

2. Processus et résultat de génération de voix synthétique utilisant des réseaux neuronaux puissants, y compris le clonage vocal par IA et des logiciels Deep Voice.

Par ex., « La technologie de l’IA vocale consiste à comprendre ce qui constitue une voix humaine, puis à le reproduire après l’enregistrement de ces éléments ».

Jetson.ai

La première définition fait référence à un profil basé sur l’intelligence artificielle qui interagit avec les utilisateurs par la voix. La deuxième fait référence à l’utilisation de l’IA pour générer une voix synthétique, comme un clone vocal basé sur l’IA. Les marques visionnaires utilisent l’IA vocale dans les deux sens pour stimuler la reconnaissance, fidéliser leurs clients et se distinguer de leurs concurrents dans un environnement médiatique dans lequel le visuel est de plus en plus absent.  

Comment les entreprises utilisent les assistants basés sur l’IA vocale

La plupart des marques utilisent l’intelligence artificielle vocale selon la deuxième définition mentionnée ci-dessus. Cela signifie qu’elles développeront une voix dédiée littérale en utilisant le réseau neuronal puissant d’un fournisseur tel que ReadSpeaker (nous parlerons de l’application ultérieurement).

Mais comme l’illustre la liste de Voicebot, il est possible que les plus grandes marques finissent par produire leurs propres assistants virtuels et/ou produits connectés hébergeant ces profils. Voici quelques exemples d’assistants de marques, basés sur l’IA vocale :

  • En 2018, Bank of America a lancé un assistant financier virtuel basé sur l’IA appelé Erica. Ce profil à commande vocale vit sur l’application mobile de Bank of America. Erica a traité plus de 35 millions de « demandes clients » émises par 6 millions d’utilisateurs dès le mois de mars 2019. Ces demandes pouvaient concerner la lecture à haute voix du code de suivi du client, ou le suivi de transactions spécifiques en passant par un avertissement informant de la modification du montant de frais récurrents, tout cela via une interface utilisateur vocale.
  • L’année précédente, Capital One avait lancé un assistant IA appelé Eno. Eno a été l’un des premiers bots vocaux dédiés en dehors des principaux profils d’enceintes connectées. Cet assistant virtuel est disponible via l’application mobile de Capital One et sur son site Web.
  • Les conducteurs des nouveaux modèles de Mercedes peuvent réveiller l’assistant virtuel MBUX natif en disant : « Hey Mercedes ». Ce système utilise la compréhension du langage naturel, une forme d’intelligence artificielle, pour reconnaître différentes commandes. En parlant de façon naturelle, les conducteurs peuvent demander des itinéraires, baisser la climatisation, changer de station de radio et plus encore grâce à cet assistant vocal embarqué.

Peu de marques disposent des ressources nécessaires pour développer des produits vocaux personnalisés basés sur l’IA tels que ceux-ci. Le moyen le plus courant pour tirer parti de l’identité de marque dans des environnements uniquement vocaux consiste à produire une voix dédiée personnalisée — un processus qui, à son niveau le plus élevé, utilise également l’intelligence artificielle.

L’intelligence artificielle dans la génération de voix synthétiques

L’intelligence artificielle permet de créer des voix synthétiques réalistes, y compris des clones vocaux basés sur l’IA, qui imitent fidèlement le son d’un locuteur spécifique. Pour créer un clone vocal basé sur l’IA, les ingénieurs utilisent des réseaux neuronaux puissants (DNN), une forme complexe d’architecture informatique qui imite les connexions synaptiques dans le cerveau humain. Ces systèmes reconnaissent les modèles dans des ensembles de données. Cela signifie que vous pouvez les entraîner : ils « apprennent ». Entraîner un modèle sur un DNN s’appelle l’apprentissage profond.

Pour cloner une voix, les techniciens entrent des enregistrements audio du locuteur source dans un logiciel Deep Voice, un type de réseau neuronal spécialisé. Le DNN identifie les plus infimes modulations de cette voix (ton, prononciation, vitesse, accent tonique, rythme) et crée un modèle capable d’imiter ces subtilités tout en exécutant des scripts totalement nouveaux. Cette technologie vocale basée sur l’IA crée de formidable nouvelles opportunités pour l’identification des marques. Par exemple :

1. Clones de voix IA pour des porte-parole de renom

Du début au milieu des années 2000, l’acteur James Earl Jones était « la voix de Verizon ». Il apparaissait dans les publicités de l’entreprise. Il participait à des événements de promotion de la marque. Mais à cette époque, il y avait relativement peu de points de contact vocaux entre les marques et leurs clients : le calendrier d’enregistrement de James Earl Jones était gérable.

Si Verizon et James Earl Jones avaient la même relation aujourd’hui, l’entreprise se ruinerait en cachets pour que l’acteur enregistre des scripts pour tous les nouveaux canaux vocaux : publicités, applications pour enceintes connectées, serveurs vocaux interactifs (SVI), etc. Un clone vocal de James Earl Jones sous licence permettrait à Verizon de maintenir son identité de marque sur l’ensemble des canaux vocaux sans les frais et les défis que représente la programmation d’innombrables sessions d’enregistrement.

2. Voix de mascottes de marque cohérentes

Les célébrités de la vie réelle ne sont pas les seules dont la voix peut être clonée. Les personnages tels que Ronald McDonald, Mickey Mouse ou Chester Cheetah, créent également une expérience de marque cohérente sur les canaux audio. Le clonage vocal permet à un personnage de conserver la même voix d’une génération à l’autre, sans les subtiles variations inévitables lorsqu’on change de professionnel de la voix.

3. De toutes nouvelles voix personnalisées dédiées

Les entreprises n’ont pas besoin d’avoir une voix dédiée existante pour tirer parti de la technologie de synthèse vocale. Le moteur vocal exclusif de ReadSpeaker utilise un réseau neuronal puissant pour générer une voix de synthèse unique, exclusive à votre marque. Nous travaillons avec vous pour identifier des sources idéales — des professionnels de la voix dont nous utiliserons la voix pour entraîner nos modèles d’intelligence artificielle. Nous personnalisons davantage les modèles en développant un lexique dédié, intégrant la prononciation individualisée propre au jargon de votre industrie. Nous pouvons même ajouter des inflexions émotionnelles. Bientôt, la technologie d’expression réactive permettra aux systèmes vocaux d’ajuster le ton émotionnel en fonction des structures de langage du client.

Lorsque les marques développent des voix personnalisées, elles peuvent déployer cet identificateur unique sur l’ensemble de la gamme croissante d’appareils et de médias « voice first » : assistants vocaux basés sur l’IA, systèmes SVI, info-divertissement embarqué, écrans interactifs en magasin, matériel d’apprentissage en ligne, télévision, radio, publicité en ligne, vidéos d’instructions, outils d’accessibilité, robots conversationnels et plus encore. Cela crée une expérience cohérente qui suit le client tout au long de sa journée, renforçant la reconnaissance, la confiance et la fidélité, sans les coûts répétitifs associés aux talents vocaux.

C’est le genre d’intelligence artificielle vocale qui stimulera à l’avenir l’innovation des marques. Ce que la liste des meilleurs efforts d’identité vocale établie par Voicebot.ai pour 2019 n’inclut pas, c’est le grand nombre de voix dédiées générées par l’intelligence artificielle. Cette année-là, il suffisait de développer une application pour enceinte connectée. Cela va changer dans les futures listes.

En 2020, par exemple, Amazon a annoncé que les voix dédiées pourraient être intégrées aux compétences d’Alexa. D’autres fabricants d’appareils connectés vont sûrement suivre. L’année prochaine, les innovateurs de marque dans le domaine de la voix seront ceux qui pourront intégrer le plus efficacement l’intelligence artificielle vocale dans leurs stratégies numériques. Contactez ReadSpeaker pour commencer dès maintenant.

Custom CTA Goes Here

Find the industry that you identify with and discover all that text to speech has to offer for your business.

ReadSpeaker AI

Démarrez la conversation

Des questions ? Des recommandations ? Entrez en contact avec nous dès aujourd'hui.

Contacter Readspeaker