La reconnaissance vocale et synthèse vocale sont-elles indispensables aux centres d’appels ?

Si les technologies de reconnaissance et de synthèse vocale s’affirment comme des tendances majeures du marché, la question de leur utilisation concrète par les marques et les clients reste posée. Les technologies de synthèse et reconnaissance vocales peinent à s’installer dans les habitudes des consommateurs. La raison principale ? Elles ignorent le facteur humain. Erreur dans la terminologie, nuance des communications, compréhension des problèmes… autant de raisons pour lesquelles les technologies d’assistance telles que la reconnaissance et la synthèse vocale ne sont pas définitivement adoptées par les clients finaux, alors qu’elles restent incontournables pour les centres d’appel. Malgré tout, l’utilisation de ces technologies progresse : elles n’ont manifestement pas dit leur dernier mot. Essayons de comprendre pourquoi.

Technologies de synthèse vocale : une adoption à sens unique ?

Aujourd’hui, les clients qui contactent une marque s’attendent à une expérience de qualité qui soit aussi une source de gain de temps.

De nombreuses technologies assistent les clients en tenant cette promesse, depuis les menus SVI qui les dirigent le plus rapidement possible vers le conseiller le plus qualifié, jusqu’aux chatbots alimentés par l’IA sur les applications de messagerie instantanée qui aident les clients à trouver rapidement des réponses en libre-service. Pour échanger sur ces canaux de communication, les clients utilisent le plus souvent le texte écrit ou la technologie de composition par tonalité ; s’appuient sur la technologie de reconnaissance vocale.

La reconnaissance vocale automatique (ASR ou « Automated speech recognition »), plus communément appelée « reconnaissance vocale », est souvent utilisée dans les centres d’appels entrants, couplée à des systèmes SVI, pour permettre aux clients de formuler oralement leurs réponses aux questions ou aux options du menu. En identifiant certains mots-clés prononcés par les clients, la technologie pourra diriger ces derniers vers le bon conseiller ou leur permettra de finaliser une tâche en libre-service (comme par exemple consulter le solde d’un compte bancaire).
La synthèse vocale (TTS ou « text-to-speech » en anglais) constitue une autre forme de technologie vocale. Cette technologie synthétise une voix capable de réciter un texte à voix haute. Elle est également souvent couplée aux menus SVI ; la voix synthétisée est généralement naturelle, proche de la voix humaine, et s’adresse au client. Le texte récité peut être un message de bienvenue, les options du menu, ou toute autre information destinée à aider le client.

Bien que les technologies de reconnaissance vocale automatique et de synthèse vocale présentent de nombreux avantages pour les entreprises comme pour les clients (coûts réduits pour les entreprises ; gain de temps et libre-service amélioré pour les clients), elles n’ont pas été adoptées aussi largement que prévu initialement.

La technologie de reconnaissance vocale a reçu un accueil mitigé

Malgré ses avantages potentiels, l’adoption de la technologie de reconnaissance vocale a été bien moins rapide que prévu. Selon une enquête de Gartner réalisée en 2000, 30 % des services client devaient adopter cette technologie à l’horizon de l’année 2003. Toutefois, à l’échelle mondiale, son utilisation a finalement progressé bien plus lentement qu’anticipé. Pourtant, à l’époque, la technologie de reconnaissance vocale avait déjà plusieurs années d’existence. Les entreprises ont peut-être estimé que les fonctionnalités qu’offrait cette technologie n’étaient pas suffisamment avancées, la rendant peu fiable dans le contexte du service client. Par exemple, la technologie de reconnaissance vocale ne prend pas totalement en compte les besoins des clients dans leur grande diversité de profils, comme les clients sourds-muets, ou encore les clients qui ont un accent ou qui parlent une langue non reconnue par la technologie. Elle ne prend pas en compte les handicaps, ni la manière dont les gens s’expriment. De plus, certains facteurs comme le bruit de fond (par exemple, les bruits de la rue lorsqu’un client est en extérieur) peuvent rendre difficile, voire impossible, de réussir un appel. La technologie demandera probablement au client de répéter l’information, ce qui entraînera à la fois frustration et insatisfaction chez ce client. Les technologies de reconnaissance vocale sont également difficiles à configurer pour les entreprises. En effet, il est à la fois long et difficile d’identifier les nombreux phonèmes (unités sonores qui composent une langue) nécessaires à la programmation d’une telle technologie.

Pourtant, on constate aujourd’hui un regain de son adoption. Démocratisation des smartphones, avancées en matière de et de reconnaissance vocale, avec la promesse de baisse des coûts pour les entreprises (car cette technologie est évidemment moins coûteuse que l’affectation d’un humain à chaque fonction gérée) : ces facteurs alimentent aujourd’hui la croissance des marchés du service client, de la santé et des services financiers.

Développement du libre-service grâce à la technologie de synthèse vocale (TTS, ou text-to-speech)

De nombreuses entreprises considèrent aujourd’hui la technologie de synthèse vocale comme pertinente pour leur centre d’appel. La synthèse vocale convertit un texte écrit en langage oral, à travers une voix de synthèse qui paraît naturelle. Cette technologie est facilement personnalisable au travers de fonctionnalités telles que le choix du genre (voix masculine ou féminine), de la langue et des accents. Ces capacités permettent aux entreprises d’associer certaines voix à des profils clients particuliers, ou à une image de marque spécifique. Elle permet de personnaliser l’expérience client sans l’intervention de conseillers humains. Bien que cette technologie soit souvent utilisée pour assister les clients lors d’appels entrants, elle peut également l’être pour les appels sortants lorsqu’il faut transmettre des messages importants aux clients (par exemple, une coupure de courant planifiée ou un rappel qu’une facture est disponible).

Plus important encore, la synthèse vocale contribue à l’efficacité du libre-service. Cette technologie peut rechercher certains mots spécifiques dans le profil d’un client au sein d’une base de données CRM, et fournir une réponse à la demande dudit client grâce aux données obtenues. Par exemple, la synthèse vocale peut explorer une base de données CRM pour fournir à un client le solde de son compte bancaire, ou une date de livraison prévue. Pour atteindre une expérience client d’excellence, le libre-service est nécessaire car il offre aux clients la possibilité d’obtenir rapidement de l’aide, 24h/24 et 7j/7, sans intervention humaine. En définitive, le self-service fait gagner du temps aux clients et accroît leur niveau de satisfaction. Autre conséquence : les conseillers disposent de plus de temps pour effectuer des tâches qui nécessitent leur intervention, notamment échanger avec les clients à propos des dossiers complexes. Plus les questions trouveront réponse par le libre-service, moins les clients auront besoin de contacter votre centre d’appels via des canaux notamment vocaux, dont le fonctionnement est plus coûteux. Rappelons toutefois que la synthèse vocale est plus efficace lorsque les demandes sont simples. En effet, cette technologie ne fonctionne pas bien lorsqu’il est question de tâches complexes qui dépassent la simple vérification de données tangibles comme des dates, des soldes, etc.

Les technologies de reconnaissance et de synthèse vocale sont certes de plus en plus populaires, mais elles ne représentent pas encore la norme. Leur adoption par les entreprises et les clients progressera certainement à mesure que ces technologies gagneront en maturité, en fiabilité et en simplicité d’utilisation.

Intéressé par nos solutions ?

+33 (0)1 55 37 30 50

Contactez-nous pour plus d’informations