zorandim75 - stock.adobe.com
Le Français Ringover lance un outil d’intelligence conversationnelle « maison »
Ringover, éditeur français d’une solution CCaaS s’apprête à lancer Empower, un outil « d’intelligence conversationnelle » permettant d’assister les responsables commerciaux et de support dans leur relation client. Si l’éditeur exploite en partie un des modèles d’OpenAI, il entraîne et déploie ses technologies d’IA sur sa propre infrastructure et espère, à terme, disposer d’une pile technologie « 100 % maison ».
Ringover est une émanation de BJT Partners, un opérateur téléphonique créé en 2005, renommé Ringover Group.
Depuis 2015, Ringover développe une solution de téléphonie VoIP établie sur le standard WebRTC. Ringover revendique 10 000 clients en France, au Royaume-Uni, aux États-Unis et en Espagne. La société cible « toute entreprise qui aurait des relations de support ou de prospection prête à déployer 1 à 1 000 licences » de sa plateforme.
L’entreprise qui s’est d’abord illustrée par ses services de téléphonie IP se convertit à l’approche omnicanal.
Cette tendance à la multiplication des canaux de communication se frotte à la nécessité pour les centres de contact, les clients de Ringover, de gagner en efficacité. Un agent doit passer le moins de temps possible en ligne ou sur le dossier d’un client tout en étant efficace.
L’intelligence conversationnelle, un vecteur de productivité dans les centres de contact
En ce sens, Ringover s’intéresse depuis 2021 à l’intelligence artificielle. Le Français se sait en retard par rapport à ses concurrents américains. « Dans notre milieu, améliorer sa productivité, c’est gagner du temps. Comment fait-on ? En analysant les conversations afin d’y déceler des intentions », résume Ludovic Rateau, directeur des technologies et des produits chez Ringover.
Le fruit de ce travail se nomme Empower. Cet outil disponible le 23 mai permet d’obtenir des transcriptions et des résumés, une identification automatique des sujets abordés, une analyse de « l’humeur » des appels, ainsi que des statistiques et des recommandations « sur la qualité et le contenu des conversations ».
Ringover peut identifier le ton des interlocuteurs, mais aussi le débit de voix, le temps de parole attribué à l’agent et à ses interlocuteurs ou encore les blancs dans les entretiens.
« Nos clients sont des responsables des ventes ou du support. Ils n’ont pas le temps d’écouter l’ensemble des conversations avec leurs contacts. Pourtant, leurs MP3 recèlent d’informations très importantes pour eux », déclare Ludovic Rateau. « Peut-être qu’un agent s’est mal comporté avec un client ou l’inverse. Ils veulent pouvoir retrouver la bonne information au bon moment. Avec la transcription sous les yeux, le résumé permet d’obtenir ces données-là, de pousser les indicateurs dans le CRM ou encore de confirmer des informations ».
Pour développer cette solution, l’éditeur a recruté des ingénieurs NLP à la fin de l’année 2021 et au début de l’année 2022, « ne sachant pas qu’OpenAI provoquerait un raz de marée avec ChatGPT ».
Ringover n’a toutefois pas le même objectif que le poulain de Microsoft.
« 99 % de notre trafic correspond à des conversations téléphoniques ou en visio. Or la plupart des modèles d’IA sont entraînés sur des images ou du texte », rappelle le CTO de Ringover. « Il nous fallait un moteur de transcription très efficace, avec le Word Error Rate le plus faible possible ».
Le Word Error Rate (WER ou taux d’erreur de mots) est une métrique de performance d’un modèle de reconnaissance vocale automatique (ou Automatic Speech Recognition en VO). Plus ce score est faible, plus le système retranscrit fidèlement les conversations entre plusieurs interlocuteurs.
Il existe plusieurs services sur étagère proposés par les fournisseurs cloud : Amazon Transcribe, Azure Cognitive Services et Google Speech-to-Text sont les solutions les plus visibles sur le marché. Ceux-là peuvent, en principe, reconnaître et retranscrire des discours oraux en plusieurs langues (125 annoncées chez Google Cloud) sous forme de textes.
IA : retranscrire le français de l’oral à l’écrit, un exercice encore difficile
« Nous avons testé beaucoup de choses disponibles sur le marché, dont les offres des GAFAM, sans trouver chaussure à notre pied », rapporte le CTO. « En français, il n’y a pas grand-chose qui fonctionnait ». Or Ringover souhaite obtenir des performances similaires en français, en anglais et en espagnol.
Selon le directeur technique, la reconnaissance vocale automatique est désormais maîtrisée en anglais, mais la recherche serait beaucoup moins avancée en français. « En anglais, il y a beaucoup de modèles, même les projets open source comme Kaldi fonctionnent très bien », déclare-t-il.
Or les solutions disponibles n’étaient pas forcément adaptées aux besoins de l’éditeur.
« Les ingénieurs que nous avons recrutés nous ont expliqué qu’il y avait un bon nombre de moteurs pertinents, mais le problème était de développer un modèle adapté à notre domaine d’activité », indique Ludovic Rateau.
La première difficulté ? Le taux d’échantillonnage des fichiers audio utilisés pour entraîner ces modèles. « Certains modèles sont entraînés à l’aide de fichiers audio échantillonnés en 48 kHz, d’autres en 16 kHz », explique le CTO. « Dans la plupart des cas, dans un centre d’appels, les fichiers sont encodés en 8 kHz. Il nous fallait trouver le moyen d’entraîner nos modèles en prenant en compte ce paramètre ».
Si la tâche n’était pas trop ardue en anglais, l’espagnol et le français ont posé plus de difficultés. D’autant que les modèles sur étagère ne sont pas formés à l’aide de conversations téléphoniques. « Les apprentissages sont souvent effectués sur des vidéos de journalistes », constate-t-il.
La recette « maison » de Ringover
Les équipes de Ringover ont choisi Wave2Vec, une architecture mise sur pied par Facebook AI Research entre 2019 et 2020. Elle « permet la représentation du signal audio » sous forme numérique à des fins de reconnaissance et de synthèse de la parole.
« Nous utilisons ces données audio pour calculer des statistiques propres au traitement du signal de la parole (ratio de temps de parole, interruptions, etc.) ».
Par les techniques employées, l’implémentation de Wave2vec réclame moins de données audio, et moins d’annotations pour obtenir un WER plus satisfaisant que les techniques préexistantes.
Les modèles de Ringover ont été entraînés à partir de 500 heures d’enregistrement en anglais, en français et en espagnol. Ces fichiers ont été annotés.
« Le principe est de représenter les features audio et de générer le texte correspondant en contraignant cette génération à l’aide d’un modèle de langue préentraîné », relate le CTO.
Pour générer les transcriptions, Ringover utilise un modèle issu du framework kenLM.
De ces transcriptions textuelles, Ringover tire des extractions, censées représenter les tours de parole les plus pertinents. Pour ce faire, les ingénieurs ont utilisé des techniques de terminologie à l’aide d’un algorithme de type PageRank.
Ces extractions brutes sont envoyées par API à GPT 3.5 Turbo, un des modèles de génération de texte d’OpenAI, pour reformuler le résumé des moments importants d’un appel.
« C’est notre seul usage des technologies d’OpenAI. Cela nous a fait gagner un mois de travail », avance Ludovic Rateau.
Une volonté d’indépendance technologique
Bien qu’efficace, l’usage des API d’OpenAI n’est pas envisagé comme une solution à long terme.
« Je pense qu’il est important de maîtriser tout ce que l’on vend », souligne Ludovic Rateau. « C’est important pour des questions d’indépendance face à de grands acteurs américains, même s’ils excellent dans ce qu’ils font ». Le CTO évoque également les obligations réglementaires et le manque de transparence de certains de ces fournisseurs.
De manière générale, Ringover aime à maîtriser sa pile technologique. Il dispose de ses propres data centers, ainsi que de points de présence dans huit pays et 13 villes, dont Paris, Atlanta, Londres, Johannesburg, Singapour ou encore Sidney.
« Nous ne passons pas habituellement par des fournisseurs américains. À l’origine, nos infrastructures étaient hébergées chez certains opérateurs français comme Orange », rappelle Ludovic Rateau. « Nous avons pris l’habitude de faire les choses nous-même, parce que nous avons les compétences et parce que nous pouvons optimiser plus aisément les coûts pour nous et pour nos clients. Cerise sur le gâteau, c’est plus engageant pour nos ingénieurs ».
« L’avantage, c’est que nous avons la maîtrise de la pile technologique. Si nous voulons adapter notre modèle d’IA pour le français québécois ou pour l’accent marseillais, nous pouvons le faire », poursuit-il.
D’autres projets d’IA dans les cartons
Ringover travaille sur d’autres sujets d’IA, dont l’annulation du bruit ambiant. « Nos clients sont souvent dans des endroits bruyants et ne sont pas forcément dotés de micros-casques dernier cri. Nous explorons un moyen d’opérer un petit apprentissage de la voix d’une durée d’une heure pour annuler les bruits ambiants dans un centre de contacts », raconte Ludovic Rateau.
Toujours dans cette volonté d’améliorer la qualité des appels, la R&D de Ringover recherche à combler les manques des systèmes voIP. « Nous sommes sur Internet, nous faisons de la téléphonie cloud. La qualité n’est pas toujours parfaite », admet le CTO.
En cause, les pertes de paquets RTP. La solution envisagée ? Un algorithme de traitement du signal. « La voix étant sinusoïde, si vous avez des pertes de paquets, il est possible via un apprentissage IA de reconstruire le contenu des paquets perdus par déduction et prédiction », évoque le responsable. « De très grands acteurs font cela. Par exemple, Microsoft a œuvré sur ce sujet avec son codec Satin. Nous souhaiterions intégrer une technologie similaire directement dans nos outils pour que la perte de paquets soit imperceptible pour les utilisateurs finaux ».
Comme il faut effectuer ce « rattrapage » en temps réel, l’algorithme n’aura que 500 millisecondes maximum pour agir.
Cette notion de temps réel sera à l’avenir appliquée aux fonctions accessibles par les métiers. « Il sera possible pour les agents d’obtenir des conseils, des scripts d’appel ou de la documentation poussés par une IA au cours d’un appel », imagine le CTO.
En interne, Ringover souhaite augmenter les fonctions de sa plateforme de visioconférence à l’aide de l’IA pour optimiser les démonstrations de son logiciel SaaS. Il s’agit d’adapter les fonctions d’Empower aux usages de la vidéo.
En attendant, l’éditeur veut éprouver sa solution dans sa forme actuelle et trouver le bon rapport qualité-prix pour convaincre largement ses clients.