psdesign1 - Fotolia
Speech-to-Text : toilettage de printemps pour les services de Google et d’AWS
Le service de dictée de Google Cloud a été mis à jour pour en améliorer la précision grâce au Machine Learning. Quant à AWS, Transcribe est à présent officiellement disponible. Mais pas encore en français.
Le service de dictée de Google Cloud a été mis à jour avec des modules conçus explicitement pour transcrire les enregistrements audio des appels téléphoniques et des vidéos. Les développeurs sont désormais en mesure d'intégrer ces services dans les logiciels pour les centres d'appels ou dans leurs plates-formes de web conférence.
Google a révélé qu'il avait utilisé les données partagées volontairement par ses clients afin d'améliorer considérablement l'exactitude des transcriptions. Il aurait réduit de plus de la moitié le nombre d'erreurs en utilisant des outils d'apprentissage automatique.
Ses clients peuvent bénéficier des avantages du service le plus avancé en acceptant de partager leurs données, tandis que ceux soucieux de la protection de la vie privée pourront se retirer du programme.
En plus de la transcription téléphonique et des vidéos, l'API Google Cloud Speech, lancée en 2016, comprend également par défaut un outil pour la transcription de longs fichiers audio et prend en charge les recherches et les commandes vocales.
Google met par ailleurs à disposition une version bêta de l'outil de ponctuation automatique qu’il utilise en interne depuis quelques années pour améliorer les transcriptions des messages vocaux. La plate-forme insère automatiquement des points, des virgules et des points d'interrogation dans le discours transcrit.
Google, AWS et les autres
La refonte du service de Google Cloud intervient quasiment au même moment que l'annonce par Amazon Web Services de la mise à disposition de sa plate-forme de transcription, Amazon Transcribe.
Les entreprises peuvent personnaliser le vocabulaire d'Amazon Transcribe pour y inclure des acronymes et des mots-clés spécifiques à leurs métiers. AWS a également mis à jour le service afin de pouvoir faire la distinction entre plusieurs locuteurs dans un même fichier audio.
Les plates-formes d'Amazon et de Google sont en concurrence directe avec des services similaires chez IBM (Watson), HPE, Nuance Cloud et chez Microsoft dans Azure.
« C'est une course effrénée pour généraliser le speech-to-text », commente Steve Vonder Haar, analyste senior chez Wainhouse Research. « C'est un élément critique de ce que tous ces éditeurs font en ce moment ».
Des cas d’usages variés qui montent en puissance
Dans un premier temps, les entreprises pourraient utiliser un de ces services de dictée pour traduire les enregistrements de réunions et de webinaires en archives textuelles plus facilement consultables. Par exemple, un employé pourra demander à un assistant virtuel ce qu'un collègue a mentionné lors d'une réunion il y a trois mois, imagine Steeve Vonder Haar.
Suivant cette tendance, Microsoft a récemment ajouté la transcription automatique des réunions à sa plateforme de collaboration, Microsoft Teams.
À plus long terme, les entreprises devraient être en mesure de générer à la volée des transcriptions de conversations professionnelles puis d’alimenter automatiquement des assistants virtuels (comme IBM Watson ou Google Assistant) avec ces verbatim pour aider leurs bots à apprendre à mieux épauler les employés ou répondre aux clients.
« Si votre directeur marketing vous fait un point sur un produit particulier, vous pouvez en faire une vidéo. L'audio est alors converti en texte. Le texte devient consommable et, en fin de chaîne, il peut être injecté dans les systèmes d'intelligence artificielle », confirme Vonder Haar.
Testez dès à présent, même si tout n’est pas encore au point
Les fournisseurs améliorent continuellement leurs outils de conversion de la parole en texte. Même si c’est surtout l’anglais qui est aujourd’hui au centre de ces efforts - Amazon Transcribe n’est par exemple pas encore disponible en français - et que tout est loin d’être parfait.
Ceci étant, les entreprises ne devraient pas attendre que ces plateformes soient totalement mûres – ou en français - pour expérimenter et jouer avec elles, conseille l’analyste Jon Arnold.
« Pour moi, ce qui est intéressant, c'est que ces outils ouvrent beaucoup de possibilités passionnantes », prédit-il. « Faites des essais, testez à petite échelle. Cela vous fera vous sentir à l'aise avec ces outils. Et vous serez prêts quand les cas d'utilisation métiers plus critiques émergeront véritablement ».