chombosan - stock.adobe.com

IA : DeepL s’attaque à la voix

Dans un marché de la traduction de plus en plus concurrentiel, l’Allemand DeepL s’attaque à la transcription de la voix, sans aller pour autant jusqu’au « voice to voice » de ChatGPT. Mais la guerre des sous-titres automatiques en temps réel, et traduits, semble bel et bien lancée, notamment avec les éditeurs de visio. Qui gagnera ?

La pépite européenne de la traduction assistée par intelligence artificielle, DeepL vient de dévoiler sa première incursion dans le domaine de la voix.

L’éditeur allemand a présenté deux nouvelles offres – Deepl Voice Dialogue, et Deepl Voice Réunion – lors d’un évènement promotionnel (DeepL Dialogues), le 13 mai à Berlin. Les deux outils sont capables, sur le papier, de traduire en temps réel des conversations en différentes langues.

La version Réunion vise à traduire les interventions de participants, qui parlent chacun des langues différentes, et à les afficher en sous-titre (dans la langue choisie individuellement par chaque auditeur). La version Dialogue est une app mobile pour les conversations en face à face.

Comme pour ses autres produits (Traduction et l’outil de réécriture Write), DeepL s’appuie sur ses recherches en IA et sur ses propres modèles, rappelle Jarek Kutylowski, directeur général et fondateur de l’éditeur. Les modèles ont été entraînés sur des ensembles de données avec différents accents.

« La traduction de la parole en temps réel pose d’autres défis [que ceux de la traduction par écrit] : informations incomplètes, problèmes de prononciation et latence sont des facteurs qui peuvent entraîner des traductions inexactes », souligne Jarek Kutylowski. « Ces mêmes éléments peuvent conduire à des malentendus […]. Nous avons donc conçu une solution qui en tient compte dès le départ ».

Après une phase de beta test, DeepL Voice est aujourd’hui officiellement disponible. L’outil prend en charge une dizaine de langues parlées (anglais, allemand, japonais, coréen, suédois, néerlandais, français, turc, polonais, portugais, russe, espagnol et italien), avec des sous-titres traduits disponibles dans les 33 langues prises de DeepL Traducteur.

« J’ai déjà testé d’autres outils, mais ils ne prennent généralement en charge qu’une seule langue en réunion » vante Christine Aubry, coordinatrice de l’internationalisation chez Brioche Pasquier, qui a participé à la phase de bêta de DeepL Voice. Pour elle, « DeepL Voice est différent et de loin l’outil le plus complet ».

Un marché de la traduction par IA de plus en plus concurrentiel

DeepL ne fait pas (pas encore ?) du « voice to voice », mais bien du « speech to text » avec traduction.

Sur ce segment, Samsung, dans ses modèles haut de gamme avec Galaxy AI, Google, dans son application mobile Translate, et les éditeurs de visio (WebEx, Zoom) ont lancé des fonctionnalités similaires de sous-titres traduits.

Un autre acteur, OpenAI explore pour sa part le nouvel horizon de la traduction orale instantanée.

La particularité technique de l’« advanced voice mode » (dénomination interne de la fonctionnalité chez OpenAI) est de ne pas décomposer le processus de traduction en trois parties – speech to text / traduction/text to voice – mais de tout confier à un seul modèle pour réduire la latence des dialogues.

La philosophie n’est pas exactement la même que celles de DeepL et des sous-titres des éditeurs de visio, mais le besoin ciblé semble assez proche (collaborer en temps réel à plusieurs dans des langues différentes). L’avenir dira quelle option s’imposera – celle qui garde du texte ou celle qui passe à la voix – en fonction de l’ergonomie et du prix.

Le marché est en tout cas de plus en plus concurrentiel puisque les grands LLMs (GPT 4 o, Claude, Mistral) sont aujourd’hui capables de traduire des textes, en gardant en mémoire des règles édictées par les utilisateurs pour les personnaliser. Une pierre, de plus en plus grosse, dans le jardin historique de DeepL.

De son côté, pour ne pas se faire phagocyter, DeepL a multiplié les nouveautés depuis un an, en particulier avec la sortie d’un LLM pour motoriser son traducteur. Avec ses levées de fonds, la société est valorisée 2 milliards de dollars.

Pour approfondir sur Outils collaboratifs (messagerie, visio, communication unifiée)