apinan - Fotolia

Conseil

API Cloud de reconnaissance vocale : IBM vs HPE vs Speechmatics vs Nuance Cloud

LeMagIT a testé 7 des principaux services de « Voice recognition ». Aujourd’hui : IBM Bluemix Watson STT, HPE HavenOnDemand STT, Speechmatics

par

Loic Duval

Publié le: 29 août 2017

Cet article est la deuxième partie de ce dossier de comparaison des APIs de reconnaissance vocale. La première s’était penchée sur les deux services de Microsoft et sur celui de Google.

4 - IBM Bluemix Watson STT

Chez IBM, tout ce qui comporte un soupçon d’IA est estampillé « Watson ». L’API « Speech To Text » offerte par le cloud IBM Bluemix ne fait pas exception.

Pour découvrir l’API, il faut passer par la phase d’inscription à Bluemix et sa validation qui peut aisément prendre 24H. C’est ainsi la seule de ce comparatif qui ne puisse être immédiatement expérimentée instantanément.

Une fois validé, il n’y a plus qu’à créer son espace et activer l’API Watson Speech to Text. Cette activation permettra de récupérer votre URL d’accès à l’API ainsi que les identifiants (username/password) automatiquement attribués.

L’API est très complète. Outre la reconnaissance automatique, elle permet par exemple de rechercher des mots clés dans le flux audio (et d’obtenir à quelles positions se trouvent les occurrences), ou de reconnaître différents interlocuteurs mais aussi de se créer ses propres modèles dérivés des modèles de base. L’entrainement de ces nouveaux modèles est toutefois limité à l’apprentissage de mots. On est loin du mécanisme beaucoup plus général d’apprentissage offert par Microsoft et son Custom Speech Service.

L’API d’IBM est relativement souple quant au format des fichiers audios transférés. Outre l’universel WAV, elle supporte aussi FLAC et OGG.

IBM a beau prétendre avoir la meilleure reconnaissance avec des taux d’erreurs inférieurs à la compréhension humaine en anglais, notre test montre qu’il reste beaucoup de progrès à réaliser avec la langue Française. On notera cependant que l’API d’IBM est l’une des rares à tenter de placer des ponctuations dans le résultat final. D’ailleurs, dans sa version verbeuse, l’API retourne un fichier JSON avec un découpage par phrase, chaque phrase étant livrée en version complète et en version mot à mot avec un indice de fiabilité sur chaque mot.

Appel :

curl -X POST -u "{username}": "{password}" --header "Content-Type: audio/wav" --data-binary @exemple.wav

"https://stream.watsonplatform.net/speech-to-text/api/v1/recognize?timestamps=true&model=fr-FR_BroadbandModel"

Résultat : 23 fautes

Les futurs exploitants pour qu ' ils se désaltérer avec louent une.
Selon des travaux publiés lundi dans la revue nature geoscience. Les profondeurs de la str serait étonnamment riches on nous.
Nous avons trouvé la signature de los partout dans les profondeurs de la lumière en utilisant des données satellitaires explique à l ah ff p choisis. Deux universités baume à providence. Aux États-unis et co-auteur de l'étude.
Pendant longtemps on a aperçu l 'une comme un affront aride qu modifie que désolation. Ou encore complètement sèche
la présence d'eau sur l’astreinte fut maintenant plus d x.

5 - HPE HavenOnDemand STT

HPE fournit des API à base d’intelligence artificielle depuis de nombreuses années. Elles ont souvent changé de dénomination et sont désormais regroupées sous la bannière HavenOnDemand. Ces APIs sont parmi les plus matures du marché. Notre test nous a d’ailleurs donné l’occasion d’expérimenter la V2 de l’API « Speech-To-text », encore considérée comme une preview.

Si leur accès passe par une inévitable inscription au service HavenOnDemand, la validation est instantanée (d’autant que l’on peut s’authentifier avec un compte Google ou Facebook par exemple) et la mise en œuvre de vos premiers appels ne prendra pas plus d’un quart d’heure.

Le portail permet de surveiller simplement votre consommation et l’utilisation faite des APIs. C’est aussi grâce à lui que vous obtenez la clé API_KEY personnelle permettant de vous authentifier lors des appels aux APIs.

La prise en main est d’autant plus rapide que les explications sont limpides et que chaque API est accompagnée d’une fonction « TRY IT » pour l’essayer et la comprendre sans se prendre la tête.
L’API ne semble pas supporter les flux live et nécessite de lui passer des fichiers. Mais ces derniers peuvent être aussi bien des fichiers audios que vidéos. Et l’API supporte une grande variété de formats (MP3, MP4, WMA, WMV, AAC, AC3, …). Elle peut s’appeler en mode synchrone pour les petits fichiers ou en mode asynchrone pour les fichiers volumineux (un numéro de Job est alors attribué).

L’un des atouts de l’API STT de HavenOnDemand c’est qu’elle peut être très aisément chaînée à d’autres API très utiles comme « Concept Extraction » (met en exergue les concepts clés d’un texte à des fins d’analyse automatisée) ou « Add To Text Index » (indexation de documents).
Le résultat de la reconnaissance est un fichier JSON comprenant une entrée pour chaque mot avec son indice de probabilité.

Appel :

curl -X POST --form "[email protected]" --form "language_model=fr-FR" --form "apikey=API_KEY" "https://api.havenondemand.com/1/api/async/recognizespeech/v2"

Résultat : 12 fautes

les futurs exploiteurs pourront ils se désaltérer avec Claude l'une
selon des travaux publiés lundi dans la revue Nature chez aussi entre les profondeurs de l'astre serait étonnamment riches en eau
nous avons trouvé la signature de l'eau partout dans les profondeurs de la lune en utilisant des données satellitaires explique à l 'AFP choix aigri de l'université paumes à providence aux Etats Unis et coauteur de l'étude
pendant longtemps on aperçu l'aime comme un astre aride une magnifique désolation vos corps complètement sèche
mais la présence d'eau sur l'astre ne fait maintenant plus débat

6 - Speechmatics API

C’est sans doute la moins connue des API de cette sélection. Speechmatics est d’ailleurs plus un véritable service spécialisé dans la transcription de fichiers audio, qu’une API universelle.

C’est pourtant la solution qui nous a le plus étonné, à la fois par sa grande simplicité de mise en œuvre et par l’étonnante précision de sa reconnaissance vocale en français. En effet, sur notre petit test, elle réalise le meilleur score en ne faisant que trois fautes, dont deux sont liées à des noms propres (à priori un Français aurait d’ailleurs probablement fait les mêmes) et la troisième à une négation ignorée.

Par ailleurs, l’API réalise une excellente reconnaissance des phrases, plaçant ainsi les points au bon endroit. C’est la seule à avoir affiché des résultats satisfaisants en la matière.
Speechmatics offre également une interface utilisateur conviviale qui permet de visualiser les jobs soumis.

Appel :

L’appel de l’API se fait en trois étapes :

Dans un premier temps on soumet un Job en précisant le modèle (la langue) à appliquer, le nom du fichier, et le Token associé à votre compte. L’appel retourne l’identifiant du Job « JOB_ID ».

curl -F [email protected] -F model=fr "https://api.speechmatics.com/v1.0/user/25605/jobs/?auth_token=Mon_Token"

Dans un deuxième temps, on doit vérifier (et boucler jusqu’à ce) que l’état du Job « JOB_ID » a bien basculé sur « Done ».

curl "https://api.speechmatics.com/v1.0/user/25605/jobs/$JOB_ID/?auth_token=Mon_Token"

Dans un troisième temps, on peut alors récupérer la transcription réalisée en indiquant le JOB_ID, en précisant si celle-ci se fait sous forme de texte ou de fichier XML.

curl "https://api.speechmatics.com/v1.0/user/25605/jobs/$JOB_ID/transcript?format=txt&auth_token=Mon_Token"

Résultat : 3 fautes

Les futurs explorateurs pourront ils se désaltérer avec l'eau de lune.
Selon des travaux publiés lundi dans la revue Nature Geoscience les profondeurs de l'astre seraient étonnamment riches en nous.
Nous avons trouvé la signature de l'eau partout dans les profondeurs de la Lune en utilisant des données satellitaires explique à l'AFP Choi Illi de l'université braune à Providence aux etats-unis et co-auteur de l'étude.
Pendant longtemps on a perçu la Lune comme un astre aride d'une magnifique désolation ou encore complètement sèche. Mais la présence d'eau sur l'astre fait maintenant plus débat.

7 - Nuance Cloud Services

Nuance est l’un des grands précurseurs de la reconnaissance vocale, réputé pour son logiciel Dragon Naturally Speaking. Désormais tout le savoir-faire de l’entreprise est à disposition des développeurs au travers d’une API simple et conviviale.

L’accès au service débute par une phase d’inscription en libre accès. Destiné principalement aux développeurs d’Apps mobiles, le service propose trois SDK : un iOS (Objective C et Swift), un Android et un HTTP pour un usage plus général.

Nuance se démarque essentiellement par la qualité de sa reconnaissance sur toutes les langues et par le nombre de langues supportées. Le service de base ASR (Automatic Speech Recognition) est un service « Speech-To-Text » classique, très automatisé et sans capacité d’apprentissage. L’éditeur propose en bêta un nouveau service NLU (Natural Language Understanding) qui s’éloigne de la reconnaissance classique pour offrir plutôt une interprétation des intentions.

Il est à signalé que les modèles utilisés par ASR sont optimisés pour une capture audio depuis des appareils mobiles (et donc pas optimaux dans le cadre de notre test).

L’interface HTTP REST est limitée à l’utilisation de fichiers sonores au format Wav (16 bit PCM), Speex (Ogg), AMR, Qcelp et Evrc.

Le service propose une Sandbox pour les développeurs afin de tester facilement les API sans pour autant entrer dans le processus de déclaration d’une App. La Sandbox prodigue un App_ID et un App_Key par défaut nécessaires à chaque appel de l’API.

Appel :

curl -X POST \

--header "Content-Type: audio/x-wav;codec=pcm;bit=16;rate=16000" \

--header "Accept: application/xml" \

--header "Accept-Topic: Dictation" \

--header "Accept-Language: fr-FR"

--data-binary @exemple.wav \

"https://dictation.nuancemobility.net:443/NMDPAsrCmdServlet/dictation?appId=<APP_ID>&appKey=<APP_KEY>"

Résultat : 19 fautes

Les futurs explorateurs pourront-ils se désaltérer avec le lot de lune
selon des travaux publiés lundi dans la revue nature géosciences les profondeurs de l'astre serait étonnamment riches en nous
nous avons trouvé la signature de l'eau partout dans les profondeurs de la lune en utilisant des données c'est élitaire expliqua Life P joyeux lit de ligne hier c'était bon on a Providence aux Etats-Unis équateur de l'étude
pendant longtemps on a perçu la lune comme un astre aride une magnifique désolation mon corps complètement sèche
mais la présence d'eau sur la trame fait maintenant plus débat

A venir

Dans la dernière partie de ce dossier, nous publierons le tableau récapitulatif des 7 services testés (prix, langages de programmation, standards supportés, conditions d’utilisation, etc.)

API Cloud de reconnaissance vocale : IBM vs HPE vs Speechmatics vs Nuance Cloud

LeMagIT a testé 7 des principaux services de « Voice recognition ». Aujourd’hui : IBM Bluemix Watson STT, HPE HavenOnDemand STT, Speechmatics

4 - IBM Bluemix Watson STT

5 - HPE HavenOnDemand STT

6 - Speechmatics API

7 - Nuance Cloud Services

A venir

Pour approfondir sur API

Dans les coulisses de la personnalisation Netflix

« Ma première expérience de vibe coding » (Tyler Shields, analyste ESG-Omdia)

Les principaux risques liés aux API et moyens de les atténuer

API : les 5 types d’attaques les plus courants

4 - IBM Bluemix Watson STT

5 - HPE HavenOnDemand STT

6 - Speechmatics API

7 - Nuance Cloud Services

A venir

Sur le même sujet

Pour approfondir sur API

Dans les coulisses de la personnalisation Netflix

« Ma première expérience de vibe coding » (Tyler Shields, analyste ESG-Omdia)

Les principaux risques liés aux API et moyens de les atténuer

API : les 5 types d’attaques les plus courants