Quelle différence entre Alexa for Business, Amazon Lex et Amazon Transcribe ?
Entre Bots clefs en main, outils de développement de robot conversationnel et services de reconnaissance vocale pure, AWS dispose aujourd’hui d’une offre complète et bien segmentée. Encore faut-il bien distinguer ses briques.
Lors de son évènement Re :Invent 2017, Amazon Web Services a présenté plusieurs nouveautés dans le cognitif et les bots. La branche IT d’Amazon propose aujourd’hui trois outils distincts : Alexa for Business, Lex et Transcribe.
Dans un domaine connexe, s’y ajoutent deux briques dédiées à la reconnaissance vidéo (cf. encadré).
Alexa for Business
Alexa est l’assistant personnel d’Amazon. Il (ou elle) est le concurrent de Google Home/Google Assistant, Siri (Apple) ou Cortana (Microsoft).
Ce bot conversationnel est capable de comprendre la voix, de répondre en parlant (NLP) et d’effectuer des tâches préconfigurées (comme commander un burger).
Pour les entreprises, il est possible de s’interfacer avec Alexa pour intégrer leurs données et leurs process dans ses « savoirs » et ses « savoir-faire ». Par exemple, Air France va mettre à disposition de l’assistant les horaires de ses vols en temps réels de telle sorte qu’un client pourra demander à Alexa : « Mon vol pour Montpellier de ce soir est-il à l’heure ? ».
Alexa est embarquée dans les appareils Echos d’Amazon (Echo Dot, Echo Plus, Echo Spot, etc.). Il n’est pas possible de déployer l’assistant sur un autre hardware.
Alexa for Business est la déclinaison pour entreprises d’Alexa. Elle est, elle aussi, liée à un hardware Amazon. Parmi les usages, Stephan Hadinger, Responsable technique AWS en France, imagine une salle de conférence où il est possible de demander à Echo de baisser la lumière, de fermer les stores et de lancer un call vidéo.
Autre possibilité, un manager de commerciaux peut demander son chiffre des ventes du jour. Dans ce cas précis, Alexa est une couche d’abstraction au-dessus du SI, connectée au CRM ou à l’ERP. Dans le langage d’AWS, on parle de « Skills » ajoutés à Alexa.
Alexa for Business dispose aujourd’hui de « Skills » clefs en main issus d’intégration avec Salesforce, Concur, Polycom, RingCentral et Splunk. Il est aussi possible de créer des « skills » sur-mesure en connectant Alexa à d’autres données et à d’autres applications avec les kits fournis. Exactement comme Air France s’est interfacé avec Alexa grand public.
Pour l’instant, Alexa n’est pas disponible en Français (uniquement en anglais, allemand et japonais).
Amazon Lex
La principale limite d’Alexa – au-delà de la langue - est qu’elle est liée aux appareils Echos d’Amazon. Pour développer des bots sur d’autres hardwares, AWS propose néanmoins deux outils : Lex (reconnaissance vocale ou « speech to text ») pour les inputs, et Polly (synthèse vocale ou « text to speech ») pour le dialogue en langage naturelle en output.
Lex et Polly sont les briques qui motorisent Alexa. Conséquence, Lex est spécialement conçu pour développer des chatbots, pas pour un autre usage.
Concrètement, Lex fait une transcription complète de la demande orale de l’utilisateur. Puis il recherche de mots clefs ou des phrases pré-établies pour déclencher des commandes ou lancer une l’interrogation d’applications tierces (compte en banque, CRM , etc.).
Lex s’appuie sur les notions d’intentions (action à réaliser), d’énoncé (phrase orale - ou écrite - pour appeler une intention), d’emplacement (informations complémentaires dont peut avoir besoin Alexa pour réaliser l’intention) et d’invite (question d’Alexa pour compléter la demande et obtenir les emplacements).
Amazon Lex propose des SDK pour iOS et Android. Les bots peuvent être publiés sur Facebook Messenger, Slack, Kik et Twilio SMS.
Si Amazon Polly est disponible en français ; Lex n’est pour l’instant prêt que pour la langue anglaise.
A noter : la durée maximale des entrées vocales prises en charge par Lex est de 15 secondes. Ce qui est logique dans un contexte de bot.
Infor utilise par exemple Amazon Lex pour le bot de ses applications métiers et de sa plateforme d’AI (Coleman).
Amazon Transcribe
Amazon Transcribe est la brique de reconnaissance vocale de Lex (et donc de Alexa/Alexa for Business).
Présenté au Re :Invent 2017, « Amazon Transcribe est un service reconnaissance vocale automatique (communément appelé ASR) qui convertit de la parole sous forme de fichiers sons en texte », explique Stephan Hadinger.
Le service, affirme AWS, supporte à la fois les conversations enregistrées en situation « live » que celles par téléphones (avec une qualité légèrement dégradée donc). Il respecte la ponctuation et ajoute l’horodatage. Et, promet AWS, Transcribe devrait bientôt distinguer différents interlocuteurs.
A la différence de Lex, la durée n’est pas limitée à quelques secondes ce qui permet de l’appliquer à des usages plus larges que les lancements de commande ou les requêtes, comme la dictée ou le sous-titrage automatisée de film.
« Les call centers peuvent aussi utiliser Amazon Transcribe pour transcrire des interactions vocales et explorer les données pour obtenir des informations en extrayant le sens et l'intention de conversations avec Amazon Comprehend », ajoute Amazon. Amazon Comprehend est un outil dévoilé au même Re :Invent qui s’appuie sur des techniques de programmation neuro-linguistique (NLP) pour faire de l’analyse de sentiments et de contextes de texte.
Le service Amazon Transcribe s’applique à un enregistrement uploadé dans S3 via un appel d’API. Des SDK sont disponibles pour .NET, Java, JavaScript, Go, PHP, Python et Ruby.
Amazon Transcribe est actuellement en preview privé. Il prend en charge l’anglais et l’espagnol.
Conclusion
Pour résumer, ces services s’emboitent un peu à la manière des poupées russes. Amazon Transcribe motorise Amazon Lex, qui motorise Alexa for Business, qui est une déclinaison d’Alexa.
Mais en découpant ses outils cognitifs et de bots, AWS les adaptent à des usages bien distincts dans une gamme clairement segmentée et au final très cohérente.
Reckognition, l’autre service cognitif d’AWS
Amazon propose deux autres briques cognitives :
Rekognition : reconnaissance d’images statiques – permet d’identifier des couleurs, des formes, des objets, des visages, et des expressions. Amazon l’utilise pour son service de streaming Prime Video pour automatiser l'identification des personnages présents à l'écran. Le spectateur peut demander la fiche de chaque acteur ou présentateur sans qu'Amazon ait besoin auparavant d’horodater et de taguer les séquences. Amazon Rekognition repère également les textes dans les images (OCR).
Rekognition Vidéo : reconnaissance d’images en mouvement – extension du service précédent, il permet de décrire les trajets et les mouvements pour « décrire ce qui se passe » dixit Stephan Hadinger. La ville d’Orlando automatise l’analyse des flux de ses caméras de surveillances pour filtrer les éléments importants (comme une voiture qui entre dans une zone piétonne) et les communiquer aux agents qui ne peuvent pas suivre la totalité des enregistrements. Autre usage, Rekognition Vidéo permet d’indexer automatiquement les contenus de tout type de films pour les archiver.
Reckognition, l’autre service cognitif d’AWS