Machine Learning : ce que peuvent vraiment faire les entreprises avec ces algorithmes
Les applications concrètes de l'apprentissage statistique sont nombreuses et variées. Aussi variées que l'apprentissage supervisé, non supervisé, les réseaux neuronaux, ou l'apprentissage par renforcement.
Bien que le terme évoque la science-fiction, les possibilités de l'apprentissage statistique (ML) sont déjà bien réelles. Par exemple, les moteurs de recommandation s'appuient depuis plusieurs années sur ces algorithmes pour personnaliser les annonces publicitaires en ligne, souvent en temps quasi réel.
Concrètement, le Machine Learning est un ensemble d'algorithmes qui peuvent être utilisés pour construire des modèles sans les paramétrer explicitement comme c'était le cas avec les moteurs de règles (IF... Then... Else). Ils reçoivent des données de diverses sources et appliquent des statistiques (d'où la traduction française d'apprentissage statistique) pour généraliser le « model » et/ou prédire un résultat. Le ML actualise ses données de sortie - et l'algorithme lui même en modifiant les paramètres qu'il a auto-générés - au fur et à mesure que de nouvelles données sont disponibles.
Il existe différents types d'algorithmes, certains assez simples d'autres très complexes. Et autant d'usages différents. On peut classer le ML en trois catégories : apprentissage supervisé, non supervisé, et apprentissage par réseau neuronal profond (Deep Learning).
Apprentissage supervisé, régression et classification
Pour Stéphane Roder, fondateur de la société de conseil AI Builders et auteur de Guide pratique de l'intelligence artificielle dans l'entreprise, 90 % du Machine Learning de ces dernières années sont du supervisé.
Dans l'apprentissage supervisé, on possède les données d'entrée et de sortie. L'algorithme doit trouver un moyen mathématique de générer les deuxièmes à partir des premières.
Sous le capot, l'apprentissage supervisé est fondé sur le principe de régression.
Une régression en mathématique consiste à trouver une fonction qui soit une bonne estimation de tous les points d'un échantillon. Lorsque l'on trouve (ou cherche) une droite - de la forme Y = aX + b - pour résumer ces points, on parle de « régression linéaire ».
Mais « une simple droite peut induire trop d'erreurs », explique Stephane Roder. « Il est alors possible d'affiner l'approximation en prenant des polynômes plus complexes ». On parle alors de régression polynomiale. La fonction qui résume les points est alors de la forme Y = anXn+ an-1Xn-1+ .... + n2X2+ nX + n.
L'exemple le plus courant d'application de ce type de ML est la classification.
Comme son nom l'indique, la classification consiste à attribuer une classe à un objet d'entrée (« c'est un bon ou un mauvais payeur »). « La classification est la fonction la plus utilisée dans l'entreprise car elle permet de classer, bien sûr, mais surtout de décider : accord ou refus d'un prêt, potentiellement frauduleux ou pas, heureux ou pas content », explique Stéphane Roder.
La classification est fondée sur le principe de régression dite « logistique ».
Une forme particulière de classification est la classification par groupe ou « clustering » - qui est, elle, une application de l'apprentissage non supervisé.
Apprentissage non supervisé et clustering
Dans le clustering, il ne s'agit plus de savoir si un élément est un bon ou un mauvais payeur, mais par exemple de déterminer différents types de payeurs à partir de données comptables brutes de recouvrements (brutes dans le sens où l'entreprise n'a pas déjà catégorisé ses payeurs en "bon", "moyen", "mauvais", "à bannir").
« L'apprentissage non supervisé n'a que des données d'entrée non labellisées et doit se débrouiller à trouver des similitudes pour les regrouper. Cette notion de ressemblance se caractérise mathématiquement par la notion de distance », résume Stéphane Roder.
Pour lui, les applications de l'apprentissage non supervisé sont beaucoup plus rares que celles de l'apprentissage supervisé, « mais elles sont très utiles dans les problématiques de création ex nihilo de segmentation ou de référentiel ».
A noter qu'il est possible de mélanger plusieurs types d'apprentissage, par exemple en utilisant du non supervisé pour labelliser des données et le injecter ensuite dans une application qui utilise du supervisé. Il est ainsi possible de segmenter un marché, puis de scorer les segments en s'appuyant sur l'historique des ventes.
Deep Learning, vision et compréhension du langage
La forme actuelle la plus complexe de Machine Learning est le Deep Learning.
« Le Deep Learning est un sous-ensemble du Machine Learning dévolu au calcul de fonctions de prédictions beaucoup plus complexes qui font intervenir en entrée des données, elles aussi, plus complexes », confirme Stéphane Roder.
« L'utilisation de neurones [formels] permet de représenter ces fonctions mais surtout de calculer l'importance de chacun [des poids de chaque facteur] dans le processus de décision. C'est exactement la même chose que nos a et b dans Y = aX + b, mais à une beaucoup plus grande échelle et dans des dimensions beaucoup plus importantes ».
Le Deep Learning a surtout des applications dans l'informatique cognitive (vision et reconnaissance d'image, compréhension de concepts, traduction, speech to text, NLU, NLG, etc.).
Un de ses usages concrets en entreprise est la reconnaissance de champs dans un document numérisé - nom, adresse, numéro de client, produits, prix, etc. - là où l'OCR ne reconnait que des caractères. Certaines entreprises comme Thalès vont jusqu'à l'appliquer à des appels d'offres à forte dimension juridique.
Apprentissage par renforcement : le joueur de Go ultime
Le Deep Learning est donc à la pointe du Machine Learning, mais ce champ est en constante évolution. Une récente étude du MIT mettait ainsi en lumière que les algorithmes « dominants » dans la recherche changeaient environ une fois tous les 10 ans.
D'après ce rapport, le Deep Learning arriverait à la fin de son règne - en terme d'attention, pas d'application - pour être remplacé par d'autres formes émergentes de Machine Learning. La plus prometteuse pour prendre sa place est, semble-t-il, l'apprentissage par renforcement, qui laisse l'algorithme apprendre et itérer par lui même en fonction de réponses chiffrées à ses stratégies (1/0 ou encore victoire / défaite, positif / négatif, amélioration d'un score, etc.).
Ce type d'outil permet par exemple d'améliorer un parcours de livraison avec des bots qui trouvent des chemins dans de nouveaux endroits y compris ceux où il y a peu de passage et donc peu de données pour les GPS pour alimenter un autre type de Machine Learning.
David Louapre de Sciences Etonnantes et auteur de « Mais qui a attrapé le Bison de Higgs » résume la différence d'une formule limpide : « L'apprentissage supervisé, c'est donner toutes les parties de Go des Grands Maîtres du jeu à un algorithme pour qu'il apprenne à jouer. L'apprentissage par renforcement consiste à ne lui donner que les règles du Go [et à le laisser jouer contre lui-même] ».
Lié à cette exemple du Go (et des Échecs), une autre application répandue du Machine Learning est les arbres décisionnels, des modèles qui s’appuient sur des observations de certaines actions et identifient la voie optimale pour arriver à un résultat souhaité - une partie d'échec peut se modéliser sous cette forme.
Loi de Pareto et entropie coûteuse
Certaines applications sont déjà bien connues(à défaut d'être toutes bien répandues). Pour Stéphane Roder, le Machine Learning sous toutes ses formes va surtout permettre aux entreprises de lutter contre ce qu'il nomme « leur entropie ».
Par manque de temps et de ressources, les entreprises se focalisent sur une partie de leurs processus ou de leurs clients. Si 20 % des clients font 80 % du CA, ou si 20 % des actifs génèrent 80 % du montant des achats - une organisation va se focaliser sur ces 20 %.
Les 80 % des non traités - ou moins biens traités - représentent une forme de « longue traine » qui, quand elle est laissée à l'abandon, devient « l'entropie ».
« Le non traitement de la longue traîne dans toutes les fonctions de l'entreprise est un puits sans fond qu'aucune organisation ne sait chiffrer », constate Stéphane Roder. Dans les achats par exemple, « aucune entreprise ne va faire travailler des consultants en cost cutting à plus de 1000 € la journée sur des gains de 100 € qu'il faut deux jours pour trouver... et pourtant qui sait dire combien il y en a ? ».
Le Machine Learning, parce qu'il est automatisé, à coût fixe, avec un temps infini et disponible 24/24 permet de gérer cette problématique des 80 % non traité de la fameuse loi de Pareto. « Il n'y a pas de petites catégories d'achats pour l'IA », synthétise le consultant.
Que peut-on en faire aujourd'hui ?
Stéphane Roder voit poindre des cas concrets dans :
- la Finance (saisie comptable automatisée, vérification des notes de frais, assistant numérique dans la gestion de la trésorerie et le scoring du recouvrement, prévention dynamique en temps réel contre les fraudes, etc.)
- les Achats (cost cutting, sourcing optimisé). Les acheteurs du groupe Air France ont par exemple réduit de 95 % le temps qu'ils octroyaient à la recherche de fournisseurs (marketing, formation, etc.) grâce au Cognitive Sourcing (avec Silex) qui analyse et classe les prestataires en fonction de leurs historiques et de données externes.
- le Juridique, avec des outils capables d'ingérer d'énormes bases documentaires (code, jurisprudence, contrats passés, etc.) et de recommander des clauses ou des stratégies en conséquences, voire de générer des pré-analyses ou d'évaluer un risque juridique
- les RH, avec les bots recruteurs, la recherche automatique de talents en fonction d'une annonce, le scoring interne des talents, etc.
- la Production, avec la maintenance prédictive.
- la Supply Chain, avec des modèles de prévisions de stocks fondés sur l'historique des ventes, la saisonnalité, les commandes clients, les campagnes promotionnelles mais aussi des données externes comme la météo. Leroy Merlin a par exemple baissé de 8 % son niveau de stock en 3 ans (avec Vekia).
- le Marketing, avec l'écoute des réseaux sociaux, la modélisation dynamique des meilleurs parcours clients et visiteurs d'un site, le scoring d'emailing, etc.
- les Ventes, avec les assistants à la Einstein de Salesforce, le scoring des prospects et la priorisation des opportunités de ventes, proposition automatique de cross-selling et de up-selling personnalisée en fonction des retours d'un client et de l'historique de l'entreprise.
- le SAV et la Relation Client, avec par exemple des chatbots qui synthétisent des FAQ complexes ou l'analyse en temps réel du sentiment de l'appelant (déçu, en colère, calme, etc.) pour mieux conseiller l'agent de centre d'appel dans la réponse à donner.
Cas d'usages du Machine Learning par secteurs
En plus de ces fonctions communes à presque toutes les entreprises, des usages types et particuliers du Machine Learning se dessinent par secteur. Services financiers, hôtellerie, énergie, industrie manufacturière, commerce et santé ont en effet chacun une vision métier bien différente des applications souhaitables du ML.
Google a listé et classé par vertical - de manière non exhaustive mais très détaillée - ces différents cas d'usages dans le tableau ci-dessous.
Vers une IA transverse
Une autre retombée du Machine Learning, à long terme, est de pouvoir modéliser le comportement global d'une entreprise et d'appliquer les mêmes outils de scoring et d'optimisation dynamique à des processus enfin réellement transverses (comme relier les attributs des actions marketing à ceux des ventes à ceux de la supply chain, etc.). Seule condition : il faudra avoir auparavant cassé les silos de données entre toutes les fonctions citées ci-dessus. Ce qui ne reste dans encore beaucoup d'entreprises qu'une promesse lointaine.
A lire pour aller plus loin :
Guide pratique de l'intelligence artificielle dans l'entreprise, de Stéphane Roder (Editions Eyrolles)