Sergey Nivens - Fotolia
Data Sciences : quatre bonnes pratiques à appliquer dans vos projets
Deux Data Scientists rappellent quelques points clés sur la manière dont les projets « data » devraient être menés pour aider les équipes à surmonter les défis qu’elles rencontrent le plus souvent et apporter plus de valeur à votre activité.
L’automatisation est un élément clé dans la transformation numérique des opérations des entreprises. Un des moteurs de cette automatisation est la Data Sciences. Problème : de nombreuses idées fausses circulent encore sur l’Intelligence Artificielle, les algorithmes et le machine learning.
Pour aider à en dissiper certaines, et optimiser votre data science, voici quatre bonnes pratiques qui devraient aider vos projets « data » à (mieux) aboutir.
1. Comprendre l’exigence des métiers
Une des idées fausses les plus courantes à propos des Data Scientists est qu’ils ne font que compiler des données, qu’exécuter des modèles et que produire des résultats (outputs ou insights). Certes, ils font tout cela. Mais la partie la plus importante du travail est d’abord et avant tout d’établir et de comprendre le cas d’utilisation pour un modèle particulier.
En d’autres termes, quel problème métier doit être traité ?
Pour les Data Scientists, ce processus revient à convertir l’objectif des opérationnels en un problème mathématique. Mais pour y arriver, ils doivent comprendre de manière approfondie le nœud du problème métier (les fameux « irritants » ou « pain point » en anglais). Car de là découleront les jeux de données utilisés et les modèles à y appliquer.
Or les Data Scientists ne peuvent saisir ce problème métier qu’en comprenant parfaitement le marché dans lequel l’entreprise opère. Les Data Scientists doivent donc travailler en étroite collaboration avec les équipes opérationnelles – comme les chefs de produit – pour appréhender très précisément comment un client perçoit le problème.
2. Communiquer efficacement
Communiquer avec une équipe métiers est une bonne pratique qui paraît une évidence, mais ce n’est pas toujours aussi simple à faire dans un projet de data science.
Les Data Scientists ont généralement une formation plus technique que les chefs de produit, de sorte que communiquer efficacement sur des solutions mathématiques complexes – c’est-à-dire d’une manière qui puisse être comprise et transmise aux clients finaux – reste un défi.
On ne peut pas simplement montrer un ensemble de formules et dire : « celles-ci répondent à vos exigences, donc on y va ».
Bien faire comprendre comment un modèle peut répondre à un problème opérationnel est une compétence non technique que les Data Scientists doivent développer (certains parlent même de Data Science Storytelling). En retour, l’équipe métiers pourra aider en posant de bonnes questions qui permettront aux experts de la donnée d’identifier encore mieux les bons jeux pour les modèles.
« Nous avons besoin d’un moyen efficace de faire X » est un point de départ simpliste, mais typique, pour tout projet. Mais il est entendu que « X » n’est jamais clairement défini. C’est là que les Data Scientists doivent travailler avec les métiers pour éliminer les ambiguïtés et affiner le cas d’utilisation.
Ne jamais sous-estimer non plus le pouvoir du « Pourquoi ? ». Il arrive en effet parfois que la demande initiale d’un client ne réponde pas à son véritable problème sous-jacent.
Un Data Scientist peut aussi ne pas disposer des jeux de données nécessaires à la réalisation du meilleur modèle. Il peut donc être nécessaire d’apporter une réponse alternative et réalisable. Dans ce cas, il est essentiel d’ajuster l’objectif à ce qui est possible. Mais, là encore, cela nécessite une communication efficace avec les métiers afin que les contraintes techniques puissent être relayées au plus tôt au client.
3. Éviter le « Garbage In, Garbage Out »
Les Data Scientists sont confrontés à de nombreuses contingences lorsqu’il s’agit d’obtenir les « inputs » nécessaires pour leurs modèles : que ce soit obtenir les autorisations d’accès à certains jeux de données, des questions de réglementation concernant les données sensibles ou la disparité des localisations et des formats des informations.
Une fois qu’ils disposent de cette matière première, réunie en un seul endroit, les Data Scientists manipulent les données et identifient les caractéristiques pertinentes (les features) qui serviront à alimenter les modèles.
Ce processus peut prendre jusqu’à 90 % du temps d’un Data Scientist, car il doit nettoyer les données, débusquer les anomalies et les valeurs manquantes, et fusionner les jeux de données. Souvent, les outils et les algorithmes nécessaires pour créer un certain cas d’usage existent déjà, via des bibliothèques open source comme Python, Tensorflow ou PyTorch. Mais ils ne font pas tous. C’est pourquoi l’ingénierie des caractéristiques (« feature engineering »), la vérification et l’audit des données (« due diligence ») et les manipulations pour préparer des données sont les parties préparatoires du travail qui prennent le plus de temps.
À noter que le processus de « feature engineering » est, bien entendu, guidé par la connaissance du problème des métiers. C’est pourquoi la première étape – comprendre les besoins des métiers – est une étape à suivre impérativement dès le début d’un projet de Data Sciences.
La qualité des données que les Data Scientists introduisent dans un algorithme détermine en fin de compte le succès du projet. Or la qualité est déterminée par l’exactitude des données elles-mêmes, mais aussi par leur pertinence pour répondre à l’exigence des métiers.
Tout bon Data Scientist sait que le manque de données et les données inexactes sont la norme dans tout projet de machine learning. Même lorsqu’il s’agit d’informations enregistrées par des outils de monitoring très évolués, un principe fondamental de la physique veut qu’une mesure ne soit jamais exacte à 100 %. Et il faut en tenir compte. Chaque modèle est donc, d’une manière ou d’une autre, « faux ». Mais les bons modèles permettent tout de même aux Data Scientists de s’approcher suffisamment de la réalité pour apporter des réponses aux problèmes des métiers et pour prendre des décisions plus efficaces et objectives.
À un moment, les Data Scientists doivent décider qu’ils ont suffisamment de données pour élaborer un modèle viable : c’est en utilisant ce que l’on a que l’on se rapproche le plus de ce que l’on veut.
4. Itérer et s’adapter aux évolutions
Une caractéristique des projets « data-driven », comme le sont ceux de machine learning, est qu’ils ne peuvent pas être construits et considérés une fois pour toutes comme terminés. Il y a toujours plus ou moins à coup sûr une évolution des métiers qui nécessitera de reconstruire un modèle.
Un exemple très récent est celui de l’évolution des comportements des clients avec la pandémie. Les modèles statistiques qui traitaient certains problèmes avant la crise ont dû être soit reconstruits, soit ajustés pour répondre à la nouvelle réalité.
Alors que les organisations continuent de s’adapter elles-mêmes à la crise, elles doivent repenser en continu ces modèles. Quand faut-il le faire ? Quand les performances du modèle se dégradent, ce qui se voit en les suivant au fil du temps. Ce qui est un autre point indispensable à mettre en place dans un projet de Machine Learning.
Pour monitorer l’efficacité d’un algorithme, il faut fixer des seuils de performance, ce qui est assez simple. Quand la performance descend en dessous d’un seuil fixé – c’est-à-dire le minimum requis pour fournir des informations (insights) exploitables –, il est temps de procéder à une nouvelle itération. Ce qui implique de comprendre les nouveaux besoins métiers. Et tout recommence depuis le début.
Les auteurs
Yujun Chen est Data Scientist senior au sein de l’Innovation Lab de Finastra. Il interprète des données et conçoit des modèles, en utilisant une large gamme d’outils statistiques et de méthodologies liées au machine learning pour aider les clients à résoudre leurs problèmes métiers dans les domaines de la trésorerie, des marchés de capitaux et de la banque de détail. Il est également titulaire d’un doctorat en physique.
Dawn Li travaille elle aussi comme Data Scientist au sein de l’Innovation Lab de Finastra, où elle et son équipe appliquent les toutes nouvelles avancées du machine learning pour résoudre des problèmes dans le domaine de la finance. Elle est diplômée du Georgia Institute of Technology, avec une formation en mathématiques et en statistiques.