Citizen Data scientist : portrait(s)-robot(s) par les éditeurs
Les entreprises font face à une forte pénurie de data scientists. Bien conscients du problème, les éditeurs se targuent d’offrir des solutions simplifiées, souvent automatisées pour faciliter la création de modèles de machine learning. Ils ciblent bien souvent un nouveau « persona » : le citizen data scientist (CDS). Mais qui est-il ?
Pour le définir, une grande majorité des éditeurs de solutions de data science ou d’analytique s’appuient sur la définition proposée par le Gartner. Deux chercheurs du cabinet de conseil auraient inventé le terme « canonisé » dans un article intitulé « Citizen Data Science Augments Data Discovery and Simplifies Data Science », publié en décembre 2016.
« La citizen data science comble le fossé entre la découverte des données en libre-service effectuée par des utilisateurs métiers et les techniques d’analyse avancées employées par les data scientists. Les responsables des données et de l’analyse devraient utiliser la citizen data science pour explorer de nouvelles sources de données, appliquer de nouvelles capacités d’analyse et accéder à un plus grand nombre d’utilisateurs », résument les analystes.
Cette note s’est en quelque sorte transformée en manifeste pour certains éditeurs qui y voient là un moyen de combler les déficits d’expertise des entreprises.
Les acteurs de la BI et de l’analytique jouent la carte de l’inclusion
Edouard BeaucourtTableau
C’est cette vision que porte Tableau, l’éditeur d’une plateforme analytique, selon son directeur en France, Edouard Beaucourt. « Le CDS est décrit [Dans l’article de Gartner] comme une personne qui crée ou génère des modèles qui utilisent des analyses de diagnostics avancés ou des capacités prédictives et prescriptives, mais dont la fonction principale se situe en dehors du domaine des statistiques et de l’analytique », affirme-t-il. « Ce sont des “power users” qui peuvent effectuer des tâches analytiques à la fois simples et moyennement sophistiquées qui auraient auparavant nécessité plus d’expertise. Aujourd’hui, les CDS jouent un rôle complémentaire aux data scientists experts ».
Tableau les décrit comme des « data champions ». Ces data champions « sont souvent déjà présents dans l’entreprise – dans les équipes marketing, les équipes commerciales ou les équipes RH » et « sont les défenseurs en interne d’une culture d’entreprise data driven ».
Pour Sadaq Boutrif, Directeur Solution Engineering pour la France, la Belgique et le Luxembourg chez TIBCO Software, les citizen data scientists sont des « analystes ++ ». « Les citizen data scientists savent déjà ce qu’est du clustering, de la régression linéaire, comprennent un arbre de génération aléatoire. Ils ne savent pas coder, mais ils ont un minimum d’informations sur l’utilité des algorithmes et quand il est possible de les employer ».
Ils émergent souvent dans des secteurs bien particuliers de l’entreprise « le marketing, la finance ou le développement commercial, par exemple », estime Edouard Beaucourt. Mais ils peuvent « exister n’importe où », tant qu’ils sont curieux des données. L’éditeur encourage donc ses clients à former ceux qui n’auraient pas de connaissances particulières en statistique et en analytique pour prendre en main des outils d’analytique en libre-service tels que ceux de Tableau.
Qlik, lui aussi éditeur d’une plateforme analytique, partage cette vision quelque peu saupoudrée de marketing. « Qlik est convaincu que tout le monde devrait devenir “data-literate”, c’est-à-dire avoir une bonne connaissance des données, et ainsi s’efforcer de devenir des citizen data scientists », estime Jordan Morrow, Global Head of Data Literacy chez Qlik. Pour cela, l’éditeur mise sur un programme de « datalphabétisation » (data literacy en VO) et de prise en main de ses produits.
SAS propose lui aussi des entraînements pour renforcer les connaissances et la maîtrise des outils de certains métiers. Toutefois, l’éditeur estime que les citizen data scientists sont des « analystes métiers traditionnels avec quelques connaissances habituellement attribuées aux statisticiens », peut-on lire sur son site web.
Sadaq BoutrifTIBCO
Il y a une marche importante entre un CDS et un analyste, selon Sadaq Boutrif. « Par exemple, si vous êtes un analyste sur Spotfire (la plateforme d’analytique avancée de TIBCO), vous êtes formé à effectuer des corrélations. Des analystes qui seraient capables de manipuler des algorithmes de prédiction sans une formation particulière, aujourd’hui je n’en ai pas vu », assure-t-il.
Ces différences de points de vue s’expliquent en partie par l’origine des éditeurs : ils proviennent de secteurs sensiblement différents. Tous tendent à proposer des solutions de conception ou de déploiement de modèles prédictifs, mais n’ont pas les mêmes spécialités.
Le data scientist, le mentor du citizen data scientist
Sadaq Boutrif considère que la plateforme TIBCO Data Science « a un vrai rôle catalyseur à jouer ». L’objectif est de permettre aux « analystes ++ » de renforcer les équipes de data science, souvent surchargées. « Une équipe de data science, c’est généralement 10 personnes. Ils doivent parfois gérer jusqu’à 50 projets par an. C’est très difficile ». Les CDS peuvent être « sponsorisés par les équipes de data science », selon Sadaq Boutrif. Dès lors, les data scientists jouent un rôle d’éducateurs pour que d’autres personnes, moins expertes, « puissent utiliser les modèles, les ressources et les environnements de travail pour gérer des tâches de faible ou moyenne complexité ».
Rémi MeunierDataiku
Dataiku, l’éditeur de la plateforme Data Science Studio ne cible pas en particulier les citizen data scientists. Il a pourtant élargi les capacités de sa solution en accueillant des solutions d’analytiques avancées pour les statisticiens. « Dans certains secteurs, je ne suis même pas sûr que le mot citizen data scientist soit approprié. Certaines personnes ont une très forte compétence métier. Vous leur montrez une caractéristique d’une transaction financière, ils peuvent tout de suite repérer une anomalie et vous la décrire, mais ces gens-là n’ont aucune compétence en informatique et aucune appétence », observe Rémi Meunier, Practice manager dans le secteur défense et sécurité, EMEA chez Dataiku.
Les équipes de data science sont alors là pour développer des « data products » utilisables par les métiers « de manière totalement atechnologique ». Il faut donc simplifier au maximum les interfaces, mais laisser les experts de la donnée gérer les projets, selon Rémi Meunier.
L’automatisation, une aubaine pour les entreprises
Les éditeurs d’outils de création de modèles de machine learning automatisés misent davantage sur les non-experts. DataRobot est l’un d’entre eux. « De mon point de vue, la principale raison pour laquelle le citizen data scientist est devenu à la mode tient dans la simplification des logiciels ces dernières années. Notre plateforme s’inscrit dans cette mouvance », affirme James Lawson, « IA evangelist » chez Datarobot. « Quelqu’un qui n’a pas les compétences d’un data scientist peut maintenant effectuer ce travail : il peut livrer des modèles de machine learning ou construire des applications d’intelligence artificielle », ajoute-t-il.
Alteryx, un concurrent de DataRobot, partage cette vision. « Alors que le fossé des compétences techniques continue de se creuser, les plateformes low-code/no code comblent le fossé entre les data scientists et les citizen data scientists au sein de l’entreprise. Cela permet de mettre les capacités d’analyse entre les mains des experts qui n’ont pas de compétences en code, mais qui connaissent les données et les activités de leur entreprise », affirme un porte-parole d’Alteryx.
« Beaucoup de nos clients n’ont pas de data scientists, point. Vous n’avez pas besoin nécessairement de data scientists. Cependant, je vais faire une mise en garde. Cela ne veut pas dire que les data scientists sont inutiles. Beaucoup d’autres clients les emploient », explique James Lawson.
Cependant, cette population non technique ne peut pas utiliser la plateforme sans garde-fou. DataRobot a introduit dans son système Autopilot ce qu’il appelle des « rails de sécurité ». L’outil doit être capable de détecter les déviations, automatiser le featured engineering, le partitionnement des données, régler les hyperparamètres, choisir automatiquement le bon algorithme à partir des données d’entrée, etc.
« Si vous avez la chance d’avoir les deux types de personnes, alors le modèle est légèrement différent. Dans cette situation, vous donneriez les applications les plus compliquées aux data scientists où une petite amélioration peut amener beaucoup de valeur ajoutée. Le citizen data scientist peut lui traiter les cas d’usage plus généraux et apporter sa connaissance des processus métiers », détaille-t-il.
Bharath GowdaDatabricks
Databricks, à l’origine de Spark et l’éditeur d’une plateforme de data science plus complexe, se veut plus catégorique à ce sujet. « Le data scientist œuvre sur des projets sources de transformation radicale pour les entreprises. […] Dans ce genre de transformation, les citizen data scientists ne jouent pas un rôle aussi important », estime Bharath Gowda, vice-président marketing produits chez Databricks.
Ces différences de points de vue rejoignent une même finalité. À écouter les éditeurs, le citizen data scientist changerait de forme suivant l’outil qu’il utilise. Pour autant, quelles que soient ses armes de prédilection, il est le Robin du Batman de la data science, à savoir le data scientist.