Definition

Citizen Data Scientist

Le « Citizen Data Scientist » est un anglicisme qui désigne une personne qui fait de la « data science » sans avoir les compétences en analytique, en Machine Learning et en algorithmes des experts (les Data Scientists). Il s’agit le plus souvent d’opérationnels et de métiers qui font de l’analytique avancée et du prédictif grâce à des solutions techniques automatisées.

Un citizen data scientist désigne plus largement toute personne qui participe à un projet évolué en matière de données, mais qui n'a pas de formation en analytique, en mathématique ou en informatique décisionnelle (BI).

Limites du citizen data scientist

Le citizen data scientists n’a pas vocation à remplacer les data scientists, mais à collaborer avec eux – soit en amont (pour appréhender par lui-même les problématiques d’analyses possibles en rapport avec son métier), soit en aval (pour appliquer les modèles conçus par les experts), soit les deux.

Dans le cas contraire, un manque d’explicabilité des modèles employés, des erreurs d’interprétation des résultats (comme de confondre une corrélation avec un lien de cause à effet) ou des prévisions erronées (comme de sous-estimer le taux d’incertitude) sont presque inévitables, et cela même si la promesse initiale des promoteurs de la citizen data science est une autonomie quasi-totale des métiers dans l’application du Machine Learning à leurs problématiques opérationnelles.

Marché et outils de la Citizen Data Science

Les outils qui veulent démocratiser la data science en l’automatisant de bout en bout – de la préparation des données, au choix des algorithmes à appliquer en fonction d’un type de question, en passant par la sélection des jeux de données (data sets) pertinents ou les jointures entre sources – sont donc aussi des outils de collaboration pour créer un dialogue constructif, pérenne et traçable entre ces deux profils.

Parmi les éditeurs qui proposent des solutions de ce type – aussi parfois appelées « automated machine learning » (ML automatisé) au « augmented machine learning » (ML augmentée à l’Intelligence Artificielle), on trouve entre autres noms : Alteryx, Data Robot, le français Dataiku ou encore Databricks.

Devenir un citizen data scientist, pas si simple

Sur le papier, et par définition, tout le monde peut devenir un citizen data scientist (« citizen » signifiant ici : « quidam »).

Dans les faits, il faut toutefois avoir quelques notions d’analytique et un bagage – même léger - en Intelligence Artificielle, en plus d’une expertise métier.

Être un citizen data scientist implique en effet de :

  1. Demander l'accès aux données les plus récentes et savoir évaluer leurs qualités.
  2. Apprendre à utiliser des logiciels métiers et les solutions analytiques (même si elles sont automatisées).
  3. Se familiariser avec les protocoles de sécurité et veiller à ne pas compromettre les données brutes ou les zones de stockage sécurisées.
  4. Travailler, comprendre et se faire comprendre des experts pour pérenniser les modèles qui donnent satisfaction.
  5. Avoir des notions de machine learning, d’analyse métiers (Business Analyst), de statistiques voire de code dans divers langages de programmation (R, Python) pour appréhender le tuning des modèles.

En résumé, le Citizen Data Scientist est à la Data Science ce que le Citizen Developer est au développement informatique : un utilisateur averti et éclairé, mais non expert, qui bénéficie de la démocratisation d’une discipline complexe grâce à l’automatisation que permet la technologie.

Cette définition a été mise à jour en juillet 2020

Pour approfondir sur Intelligence Artificielle et Data Science