Sergey Nivens - Fotolia
Data scientist : la demande reste très forte, mais évolue rapidement
Avec la montée en puissance de l’analytique, puis du machine learning et de l’intelligence artificielle (NLP, computer vision, ou Deep Learning) le data scientist occupe désormais un poste clé. Toutefois, trouver du personnel qualifié reste très compliqué. Les entreprises et les éditeurs contournent le problème à leur manière.
Dans un article publié en janvier 2019 par SearchBusinessAnalytics (propriété de Techtarget tout comme LeMagIT), Brandon Purcell, analyste chez Forrester Research, considérait que la demande en data scientists ne ferait que croître tant que les entreprises voudront exploiter des indicateurs basés sur la donnée.
« Les data scientists sont essentiels pour transformer en action la quantité massive de données collectées par les entreprises. Ils ont toujours été très demandés, mais jusqu’à récemment seuls les grands groupes et les sociétés “digital natives” étaient prêts à faire cet investissement important. Maintenant, presque tout le monde l’est », déclarait-il alors.
« Recherche désespérément data scientist »
Au début de l’année dernière, les rapports et les études de LinkedIn et d’Indeed mettaient en lumière l’intérêt croissant des employeurs pour ce métier, contrebalancé par un fort manque de talents disponibles. En août 2018, LinkedIn signalait qu’il y avait une pénurie nationale aux États-Unis de plus de 150 000 personnes ayant des compétences en data science.
Cette tendance semble s’être confirmée au cours de l’année 2019. Dans une étude publiée par Indeed en décembre de l’année dernière, la plateforme de recrutement a classé les titres de postes les plus réclamés entre janvier 2018 et octobre 2019 dans la Silicon Valley. Résultat, le Data Scientist arrive huitième de ce baromètre alors qu’il n’était pas mentionné dans la version 2018 de ce document.
De son côté, LinkedIn a publié le premier rapport sur les métiers les plus recherchés en 2020 en France. Le Data Scientist s’inscrit à la dixième place de ce palmarès.
Toujours en France, la plateforme de freelancing Malt a réalisé une étude nommée Malt Tech Trends 2019. Malt observe que les PME sont en priorité à la recherche de développeur Back-End, Front-End et mobile. Les grands groupes français, eux, souhaitent embaucher des data scientists. Ils apparaissent en troisième position des compétences demandées.
Or, seulement 5,46 % des programmeurs et ingénieurs indépendants mentionnent le terme « Data Scientist » dans leur profil. Il y aurait donc un écart très important entre l’offre et la demande. L’on pourrait fortement pondérer cette observation en supposant que les data scientists sont probablement engagés en CDI plutôt qu’en tant que freelance. « Les marchés des travailleurs indépendants et du recrutement interne sont globalement les mêmes. […] les grands groupes français ont tendance à externaliser », estime Hugo Lassiege, CTO de Malt.
Python, le b.a.-ba de la data science ?
Selon le rapport de LinkedIn sur les métiers les plus recherchés, le Data scientist doit avoir des connaissances en machine learning et en data science (CQFD), donc maîtriser Python, R et Apache Spark.
Dans son Tech Skills Explorer publié à la fin de l’année 2019, Indeed estime que la popularité de Python a explosé en cinq ans (2014-2019) chez les recruteurs utilisant ses services. Le nombre d’annonces mentionnant le langage bénéficierait d’une croissance de 123 % (12 % entre 2018 et 2019) aux États-Unis. Indeed pondère ses observations en remarquant que Python n’est pas « strictement » un outil de data science, contrairement à Hadoop et Spark qui sont des savoirs très recherchés par les recruteurs. Par ailleurs, la mention de R dans les annonces a doublé depuis 2014.
En analysant 303 000 requêtes mensuelles des entreprises sur trois mois en 2019, Malt trouve que Python arrive en cinquième position des compétences les plus réclamées dans le cadre de mission externalisée. Les demandes concernant les langages scikit-learn, Matlab et Haskell seraient en croissance d’environ 24 % par rapport à 2018. Malt a également analysé les compétences des freelances, plus de 33 000 personnes enregistrées sur la plateforme. Parmi les « experts tech & data », Python est la sixième aptitude la plus répandue à côté de JavaScript, MySQL, PHP, Git, et HTML.
Du côté de l’open source
Dans son Octoverse 2019 publié, Github mesure près de 10 000 contributeurs à Tensorflow et estime que Python a détrôné Java cette année. La popularité de scipy, scikit-learn et des notebooks Junyper sont notables dans les projets de data science partagés sur les dépôts Github.
Les entreprises commencent à comprendre le rôle du data scientist
La connaissance de ces langages et de ces frameworks n’est pas réservée aux Data scientists. Brandon Purcell, analyste chez Forrester Research, expliquait que les entreprises sont parfois à la recherche du Data scientist « Shiva ». Ils combineraient les talents du data engineer, du spécialiste du ML et du cadre commercial. Toutefois, il jugeait il y a un an que « c’est la mauvaise approche parce que ces gens n’existent pas ».
« Cherchez l’expert en machine learning qui peut utiliser R, Python ou SAS et comprendre quels algorithmes appliquer à différentes situations. Ensuite, associez cette personne aux deux autres, que vous avez déjà en interne », préconisait-il alors.
En réalité, le Data Scientist collabore en premier lieu avec l’ingénieur data, dont la mission est de nettoyer, de rendre utilisables et disponibles les données en gérant les flux. « Nous observons une plus grande segmentation des métiers de la data. Désormais, les entreprises commencent à mieux comprendre le rôle du Data Engineer » perçoit Hugo Lassiege.
Selon Christophe Heng, Cloud Practice Manager chez Umanis, une ESN spécialisée dans la BI et l’analytique, « nous avons déjà vu une scission entre les ingénieurs data, les data analysts et les data scientists ».
Christophe HengCloud Practice Manager, Umanis
L’ingénieur en machine learning, le « chaînon manquant »
Hugo Lassiege estime qu’il y a « une méconnaissance des métiers et l’expertise technique pour les exercer. Un Data scientist ne réfléchira pas forcément performance, API, production, etc. ». Le CTO de Malt considère qu’il faut penser à la manière dont ces métiers interagissent, quitte à en créer de nouveaux.
« Beaucoup d’entreprises ont les mêmes problématiques avec leurs données. Elles ont des data scientists qui font des choses très intéressantes, mais entre concevoir un modèle de machine learning et l’exploiter dans une application, il y a un fossé. Les ingénieurs data ne sont pas forcément capables d’industrialiser les pipelines ML, d’où l’émergence du machine learning engineer. C’est le chaînon manquant entre le développeur et le data scientist », ajoute-t-il.
« Tout le monde veut faire de la data science, mais il y a très peu de vrais data scientists. Il y a beaucoup de personnes qui ont un master en data science. Ce sont eux les ingénieurs qui ont appris à utiliser des outils ML plutôt que d’en comprendre les fondements et de faire eux-mêmes leurs propres algorithmes », estime Christophe Heng. « Ils sont là pour répondre à la rareté des data engineers qui ne sont pas assez nombreux pour mettre les données à disposition des data scientists ».
Dans ce cadre, les ingénieurs en machine learning seraient amenés à industrialiser l’utilisation et la gestion des modèles algorithmiques en production. « Je ne suis pas surpris de la popularité de solutions comme Dataiku ou H20, il y a une volonté de simplification des pipelines ML », assure de son côté Hugo Lassiege.
Hugo LassiegeCTO, Malt
Cette quête de simplification, les éditeurs de plateformes d’analytique et de machine learning l’ont bien compris. Databricks, Dataiku, ou bien AWS proposent des solutions de gestion de pipelines ML de bout en bout couplées avec des outils DevOps, de suivi de performance ou de corrélation afin de fluidifier le parcours de transformation des données brutes en indicateurs. Certains de ces logiciels ou frameworks disposent de fonctions AutoML dans le but d’automatiser le déploiement d’un pipeline ou encore vérifier les erreurs dans le code.
Mais cela n’aurait pas pour l’instant de véritables incidences sur la qualité des projets. « Je pense qu’il y a encore beaucoup de projets data qui sont un peu bancals, mais l’attraction est assez importante », juge Hugo Lassiege.
Des salaires élevés
Aux États-Unis, Indeed estimait en décembre 2019 le salaire moyen du data scientist à 50 000 euros annuels en Île-de-France, et à plus de 100 000 dollars par an dans la Silicon Valley. Les ingénieurs de la donnée sont sensiblement logés à la même enseigne (50 000 euros par an en île de France, 120 000 dollars dans la Silicon Valley), tandis que l’ingénieur en machine learning peut gagner jusqu’à 170 000 dollars par an. Évidemment, une comparaison brute n’a qu’une pure valeur indicative, puisque les entreprises ne sont pas imposées de la même manière et que le marché de l’emploi entre ces deux régions et pays est différent.
Le citizen data scientist : des utilisateurs métiers augmentés
La plupart des entreprises n’ont pas les ressources humaines, les moyens ou les infrastructures nécessaires pour monter une équipe en data science. Une nouvelle population apparaît alors : le « citizen data scientist ». Cette tendance était déjà notable à la fin de l’année 2018 et semble s’être renforcée en 2019. Ces personnes issues des métiers utilisent des analyses diagnostiques avancées ou des capacités prédictives et prescriptives sans connaissance en data science et sans le support de l’IT, selon Gartner. Le cabinet d’études estime que 40 % des tâches liées à cette pratique seront automatisées en 2020.
Hugo LassiegeCTO, Malt
Les éditeurs du monde de la BI surfent sur cette tendance en proposant aux entreprises des solutions dites d’analytique augmentée. Celles-ci doivent permettre l’automatisation de la préparation de données, de faciliter la visualisation des résultats, et même déployer des modèles algorithmes préconstruits à appliquer aisément. Tableau, Qlik, SAP, Salesforce ou encore Microsoft avec Power BI suivent de près de cette tendance. Des acteurs un peu plus spécialisés comme Alteryx et DataRobot vantent les bénéfices de leurs outils de machine learning automatisés.
Selon le Tech Skills Explorer d’Indeed, la popularité de Tableau dans les organisations n’a cessé de croître entre 2014 et 2019. Ce serait la quatrième « compétence » réclamée par les recruteurs après Spark, R et Hadoop. Notons tout de même que Tableau est de plus en plus utilisé en entreprise par différents métiers. La société rachetée par Salesforce revendique 100 000 clients.
Mais l’avènement du data scientist lambda s’avère pour l’instant difficilement mesurable. Par ailleurs, ce poste encore un peu flou fait émerger des problématiques de gouvernance, d’explicabilité des données et de propriétés intellectuelles. Ces notions devront être au cœur des stratégies data mises en place par les entreprises.