DataScience.net : pour entretenir la flamme du collectif entre datascientists
Le site DataScience.net met les spécialistes du Big Data à la mode hackaton. Animation d'un écosystème, repérage de talents... sauf que pour ces experts juniors ou seniors, les défis s'étalent sur un mois ou plus.
Miser sur un ancrage local : tel est – à l'heure de l'essor sans frontière du Big Data – le paradoxe cultivé par les défis lancés sur le site datascience.net, à l'initiative de la société Bluestone et de quelques écoles, vivier de data scientists made in France. Explication d'Arnaud Laroche, associé fondateur de Bluestone et co-fondateur du site.
LeMagIT : Une dose de compétition, un zeste d'enjeux économiques : est-ce suffisant pour inciter les data scientists à « mettre leur talent au service des entreprises » comme le dit votre slogan ?
Arnaud Laroche : Depuis la préouverture du site, en novembre 2013, en beta test auprès des étudiants et chercheurs du Groupe des écoles nationales d'économie et de statistiques, Ensai et Ensae-Paristech, puis avec son lancement en mars 2014, nous avons pu vérifier que proposer des défis à cette communauté avait du sens. Sans faire de publicité, la cible s'est élargie rapidement à des data scientists, élèves ou anciens de grandes écoles scientifiques comme Polytechnique, Normale, les Mines ou Centrale, ou issus d'autres horizons comme le conseil ou la finance. Dont certains souhaitent ainsi s'exercer sur d'autres domaines que ceux fréquentés au quotidien dans leur métier. A ce jour, la plate-forme enregistre plus de 500 inscrits, avec des niveaux d'expérience très variables et reçoit pour chaque défi des centaines de contributions.
LeMagIT : Serait-ce la fertilisation croisée qui donne du sens à ce projet ?
Arnaud Laroche : L'objectif est de créer via cette plate-forme une communauté d'intérêt et de compétences qui se matérialise autrement que par des échanges entre matheux, avec en plus des enjeux business. La data science est une discipline récente. Les profils recherchés par les entreprises doivent associer une solide culture mathématique et la maîtrise de technologies, mais aussi une appétence aux sujets métiers. Afin de donner cette coloration métiers à l'animation de cette communauté, il nous faut jouer sur la proximité avec les donneurs d'ordre qui ont visiblement besoin d'un accompagnement dans leur démarche Big Data. C'est le parti-pris de datasciences.net : exercer une médiation de proximité. D'abord en assistant les entreprises dans la préparation des défis qu'elles soumettent. Puis en assurant le suivi des contributions proposées sur des bases objectives, avec la complicité du monde de la recherche. D'où l'importance là encore d'un ancrage local, afin de pouvoir s'appuyer sur des relations entretenues avec les laboratoires et la communauté académique.
LeMagIT : S'il y a des enjeux business, quelle en est la contrepartie pour les participants aux défis ?
Arnaud Laroche : D'abord les primes qui récompensent les meilleures réponses à tel ou tel problème de traitement de données et qui peuvent être conséquentes. Mais aussi la visibilité que les participants se donnent en tant que data scientists. Visibilité que certains recherchent, comme le confirment les discussions médiatisées par la plate-forme. Avec pour prolongement habituel de ce genre de compétition, un repérage des talents qui intéresse les entreprises.
LeMagIT : Y a-t-il un volet recrutement dans la médiation de datascience.net ?
Arnaud Laroche : Déjà cinq ou six recrutements se sont concrétisés indirectement autour des défis. Mais en effet, cela fait partie des services proposés qu'il reste à développer : accompagner le processus de recrutement des grandes entreprises et notamment la sélection des candidats dont on aura pu évaluer concrètement la qualité du travail. Ce sera aussi à terme une des sources de financement du projet qui, du consortium de départ entre BlueStone et le Genes, est en train de passer au mode start-up.
LeMagIT : Au delà du repérage des compétences, quel besoin et quel intérêt trouvent les entreprises à proposer des défis, financement à l'appui ?
Arnaud Laroche : Tout simplement, le besoin d'innovation. Chez BlueStone, en tant que cabinet de conseil opérant de longue date dans ce domaine, à la frontière entre recherche et application opérationnelle, l'on observe aujourd'hui que les entreprises considèrent les données non plus comme un sous-produit des applications de gestion mais bien comme un levier pour imaginer de nouveaux produits, de nouveaux processus, de nouveaux services. Autant dire des sujets d'innovation qui nécessitent la mise au point de modèles mathématiques pointus. Et donc des compétences elles aussi affûtées et particulièrement recherchées
LeMagIT : Maintenant que le marché du Big Data commence à se structurer, comment se déclinent plus précisément ces compétences ?
Arnaud Laroche : Deux tendances fortes se distinguent dans la structuration du marché quant aux profils des datascientists. Il y a ceux qui viennent du monde de l'informatique et du machine learning, qui savent utiliser des bibliothèques d'algorithmes, les intégrer et embarquer de l'intelligence artificielle dans des applications. D'autre part, ceux issus du monde des statistiques, de l'économétrie et du data mining, qui maîtrisent les sous-jacents scientifiques. Ces deux écoles, la première plutôt anglo-saxonne, la seconde plutôt franco-française, en sont encore à s'opposer dans leur approche de traitement des données. Entre la causalité que défendent les statisticiens, car on peut faire dire n'importe quoi aux algorithmes. Et la démarche de ceux qui soutiennent que, face au déluge numérique, il convient de renoncer à chercher des causes et plutôt identifier des corrélations. Avec le Big Data, les deux écoles sont appelées à se rejoindre. Plutôt qu'à des datascientists omniscients, l'avenir est à une organisation de coopération. C'est d'ailleurs la démarche mise en place par certains grands groupes comme Axa, avec un data innovation lab décliné en trois départements : le volet business afin de repérer les applications innovantes, le volet R&D qui regroupe statisticiens et concepteurs d'algorithmes, et le volet IT qui conçoit les applications et embarque l'intelligence artificielle. Sur ces trois volets, nos grandes écoles sont plutôt bien placées pour alimenter en compétences bien formées. Et qu'on nous envie.
LeMagIT : Compte tenu de cette différence de culture entre écoles anglo-saxonne et française, envisagez-vous donner une extension internationale à datascience.net ?
Arnaud Laroche : Pour l'instant, sur les quelque 500 inscrits, 90% sont français ou francophones. De plus, si nous mettons en avant l'ancrage local, contrairement à la plate-forme internationale Kaggle dont la médiation est totalement dématérialisée, c'est que nous avons observé que les grandes entreprises n'étaient pas prêtes à mettre sur la place publique des données et des défis sans un certain accompagnement. Adosser cet accompagnement à la possibilité d'échanger en direct avec la communauté scientifique est un atout incontestable. Sans compter qu'en France, avec le savoir-faire du Centre d'accès sécurisé aux données (CASD) du Genes (Groupe des écoles nationales d’économie et statistique), et avec ses moyens réservés jusqu'alors à la recherche, l'on peut proposer aux entreprises le contexte de confidentialité et de sécurité voulue autour des données sensibles. S'il y a extension internationale à notre projet, ce sera sur le même modèle, région par région, en misant sur la proximité avec les donneurs d'ordre et les relations établies avec le réseau académique.
LeMagIT : Doit-on voir dans cet ancrage local le souci de contrer une potentielle fuite des cerveaux ?
Arnaud Laroche : Une chose est sûre. Nous avons en France un formidable vivier de talents formés par nos écoles et universités. S'ils partent ailleurs, ils n'auront peut-être pas le même salaire ni la même culture d'entreprise. Pour autant, nous ne manquons pas d'atouts. Et l'on espère que cette plate-forme contribue à les mettre en avant auprès des grandes entreprises susceptibles de lancer des projets.
LeMagIT : Au delà du consortium d'origine, avez-vous l'intention d'ouvrir le projet à d'autres partenaires ?
Arnaud Laroche : Nous réfléchissons à la possibilité de partenariat avec d'autres écoles. C'est déjà le cas avec l'Institut Mines-Télécom, autour de laplateforme technique Teralab destinée à héberger des projets de recherche et d'expérimentation d'applications Big Data. Tout cela s'inscrit dans le foisonnement actuel suscité par le Big Data. A la fois dans les grandes entreprises, du côté des start-up, mais aussi du financement officiel et de l'animation des pôles de compétitivité. Il semble que tout le monde a compris que pour innover par la data, il faut jouer la carte du rapprochement entre business et recherche. On le voit notamment avec la création de chaires Big Data ou de cursus spécialisés, notamment à HEC, l'Ensae, l'Ensai, l'Ensimag, l'Essec, Centrale Paris ou l'Institut Mines-Télécom.
LeMagIT : Quelle est la prochaine étape pour datascience.net ?
Arnaud Laroche : Plusieurs développements. D'abord l'élargissement du périmètre fonctionnel de la plate-forme qui pourra s'étendre à des challenges dont l'objectif ne sera pas tant de générer des modèles mais plutôt des algorithmes qui permettent de faire tourner des modèles compliqués en des temps réduits. Ou encore des challenges axés sur la visualisation des données. Ensuite le volet aide au recrutement. Enfin et surtout l'adossement du travail communautaire à une logique d'open innovation. L'idée est de s'appuyer sur des méthodes scientifiques et la combinaison de modèles, en mesurant la contribution de chacun, pour constituer des meta-modèles qui pourraient être vendus et dont les revenus pourraient être partagés. Plus qu'un mode de crowdsourcing, il y a là une vraie ambition de transformation de modèle économique, qui ne se limiterait pas à faire travailler ensemble des experts mais aussi de partager les revenus sur des bases scientifiques.