kras99 - Fotolia
Big Data : de la solution technologique à la création de valeur, par Xebia
Le Big Data lève les barrières qui existaient jusqu’alors dans l’analyse fine des données. Reste encore à l’exploiter dans l’entreprise et à s’entourer des bons profils. Amine Benhenni, Chief Data Scientist chez Xebia fait le point sur la question.
On a vu ces dernières années fleurir les discours sur l’avalanche de données au sein de l’écosystème numérique. La révolution numérique a progressé par cascades successives, commençant entre autre par l’invention de l’information, le développement d’Internet, et l’essor des smartphones. Le cycle d’innovation continue et ne cesse de s'accélérer. Ainsi les technologiques Big Data contribuent elles aussi à l’émergence de nouveaux processus, usages et habitudes, avec un fort impact dans nos vies quotidiennes et professionnelles.
Il est difficile de ne pas être fasciné par l’ascension fulgurante de champions comme Amazon, Google, Netflix ou Uber, qui sont une belle démonstration des nouveaux modèles économiques portés par les solutions technologiques. Une analyse fine montre rapidement l’interconnexion entre l’innovation technologique et les usages qui ressortent en conséquence, avec un impact fort sur les processus de prise de décision, la redéfinition des profils, la redistribution des compétences, et par ricochet, la transformation profonde de l’organisation et de la hiérarchie au sein de l’entreprise.
Une exploitation bornée par la technologie
Initialement, les données étaient la chasse gardée de métiers clairement identifiés. Les services de business intelligence, de data mining, et certaines directions marketing ont pendant longtemps concentré les experts en charge de les exploiter. Cependant, les usages qui en sont traditionnellement faits sont fortement contraints par les limitations technologiques.
Les systèmes traditionnels les plus répandus au sein des SI reposent sur des cycles complexes, avec de nombreuses étapes entre la donnée brute et l’information exploitée par les unités décisionnelles. La donnée transactionnelle n’est pas directement exploitée, mais passe par différentes étapes de filtrage et d’agrégations avant d’atteindre les couches dédiées à l’analyse. De l’information est nécessairement perdue en route, sans compter que la valeur de certaines données décroît rapidement dans le temps.
Par nécessité, le travail d’analyse se fait uniquement sur des données froides, qui ne sont qu’une image du passé. Et l’information n’est exploitée principalement que sous la forme de rapports et de résumés. Dans les cas les plus avancés, des statisticiens peuvent développer des modèles pour du scoring ou pour faire ressortir des tendances, en extrapolant à partir du passé.
Les données sont une image des différents processus et événements qui rythment la vie de l’entreprise. Déployer un modèle statique revient à se reposer sur l’hypothèse forte que rien ne change ni n’évolue. Or, rien n’est moins vrai, et les cycles d’innovation sont devenus tellement courts qu’une start-up comme Uber, qui a été fondée en 2009, est déjà valorisée à 62 milliards de dollars, est présente dans 58 pays et 300 villes, et pense déjà à sa diversification en se lançant dans la livraison de nourriture.
Le véritable apport des Big Data
La révolution Big Data a levé ces contraintes en permettant l’ingestion de flux de données massifs, ainsi que leur stockage dans l’objectif d’une réutilisation rapide. Les plateformes Big Data sont conçues par les Data Architects de sorte à minimiser le temps de latence entre l’entrée de la donnée dans le système et son exploitation. Les solutions choisies sont une combinaison adaptée de différents outils permettant la gestion des flux et du stockage, ainsi que l’exécution d’opérations complexes de Data Engineering pour consolider la donnée, en assurer une circulation fluide au sein du SI, et une mise à disposition rapide pour les métiers.
"We don’t have better algorithms. We just have more data"
Cette citation de Peter Norvig, le directeur de la recherche de Google, capture le véritable intérêt des solutions Big Data. Avoir des données disponibles et fluides ouvrent des perspectives inédites, ainsi que de nombreuses avancées, notamment en machine learning, où les algorithmes prédictifs se nourrissent des données pour identifier des patterns représentatifs de l’écosystème de l’entreprise.
Une très forte majorité d’entre nous a certainement sa photo quelque part dans les serveurs de Facebook. Parmi celles-ci, un grand nombre de visages sont associés à des noms par l’action quotidienne des usagers, offrant ainsi au réseau social une base d’apprentissage à l’échelle de la planète, représentant la grande majorité des visages, et couvrant de nombreux cas possiblement pathologiques comme de mauvais éclairages ou des angles inhabituels. Cette connaissance a permis en 2014 à Facebook de revendiquer la capacité d’identifier les visages à un niveau quasiment équivalent à celui d’un être humain.
Adopter une démarche agile
Nous avons donc la combinaison gagnante : des algorithmes prédictifs au sein de systèmes d’informations fluides. Le dernier obstacle restant est de nature organisationnelle.
Le time-to-market des projets complexes au sein des entreprises traditionnelles suivent généralement des cycles complexes, avec différents intervenants qui ne parlent pas toujours le même langage, et n’ont pas toujours les mêmes besoins ni les mêmes objectifs.
Encore une fois, cette latence doit être éliminée en adoptant une démarche agile qui favorise l’expérimentation et la validation rapide des opportunités d’exploitation de la donnée.
Les nouveaux profils
Qui dit nouvelles technologies dit nouvelles compétences et profils associés.
Ainsi, le Data Architect se charge de définir et mettre en place l’infrastructure Big Data. Il travaillera conjointement avec le Data Engineer qui est garant de la fluidité des données dans le système ainsi que de leur qualité.
Le Data Scientist a, quant à lui, un rôle plus complexe à définir, car à cheval entre plusieurs métiers qui existent déjà, ce qui tend à créer beaucoup de confusion.
Nous nous contenterons d’insister sur le fait qu’un profil idéal aura la maîtrise technique sur la gestion des flux de données avec sa casquette de Data Engineer (pour se connecter à et manipuler les différentes sources de façon autonome), ce qui lui permettra de développer des modèles dynamiques qui exploite la donnée en flux tendu, avec des modèles prédictifs réactifs et adaptatifs.
Dans la mesure du possible, les modèles statistiques figés, construits sur les données du passé et ne disposant d’aucune capacité d’adaptation seront à proscrire. Bien évidemment, ils auront toujours leur place lorsqu’il n’y a pas d’alternative, mais ils ne doivent plus être le premier réflexe des experts en charge de l’exploitation de la donnée.
Ainsi, il faut passer d’une phase où les données étaient exploitées pour développer des modèles figés, à une phase où les modèles sont développés pour exploiter les données au fil de l’eau.
Par exemple, au lieu de générer un modèle qui calcule le score d'appétence de prospects vis-à-vis d’une campagne marketing, le Data Scientist construira un modèle d’analyse de similarité qui identifiera des profils convertis équivalents et fera les recommandations adéquates de façon automatique de sorte à optimiser les conversions. Le modèle personnalise les campagnes et minimise l’intervention humaine, libérant les ressources pour des tâches plus valorisantes que de la saisie de listes.
In fine, ce qui distingue le travail du Data Scientist, c’est autant la capacité à exploiter les nouvelles technologies Big Data, que la connaissance des outils d’exploitation à chaud des données.
Une exploitation optimale implique donc une évolution coordonnée entre la couche technologique, l’organisation, ainsi qu’une redéfinition des rôles, et une gestion adéquate de la montée en compétences des différents acteurs.
Suivre cette roadmap favorise la réussite de la transformation numérique data-driven. Elle permet également d’éviter de se retrouver avec un SI qui patauge dans les choix technologiques, et est décorrélé des métiers qui testent dans leur coin des modèles prédictifs qui ne sont jamais industrialisés.
Amine Benhenni est Chief Data Scientist chez Xebia France