Big Data : bienvenue dans l’ère des plateformes pour industrialiser la data science
Parce que le démarrage de projets est fastidieux et que le RoI n'est pas souvent présent, des sociétés développent des plateformes dont l’ambition est de pré-intégrer technologie et usages pour industrialiser les projets. Saagie et ForePaas, rencontrées au salon Big Data Paris, en sont l’exemple.
Il est un constat sur le marché français du Big Data : les entreprises cherchent à améliorer leur métier avec la data science et plus globalement avec une gestion avancée de leurs données, nous avait expliqué Olivier Rafal, vice-président Digital Business Innovations chez Pierre Audoin Consultants, à l’occasion de la conférence Big Data Paris. L’heure n’est donc plus au PoC : temps est venu d’industrialiser et accélérer la data science et plus globalement des usages tirés des données. C’est bien l’objectif de ForePaas et Saagie, deux sociétés rencontrées lors de ce même événement parisien, qui a eu lieu début mars. Leur concept : proposer une plateforme intégrée, avec laquelle les entreprises pourront rapidement donner la parole à leurs données - et leur lacs de données - , mais sans avoir à subir la longue et difficile configuration de la pile applicative nécessaire à une bonne gestion et utilisation des données. Leur plateforme entend exposer rapidement des informations raffinées et prêtes à l’emploi auprès des métiers et de leurs applicatifs, pour donner des précieux indicateurs, certes, mais aussi pour accélérer le RoI des projets liés à la data science.
Il faut dire qu’en 2017 les entreprises françaises ont compris qu’une utilisation avertie des données, tant structurées et internes, et non structurées et externes, avait la capacité « d’augmenter » leurs processus et leur métier. L’année dernière, le marché des services de Big Data (ce qui comprend à la fois les services d’intégration, le conseil et la gestion d’applications) a pesé plus de 1,3 Md d’euros en France, selon les chiffres de PAC. En 2018, ce segment devrait atteindre 1,9 Mds d’euros pour un marché des services IT global de 34 milliards d’euros. Mieux : le taux de croissance moyen annuel atteindra …31,7% entre 2018 et 2022, toujours selon PAC. Les entreprises sont bien à la recherche de prestations (conseils et intégration), capables de les épauler dans ces projets de Big Data toujours complexes.
Pré-câbler pour accélérer
Toutefois « il est aujourd’hui difficile d’empiler les couches, l’intégration, les bases de données, et l’ensemble de l’outillage, commente Paul Sinaï, le CEO de ForePaas. Tout est éclaté dans différents systèmes. Il s’agit de changer la façon dont sont initiés les projets de données pour les rentabiliser ». En permettant aux entreprises de passer rapidement à une phase d’industrialisation, elles évitent alors celle du traditionnel PoC, peu propice au calcul de RoI.
Ces plateformes, Cloud ou pas, orchestrent non seulement l’ensemble des processus, en prémâchant les différentes technologies, mais permettent aussi de classer et trier les données afin d’y apporter une valeur qui jusqu’alors était difficile à déterminer. Saagie a par exemple construit sa plateforme sur l’intégration des socles Open Source qui peuplent l’essentiel des piles Big Data. Spark, Scala, MongoDB, Elastic, Sqoop, MySQL, Impala, Hive, Drills y sont listés et mis à disposition par le biais d’API pour qui veut les consommer sous la forme de service. Dans le Big Data, « il y a aujourd’hui un problème de technologies qui évoluent et donc un problème d’intégration de ces mêmes technologies », explique Jérôme Trédan, CEO de Saagie. « Cela débouche inévitablement sur des problèmes de cas d’usage. »
« Notre concurrent principal est le Do-It-Yourself, les systèmes que les clients développent par eux-mêmes », ajoute-t-il.
Pour Paul Sinaï, l’époque des data lakes laissés en jachère dans les entreprises ne doit plus être. « Les projets doivent se constituer en fonction de l’usage que l’on en a » - et pas l’inverse : laisser les DSI créés des data lakes et attendre des métiers l’émergence de cas d’usage. Il est ainsi nécessaire d’avoir des outils qui permettent une utilisation rapide et immédiate, et qui parlent aux métiers, « Avec ces outils, on leur cache cette complexité inhérente », réagit à son tour Jérôme Trédan.
D’autant que le data scientist trouve peu à peu sa place dans les entreprises. « Des data scientists commencent à intégrer les équipes métier », soutient Paul Sinaï. Une plateforme leur donne la possibilité de réaliser rapidement des prototypes en étant plus proche l’expertise métier. « La valeur est ainsi comprise immédiatement dans l’équipe. »
La plateforme multi-Cloud (Azure, AWS et Google) de Saagie permet en gros de regrouper logiquement les données de l’entreprise, quelles qu’en soient les sources. Une fois ces données classées automatiquement, l’utilisateur peut créer des « data pipelines » et chaîner différents processus pour répondre à son besoin. Dans une démonstration, un processus d’import était associé à un autre de nettoyage des données, et de prédictif sur du churn (un cas d’usage qui est souvent revenu à travers ces plateformes). Des algorithmes y ont été pré-intégrés pour répondre aux cas d’usage de data science les plus courants, comme la prévision des prix et des ventes, le parcours client, l’automatisation des processus et la détection de fraudes. Pour les autres plus spécifiques, Saagie s’en remet à des partenaires.
ForePaas est aussi une fusée à plusieurs étages. Bâtie sur une infrastructure en containers, la plateforme propose une approche multi-Cloud (elle peut être placée sur AWS, Azure et OVH) pour « pouvoir aussi migrer sur site ». Elle renferme des fonctions d’ETL, de data warehouse, de data lake, de Query Builder, de Machine Learning et propose aussi des notebooks. Au-dessus de cela, des outils de visualisation permettent de créer des tableaux de bord. Puis une couche centrée sur la sécurité de la plateforme gère les droits d’accès et se connecte directement au SSO des entreprises. Enfin, la solution propose logiquement une console d’administration. ForePaas compare sa plateforme à « une usine à données » que l’on peut déployer sur le Cloud de son choix. Mais elle ne propose pas de modèles de Machine Learning pré-intégrés. ForePaas se repose pour cela sur ses partenaires.
Le Cloud comme base, mais pas que
Si Saagie et ForePaas mettent en avant leur approche très centrée sur le Cloud( et le multi-Cloud), les deux sociétés misent aussi sur l’hybridation de leur système. Saagie comme ForePaas proposent en effet une appliance prêt à l’emploi qui se greffe sur site aux systèmes en place dans l’entreprise et favorise la migration et/ou le rapatriement des données. Saagie s’est ainsi adossé à un hardware HPE à base de Moonshot. ForePaas de son côté a misé sur les appliances hyperconvergées Hyperflex de Cisco. Une approche qui permet aussi de trouver des clients dans les domaines très critiques de la banque et de l’assurance.