Entreprises : soyez Data Centric
Une nouvelle décennie s’ouvre à nous, augurant d’une nouvelle ère pour le big data. La data se trouve au centre des défis et des enjeux à relever pour les entreprises : anticiper les grandes tendances, créer de nouveaux produits, services ou de nouvelles expériences, prendre des décisions stratégiques éclairées, tout en améliorant la productivité.
La data doit s’envisager comme un produit dont il faut exploiter tout le potentiel. En effet, dans un contexte technologique très innovant, qui peut parfois faire oublier le rôle clef de la donnée, seule une approche « Data-as-a-Service » voire « Data-as-a-Product » peut exploiter le plein potentiel de la donnée.
Les entreprises sont plus que jamais en mesure d’exploiter les solutions d’IA en les alimentant en données. L’ensemble des directions Métier est impacté, tous secteurs confondus. En effet, lorsque les questions de sécurité et de conformité sont sous contrôle, les offres « data » des trois hyperscalers – AWS, AZURE, GCP – facilitent un traitement agile de la data. En outre, ces solutions sont déployables rapidement, évolutives et simples à administrer.
Le machine learning et les solutions « New BI » (Modern Analytics) permettent de créer des solutions adaptées à chaque enjeu Métier. Toutefois, pour tirer pleinement parti des données et en faire un atout stratégique, il faut adopter une vision ambitieuse qui repose sur trois grands piliers Data : fondation, métier et gouvernance. Il s’agit de déployer une solution intégrée qui soit alignée avec les nouveaux paradigmes d’architecture et d’opérations (un nouveau paysage de la data et de nouvelles pratiques IT). Cette nouvelle approche permet de s’emparer avec succès des enjeux digitaux de l’entreprise qui peut alors développer une nouvelle intelligence et de nouveaux modèles opérationnels & business.
Datalake n’est pas synonyme de Hadoop
Le framework Hadoop a bien entendu un rôle à jouer dans une architecture de datalake en facilitant le stockage objet (HDFS – Hadoop Distributed File System – semble menacé) et le chargement des données.
Cependant, il ne représente pas la meilleure solution pour créer des applications « data centric » interactives. Pour celles-ci, il est préférable de mettre en place des « datamarts », extraits simplifiés des données de l’entreprise à même de satisfaire le métier et stockés dans la technologie la plus adaptée, base graphe, colonne, document, clé valeur, relationnelle…, auxquelles les suites logicielles « modern analytics » telles que PowerBI, Tableau ou Qlik accéderont.
La plateforme centralisée Kafka, est devenue incontournable dans la gestion de flux de données temps réel. Les applications décisionnelles ou les modèles IA peuvent se connecter aux flux de données gérées par Kafka pour en faire un vecteur d’accélération de la prise de décision.
Data governance : casser les silos
Pour tirer parti des données de l’entreprise, il est tout d’abord crucial de connaître ses données. Pour cela, il faut disposer d’un catalogue de données, élément indispensable à leur gouvernance. Trop souvent sous-estimés, ils représentent pourtant un des facteurs clés de réussite des projets data. Les catalogues modernes utilisent l’IA pour comprendre les données, que ce soit du point de vue technique que du point de vue métier. Pour être intelligentes, ces données sont exposées aux besoins des différents utilisateurs métiers, sous forme d’APIs (microservices et maillage de services) qui vont les encapsuler. Elles doivent pouvoir fournir le niveau d’abstraction nécessaire pour en tirer profit, et ce notamment au travers de solutions de virtualisation de la donnée. La « data centric entreprise » et l’économie des APis se rejoignent.
Data for Business : DataOps pour une AI de production
Les data scientists sont des ressources trop rares. Ils ne peuvent passer la majeure partie de leur temps à acquérir, nettoyer, et traiter les données pour ensuite concevoir et tester le modèle IA le plus efficace qui sera intégré dans les applications. Pour permettre aux data scientists de se concentrer sur leur mission à savoir créer des modèles apportant de la valeur à l’entreprise, il est donc indispensable de disposer d’un « workflow » industriel allant de la « data » à « l’insight ». Les architectures basées sur les containers orchestrés par Kubernetes jouant un rôle de plus en plus central, on s’intéresse aux solutions de DataOps telles que Airflow, Argo ou Kubeflow, ou bien, si on préfère une solution très intégrée, à la plateforme data de la startup française Forepaas.
La data doit s’envisager comme un produit
Paradoxalement, les innovations technologiques permanentes ont tendance à nous faire perdre de vue l’essentiel : la donnée. Il est grand temps de traiter la donnée comme un « produit ». Dans cette perspective, le rôle des architectes données est d’offrir aux métiers ce produit qui est géré et maintenu dans la durée. En effet, une donnée, préparée, nettoyée, dont on comprend la « lignée » et les caractéristiques techniques, sémantiques, et qui est exposée et stockée dans la base de données la mieux adaptée lui confère une valeur précieuse. Et si nous développions le nouveau métier de « Data Product manager » ?!