Fotolia
Qu’est-ce que le DataOps (Data Operations) ?
Selon Gartner, le DataOps doit réconcilier les opérateurs avec les consommateurs des données pour favoriser l’exploitation de l’analytique dans toute l’entreprise. Quelles sont les différences avec le DevOps ?
Alors que l’approche DevOps (la contraction de développement et opérations) commence à se démocratiser en entreprise, de nouveaux termes contenant la terminaison « Ops » font leur apparition. Après le « NoOps » qui consiste à éliminer le personnel d’exploitation IT (les équipes DevOps, donc) par l’automatisation, place au DataOps. Késako ?
Selon une définition du cabinet, le DataOps est « une pratique collaborative de gestion de données consacrée à l’amélioration de la communication, de l’intégration et l’automatisation des flux de données à travers une entreprise ».
Très inspiré des pratiques Agile DevOps, le DataOps vise à « créer de la valeur plus rapidement et une meilleure gestion des changements de données, des data model et des artefacts associés », précise le Gartner.
« Le DataOps permet d’aligner les processus d’une entreprise et les techiciens, les opérateurs, afin de facilement délivrer des données sécurisées pour ceux qui en ont besoin, des consommateurs », déclare Eric Bischoff, directeur France de Delphix, un éditeur engagé dans ce mouvement.
« Aujourd’hui, d’un côté nous avons les Ops, ceux qui gèrent les bases de données, la sécurité, la confidentialité, les infrastructures. Toutes ces personnes-là contrôlent la donnée. Ce sont eux qui décident de la mettre à un endroit ou un autre. De l’autre côté, il y a ceux qui ont besoin de la donnée : les développeurs, les data analysts, data scientists, les métiers ».
Ne pas confondre DataOps et Data Ops
Attention à ne pas confondre DataOps, qui est le fameux mouvement de réconciliation des opérateurs et des métiers de la donnée, avec Data Ops.
Selon Gartner, ce deuxième terme correspond à un « hub pour la collecte et de la distribution des données ».
Il doit fournir « un accès contrôlé aux systèmes d’enregistrement des données sur la clientèle et le rendement du marketing ».
Il assure également « la confidentialité, les restrictions d’utilisation et l’intégrité des données ».
Entre les deux groupes de personnes, il y a des frictions, selon Eric Bischoff. « À chaque fois qu’un consommateur de données souhaite avoir un rafraîchissement d’environnement de données, cela prend du temps, parfois jusqu’à trois semaines chez certains clients », estime-t-il.
La pratique du DataOps dont Delphix se revendique « permet de réconcilier les personnes qui contrôlent la donnée, les opérateurs et de donner l’agilité à ceux qui doivent la consommer », considère Eric Bischoff.
Le but est évidemment d’augmenter les rendements des traitements de données (passer au temps réel, améliorer la qualité des données, casser les silos, adopter le machine learning, entre autres) afin d’en tirer des indicateurs décisifs pour l’activité d’une organisation.
Une chaîne d’outillage complexe
Pour les responsables SI, il s’agit donc de mettre en place une chaîne d’outils complète (dite « de bout en bout ») qui permet de gérer la sauvegarde, la sécurisation, le rafraîchissement (ou versioning), la préparation et l’analyse des données afin d’optimiser leur utilisation en libre-service.
Le mouvement DataOps consiste donc en la combinaison de diverses techniques et technologies dont l’exploration (métadonnées, Data classification, Data Lineage), l’extraction, la transformation et le chargement de données (ETL), la virtualisation, la mesure de la qualité des données, leur gouvernance, le contrôle des accès ou encore la planification d’espaces de stockage alloués dans un datacenter. Il n’y aurait pas un outil DataOps à proprement parler, mais un ensemble de logiciels et de systèmes à déployer.
Il faut également suivre l’état de santé des systèmes de fichiers, des SGBD SQL et NoSQL (MongoDB, PostgreSQL, MySQL, Cassandra, etc.) des environnements de stockage comme les data lake et data warehouse (S3, Hive, Hadoop, Snowflake…), des technologies de messaging (Kafka) et de calcul distribué (Spark), des containers (Kubernetes, Docker), des langages (Python, R, Scala, etc.) ou encore des environnements et des outils de développement (Dataiku, AI Platform, TensorFlow, Jupyter, Visual Studio, Git, MLFlow, etc.).
Pour cela, il conviendrait non seulement d’utiliser des outils de monitoring comme Kibana ou Datadog, de DevOps comme Jenkins, mais également adopter une approche « Lean et Agile ». Celle-ci est définie spécifiquement par le DataOps Manifesto en 18 points. Elle dépend surtout du contrôle statistique des processus (SPC). Cette discipline consiste à la systématisation des tests pour vérifier la consistance des pipelines analytiques et augmenter continuellement la qualité des données.
Au-delà des machines, des logiciels à mettre en place, l’approche DataOps implique donc un changement de culture d’entreprise profond.
DevOps vs DataOps : les différences
Selon Saagie, une startup française qui propose un orchestrateur DataOps, cette pratique a des points communs avec l’approche DevOps. L’automatisation (CI/CD), les tests unitaires, la gestion d’environnements, de version et le monitoring en font partie. Seulement, l’éditeur identifie des particularités liées à la data science.
Les voici : le maintien du flux (ou pipeline) de données, « la reproductibilité des résultats », le « monitoring des performances » d’un modèle statistique ou de machine learning et la « mise à disposition et l’exposition de modèles » pour les utilisateurs finaux.
Selon Bilel Belaid, consultant Big Data et Dr Ahmed Gater, Practice Manager, chez Experis IT, la filiale de recrutement IT du goupe ManPower, le DataOps vient répondre « aux spécificités des projets Data Analytics », qui sont la gestion du code et des données sur l’ensemble de la chaîne analytique, l’automatisation de la création d’un environnement de travail et le rassemblement de plusieurs techniciens et métiers qui utilisent différentes briques technologiques.
Une dimension commerciale à ne pas omettre
Si les deux éditeurs Delphix et Saagie ne prétendent pas proposer l’ensemble des outils de la chaîne DataOps, leur communication appuie sur le fait que leur plateforme aide à couvrir les besoins des opérateurs et des consommateurs de bout en bout.
Delphix propose la plateforme Data Dynamic qui faciliterait l’automatisation du backup, de la virtualisation, du masking (l’anonymisation), et de la gestion des environnements de développement de data science. L’éditeur prône l’approche DataOps depuis au moins 2017 et assure que sa solution accélère le développement des applications. « Là où dans certains systèmes l’exposition de données préparées pour les métiers prend 24 heures, nous pouvons le faire en 15 minutes » vante Eric Bischoff.
Toutefois, l’éditeur qui revendique 350 clients dans le monde a dû se faire connaître auprès de Gartner pour se faire correctement identifier.
« Delphix a participé à la conception de la définition de DataOps proposé par le Gartner. Le marché n’était pas identifié par le cabinet de conseil. Delphix était considéré comme un acteur du marché du stockage alors que ce n’était pas vrai », affirme le directeur France de Delphix.
Cela ne veut pas dire que certains éditeurs, qui ne se revendiquent pas de l’approche DevOps, ne sont pas déjà en fait des partisans du DataOps sans utiliser la terminologie.
Les deux consultants d’Experis IT identifient des outils spécifiques aux DataOps comme Dataiku, DataKitchen ou Delphix, mais observent des spécialistes du DevOps faire évoluer leurs outils pour couvrir les besoins de la gestion des infrastructures de data science. C’est également dans cette direction que les géants du cloud comme AWS et Microsoft vont en proposant des produits de plus en plus intégrés. Notons l’exemple d’AWS SageMaker Studio qui fournit un environnement se voulant le plus complet possible pour les concepteurs de projets de data science.