Melpomene - Fotolia

Data Fabric : les six éditeurs recommandés par les analystes

Les entreprises qui souhaitent adopter une architecture data fabric devraient examiner comment six éditeurs de premier plan mobilisent leur suite d’outils afin d’orchestrer une gamme de capacités de gestion de données, d’automatisation et d’IA pour faire prendre vie à ce concept.

Pour construire un data fabric (ou un tissu de données en français), une entreprise a besoin de plusieurs outils et produits. Les éditeurs de gestion des données proposent différentes combinaisons pour prendre en charge ce type d’architecture. Celle-ci doit inévitablement s’intégrer aux plateformes de gestion de données, à la couche de gouvernance, ainsi qu’aux systèmes d’IA et de machine learning.

Un data fabric correspond davantage à un concept architectural qu’à un seul et même produit. Il vise à créer une couche de virtualisation de données à l’échelle d’une entreprise. Il peut aider à réduire les silos de données, à simplifier l’accès aux applications par les utilisateurs, et à faciliter la réutilisation des jeux de données.

Une telle architecture repose sur la combinaison d’outils d’ingestion de données, de virtualisation, de gouvernance, et de sécurité. (Une infrastructure cloud peut également aider.)

Ces derniers contribuent à l’intégration, à l’ontologie et à la sémantique, à la qualité des données et à leur transformation. Les outils nommés cités ci-dessus prennent en charge une partie ou la totalité de ces capacités.

Voilà pour les fondations. Des technologies comme les graphes de connaissances (Knowledge graph) gagnent également en popularité pour la « découvrabilité » et l’orchestration des données au sein d’un data fabric.

Les knowledge graphs utilisent des relations sémantiques pour rechercher et interroger les données tout en prenant en compte l’historique de leurs modifications.

L’approche Data Mesh est une alternative au data fabric. Elle se concentre sur la production et le partage de produits de données, tandis que le fameux « tissu » vise principalement à accéder aux infrastructures de données. Les deux notions sont souvent confondues ou hybridées. 

Les principales fonctionnalités d’un data fabric

Les moteurs d’analyse et de recommandation en temps réel permettent aux entreprises d’extraire avec précision des indicateurs de leurs données. Ces fonctionnalités améliorent également les actions humaines en fournissant des recommandations et des informations.

Les capacités d’IA/de machine learning aident à extraire des informations à partir de vastes quantités d’ensembles de données structurées et non structurées.

La mise à l’échelle aide les entreprises à faire face à l’augmentation des volumes de données.

La gestion des données est essentielle pour organiser les data sets et les mettre à la disposition des utilisateurs. Les processus clés comprennent l’indexation, la recherche et l’interrogation.

La sécurité et la confidentialité sont primordiales pour les organisations qui traitent des informations sensibles. Les outils de Data Fabric doivent offrir de solides protocoles de sécurité afin de protéger les données sensibles contre tout accès non autorisé.

Les défis à relever

La mise en œuvre d’un tissu de données fonctionnel et économiquement efficient présente plusieurs défis. Les décideurs doivent prendre en compte tous les problèmes potentiels que peuvent poser des outils spécifiques, afin de pouvoir poser les bonnes questions aux responsables techniques et à leurs fournisseurs au cours du processus de décision. Les principaux défis à prendre en compte sont les suivants :

  • Les défis d’intégration. Intégrer des données en provenance de diverses sources et plateformes peut s’avérer complexe, en particulier lorsqu’il s’agit de gérer différents formats ou structures.
  • Complexité. La mise en place d’une telle architecture et sa gestion requièrent une grande expertise et les ressources adéquates. C’est d’autant plus difficile pour les entreprises dont les compétences IT et « Data » sont limitées.
  • Sécurité des données. Alors qu’il est bien question d’éventrer les silos de données, les entreprises doivent garantir que les données restent protégées contre les accès non autorisés et les menaces, au nom de leur intégrité économique et de marque.
  • Outils existants. Les organisations peuvent rencontrer des difficultés à intégrer une structure de données avec les outils et plateformes de gestion de données actuels, ce qui pourrait limiter l’efficacité globale de la structure.

Six éditeurs de solutions data fabric

Voici les six outils et services de data fabric à prendre en considération, d’après des recherches menées par des sources telles qu’Everest Group, Forrester et Gartner. Les produits de cette liste non hiérarchisée possèdent les capacités essentielles dont les entreprises pourraient avoir besoin pour déployer un data fabric. En revanche, tous les éditeurs évoqués ne mentionnent pas ce concept. La liste est classée par ordre alphabétique.

Denodo

La plateforme Denodo est déclinée dans des variantes cloud et express adaptées à différents cas d’usage. L’éditeur éponyme a une longue expérience des outils de virtualisation des données et a développé un vaste écosystème de partenaires et d’intégration depuis sa création en 1999. Ses principaux atouts sont les diverses options de déploiement, la transformation des données et les outils de traitement des données.

Denodo prend en charge une variété de capacités de gestion sémantique et de schémas pour travailler avec différents modèles de données, générer des catalogues de données, découvrir les actifs de données, la classification et la gestion de la qualité des données. Outre les tissus de données, il est également utilisé dans les architectures soutenant l’approche data mesh. Il convient bien aux déploiements d’entreprises à grande échelle et peut prendre en charge une variété d’utilisations, y compris les charges de travail analytiques, de data science et d’IA. Autre atout, ses capacités FinOps qui aident à guider les décisions financières dans l’optimisation des coûts pour la fourniture d’infrastructures de données. Le lancement de Denodo Platform 9 en juin 2024 a apporté une prise en charge de l’IA générative, un meilleur libre-service et la prise en charge des requêtes en langage naturel et la préparation des données pour l’IA.

Denodo propose quatre forfaits : professionnel, standard, entreprise et entreprise plus. Les prix ne sont pas publiquement disponibles, mais Denodo propose une version d’essai gratuite de 30 jours pour la version professionnelle.

IBM

IBM dispose d’une base solide d’outils d’intégration, de qualité, de gestion des données maîtres (Master Data Management ou MDM), de gouvernance et de sécurité. Cette fondation a été progressivement étendue pour soutenir les scénarios cloud et multicloud. Parmi ses points forts, on trouve des outils de découverte, de modélisation et de classification des données. Par exemple, l’IBM Cloud Pak for Data inclut des éléments tels que le DataStage Enterprise Plus Cartridge, le Watson Knowledge Catalog et d’autres capacités de virtualisation des données.

IBM a effectué plusieurs acquisitions liées au data fabric au cours des dernières années, incluant Databand pour l’observabilité des pipelines de données en 2022, Manta pour la traçabilité des données, et StepZen pour la prise en charge de GraphQL en 2023. En juillet 2024, IBM a finalisé les acquisitions des plateformes StreamSets et webMethods de Software AG, renforçant ainsi ses outils avec des capacités d’intégration plus dynamiques et modulaires.

IBM se distingue par son support des outils facilitant la gestion de l’infrastructure data fabric après son déploiement. Par exemple, les capacités de « schema drift » notifient les utilisateurs de modifications et peuvent automatiquement mettre à jour les métadonnées en temps réel pour refléter ces changements.

Le portefeuille d’IBM s’est développé via des acquisitions et un développement interne. Il est crucial de bien identifier et prioriser les outils les mieux adaptés aux besoins d’une organisation. La tarification varie selon l’outil choisi.

Informatica

L’architecture de référence data fabric d’Informatica place la couche sémantique au sommet. Celle-ci facilite les connexions avec la gouvernance des données, le catalogue de données, l’orchestration des données, et diverses intégrations avec des modèles d’IA, le machine learning et les graphes de connaissances. La couche sémantique organise également les interactions avec les outils de préparation des données et de data marketplace. Le service Claire AI analyse en continu les nouvelles données pour peupler automatiquement la couche sémantique. Il peut aussi optimiser les coûts liés à la gestion d’un large volume de données.

Informatica se distingue par son support des graphes de connaissances, de l’automatisation des processus et de la démocratisation de l’IA et des processus de données. Au-delà du data fabric, elle a bâti une base solide d’outils pour les transformations, la découverte, la classification et l’intégration des données. Les outils et services pertinents incluent Intelligent Data Management Cloud, PowerCenter Cloud Modernization, Platform Trust, Modern Data Center Architecture, Cloud Connectivity, Data Catalog et Cloud Data Marketplace.

Informatica propose un modèle de licence pay-as-you-go qu’il présente comme un moyen de simplifier la gestion des licences pour sa large gamme d’outils.

Oracle

Oracle a été l’un des premiers concurrents d’IBM dans le domaine des bases de données. Oracle a construit une base solide d’outils de gestion, d’intégration et de gouvernance des données adaptés aux architectures data fabric. Un avantage clé est son architecture de transactions distribuées à l’échelle mondiale, facilitant l’intégration des données dans un data fabric commun. Cela simplifie la distillation et le traitement des informations à des fins opérationnelles et analytiques.

Oracle a investi dans l’IA générative pour améliorer la recherche, les requêtes et l’automatisation des pipelines de données. Des développements futurs promettent des améliorations dans les graphes de connaissances, les services en libre-service et le support de nouvelles sources de données. Oracle s’est illustré avec son stack monolithique on-premises, tout en adoptant les opportunités cloud avec une nouvelle gamme d’outils data fabric, offrant performance et flexibilité. Oracle propose une tarification basée sur l’utilisation pour chacun de ses outils.

Qlik

Qlik, fondée en 1993, a été pionnière dans la technologie de visualisation interactive. Son support des pipelines de données englobe diverses capacités de data fabric. Les outils et services incluent Qlik Application Automation, Qlik Catalog, Qlik Cloud, Qlik Compose, Qlik Enterprise Manager et Qlik Replicate. En mai 2023, Qlik a acquis Talend pour enrichir son écosystème d’outils. La société est bien implantée dans les secteurs des services financiers, de la santé, de la fabrication et du retail.

Qlik se différencie par sa gamme d’outils. Qlik Compose aide à automatiser l’ingestion des données et les pipelines ETL. Qlik AutoML permet d’adapter automatiquement les schémas grâce à des techniques d’IA. Qlik a également développé des capacités avancées pour démocratiser les efforts de traitement des données grâce à des commandes en langage naturel. C’est un bon choix pour les organisations ayant une forte empreinte cloud et cherchant à combiner data fabric et analytics.

SAP

SAP a méthodiquement mis à jour son logiciel ERP pour saisir les opportunités offertes par le data fabric. SAP a construit une infrastructure d’intégration permettant d’utiliser les données à travers un data fabric cohérent. SAP Datasphere intègre les données opérationnelles grâce à une couche riche en métadonnées. Elle prend en charge un ensemble complet de capacités de métadonnées pouvant informer la couche sémantique pour harmoniser les données entre divers utilisateurs et applications. Les capacités de métadonnées améliorent l’usage des catalogues de données, la recherche, la traçabilité et la conformité.

SAP utilisait traditionnellement un modèle de tarification haut de gamme, peu adapté aux petites entreprises. L’entreprise est passée à un modèle de licence pay-as-you-go aligné sur l’usage. Les organisations doivent examiner de près les problèmes d’intégration lorsqu’elles cherchent à étendre leurs capacités au-delà de l’écosystème SAP. Cependant, SAP continue d’investir dans des outils d’intégration pour étendre la portée et la valeur de ses offres principales. C’est un bon choix pour les entreprises ayant une forte empreinte SAP, en particulier celles cherchant à intégrer des données opérationnelles.

Pour approfondir sur MDM - Gouvernance - Qualité