kentoh - Fotolia
Informatica veut unifier la gestion de (méta)données
Informatica a dévoilé la disponibilité d’Intelligent Data Management Cloud, une consécration pour l’éditeur qui a (enfin) terminé le passage en mode cloud native de ses applications de gestion de données.
La conférence Informatica World 2021 était l’occasion pour l’éditeur de présenter Intelligent Data Management Cloud (IDMC) dans sa forme finale, c’est-à-dire une plateforme permettant de chapeauter l’ensemble de ses produits de data management.
« Ce que cette annonce signifie, c’est que nous avons achevé le parcours que nous avons entrepris ces cinq dernières années. La totalité de notre portefeuille de data gouvernance, de MDM, d’intégration, de catalogage des données, est désormais disponible as-a-service dans le cloud », déclare Rik Tamm-Daniels, Vice President, Strategic Ecosystems and Technology chez Informatica auprès du MagIT. « Il s’agit donc véritablement d’une capacité de data management bout en bout et cloud native ».
Le dirigeant présente, là, la version « soft ». Lors d’Informatica World 2021, Jitesh Ghai, Chief Product Officer chez Informatica a présenté plus de 260 fonctionnalités/services et les quelques 10 000 « connecteurs » de métadonnées que l’éditeur fournit dans IDMC.
Ces capacités correspondent aux différents produits d’Informatica, dont API Management, Axon Data Gouvernance, Customer 360, Data Integration Hub, Enterprise Data Catalog, ou encore Cloud Data Quality.
IDMC est en réalité un autre chapeau par-dessus l’iPaaS Informatica Intelligent Cloud Services (IICS), quitte à provoquer la confusion chez certains participants à la conférence virtuelle.
CLAIRE : un « moteur intelligent » de traitement de métadonnées
Le Chief Product Officer s’est arrêté sur quelques cas d’usage, notamment pour mettre en valeur CLAIRE, le « moteur d’IA » transversal à l’ensemble de solutions disponibles depuis la plateforme. C’est une collection de modèles de machine learning préentraînés (42 selon le décompte du MagIT) capables d’interpréter des métadonnées en provenance de divers systèmes (mainframes, PowerCenter d’Informatica, ERP SAP, IBM Informix, etc.), formats de fichiers (CSV, XML, JSON, Avro, Parquet), services cloud (Azure Blob, Google BigQuery, Google Cloud Storage, Snowflake, etc.), base de données (PostegreSQL, Kafka, Cassandra, Hive, SQL Server, HANA, etc.), logiciels BI (SAP Business Objets, Microstrategy, Power BI, etc.), entre autres.
« CLAIRE est la couche d’IA d’Intelligent Data Management cloud. CLAIRE se manifeste au sein des différentes expériences des utilisateurs par le biais de recommandations intelligentes », assure Rik Tamm-Daniels. « Par exemple, en ce qui concerne le data cataloging, nous disposons de modèles basés sur l’apprentissage automatique pour classer les différents éléments de données en fonction de ce qu’ils représentent d’un point de vue commercial. Nous avons aussi la capacité de créer des règles en langage naturel de sorte qu’un usager peut exprimer la contrainte de qualité des données et nous convertissons cela en workflows gérés par CLAIRE », énumère-t-il.
L’éditeur a également mis en avant les capacités low-code/no-code embarquées dans ses outils ETL et de préparation de données. Ce n’est pourtant pas l’élément central de la conférence. Informatica a surtout défendu les facultés multicloud et hybrides de sa plateforme.
Une plateforme multicloud et hybride
Amit Walia, le PDG d’Informatica depuis janvier 2020, précise que la plateforme s’appuie sur une « architecture de microservices, serverless et élastique » associée à des API. Après cinq ans, IDMC traite 17 trillions de transactions par mois, et se nourrit de 11 pétaoctets de métadonnées. L’iPaas serait le fruit de 250 millions de dollars d’investissement dans la R&D par an sur cette période, soit 1,25 milliard de dollars au total si l’on se réfère aux propos du Chief Product Officer.
Rik Tamm-DanielsVice President, Strategic Ecosystems and Technology, Informatica
« La plupart des clients, en particulier les grandes entreprises, sont multiclouds, mais ce n’est pas tout. En réalité, ils ont plusieurs environnements sur site, qui peuvent être virtualisés et hébergés dans des centres de données différents. Il s’agit donc d’un paysage complexe. L’idée, c’est qu’avec Intelligent Data Management Cloud, vous disposerez d’un lieu central pour gérer tous les différents types d’activités de gestion des données. Et cela permet de faire abstraction des complexités de chacun de ces environnements », promet Rik Tamm-Daniels.
« Nous avons optimisé la connectivité et les intégrations pour tous les environnements en cloud et tous les systèmes sur site. Du point de vue de l’utilisateur final, c’est très transparent », défend-il. Esthétiquement, la console d’Informatica ressemble à celle de Cloudera, non pas seulement parce qu’elle arbore des couleurs orangées, mais également parce que l’on retrouve tous les produits (à condition d’y avoir souscrit) accessibles depuis un portail unique.
« Mais du point de vue des DSI des entreprises, si elles veulent la déployer à un endroit ou à un autre, nous offrons notre plateforme sur les trois principaux cloud », assure-t-il.
En mode multicloud, la plateforme d’Informatica doit permettre de gérer des clusters dans les différents environnements cloud, au plus près des données. Un « Secure Agent », un runtime léger est chargé de la récupération des métadonnées derrière le pare-feu des infrastructures, de la sécurisation des communications et du déploiement de clusters.
« Souvent, dans un environnement multicloud on constate que certaines charges de travail ont tendance à être exécutées dans un cloud, et certaines charges de travail dans un autre. La puissance d’IDMC réside dans le fait qu’il est possible de configurer et de mettre en place ces différents types de workloads depuis notre plateforme ». Ce traitement séparé du stockage, mais localisé dans la même région cloud éviterait les coûts de transfert des données. Seuls les résultats des calculs seraient exposés sur la plateforme, selon Rik Tamm-Daniels.
Informatica pousse la migration vers GCP, Azure et AWS
Encore faut-il que les clients s’adaptent et migrent leurs données et métadonnées vers les infrastructures cloud. Informatica World 2021 était aussi l’occasion d’annoncer des partenariats avec les trois géants que sont AWS, Google Cloud et Microsoft Azure.
Avec AWS, l’éditeur a annoncé la préversion d’un data catalog à la demande (nommé Data Catalog as a-Service) et d’un service de gouvernance de données (Data Governance as a-Service). Selon les dirigeants, les services s’appuient sur Redshift, l’infrastructure Kubernetes d’AWS, mais sont aussi capables de profiter du DbaaS Neptune pour les données graphes.
Sur Google Cloud, Informatica annonce la disponibilité de Cloud Data Integration-Elastic (CDI-E), une capacité de CDI permettant de traiter des clusters dont la taille évolue en fonction du nombre de tâches et du volume de données traitées. Selon la documentation de l’éditeur, le Secure Agent, permet de créer le cluster élastique à la suite de la création d’un mapping d’une source vers une cible (à l’aide du Mapping Designer, une interface low-code/no-code). Le moteur Serverless Spark s’exécute sur ce cluster pour gérer ce mapping. Une fois la tâche terminée, le Secure Agent tue le cluster afin de limiter les coûts.
Par ailleurs, les deux entreprises ont présenté des ajustements aux services API Management et Cloud Mass Ingestion (CMI). CMI est maintenant capable d’ingérer des données en temps réel en provenance et vers Google Pub/Sub en plus des connecteurs calibrés pour Kafka, Amazon Kinesis, Azure EventHub, ainsi que les datastore on premise Oracle SQL/MySQL, Teradata, Netezza ou encore DB2.
En outre, « le partenariat entre Informatica et Google Cloud a entraîné une croissance de 135 % d’une année sur l’autre (2019-2020) et a permis à plusieurs clients de réussir à innover en gérant leurs données dans le cloud », vante le communiqué de presse associé.
Avec Microsoft, Informatica entend proposer un tier gratuit (100 heures de calcul par mois) pour les clients Azure qui souhaitent utiliser Cloud Data Integration et Cloud Mass Ingestion (jusqu’à 150 Go par ingestion) pour migrer leurs données vers Azure Synapse Analytics.
La plateforme IDMC sera également disponible dans de nouvelles régions cloud Azure.
Rik Tamm-DanielsVice President, Strategic Ecosystems and Technology, Informatica
« Concernant notre relation avec Azure, nous apporterons un espace cloud local pour IDMC, que nous appelons pod instance. Il sera disponible en Asie (Singapour) et en Europe centrale (Allemagne) plus tard cette année. Ce partenariat s’appuie sur l’élan et la demande que nous constatons en particulier chez les clients en Europe pour Azure », assure Rik Tamm-Daniels.
À cela, s’ajoute un programme Go-to-market de migration des systèmes on premise PowerCenter vers les instances Azure. C’est l’une des préoccupations des clients, dont Charles Schwab. Le courtier en immobilier américain est en train de migrer vers le cloud les informations en provenance de près de 30 millions de comptes clients dans le cadre du rachat de TD Ameritrade.
Toutefois, l’éditeur ne nie pas l’attrait, chez certains clients européens, pour des solutions de stockage purement local. « Étant donné un grand nombre de réglementations en Europe, il y a certainement une demande pour avoir tout cela entièrement containerisée et localisée. De manière générale, nous observons la demande croître en Europe autour du cloud », constate Rik Tamm-Daniels. De son côté, Denis Herriau, vice-président Europe du Sud chez Informatica entendait rassurer les clients qui ne souhaitent pas migrer vers le cloud, en répétant que l’éditeur poursuivra les mises à jour des produits on premise.