IA générative : Informatica tente de se rendre indispensable

Avec sa mise à jour Fall 2024, Informatica entend simplifier l’intégration, le nettoyage et la gouvernance des données servant à alimenter les applications d’IA générative. En filigrane, l’éditeur tente de se rendre indispensable alors qu’une bonne partie de sa clientèle n’a pas encore migré vers le cloud.

Depuis 2022, le secteur de la gestion de données est obnubilé par l’IA générative. Outil grand public, puis objet d’expérimentations en entreprise, ChatGPT a largement inspiré les éditeurs et leurs clients.

Ces deux dernières années, il est apparu qu’il fallait une grande quantité de données pour entraîner et contextualiser un système d’IA générative.

Or, pour que toutes ces données soient prêtes à alimenter les outils d’IA, elles doivent être correctement préparées, souligne Gaurav Pathak, vice-président de la gestion des produits d’IA et des métadonnées chez Informatica.

« De nombreuses organisations détiennent des téraoctets voire des pétaoctets de données, structurées ou non. Mais une trop grande partie de ces données n’a pas été correctement gérée et gouvernée. Elles ne sont pas prêtes pour l’IA », lance-t-il. « Le nettoyage des données désordonnées aidera les entreprises à préparer les données pour l’IA ».

Pousser les migrations vers le cloud Nettoyer les données pour exploiter l’IA générative

La « Fall Release » d’Informatica Intelligent Data Management Cloud (IDMC), officiellement, doit permettre aux entreprises clientes d’effectuer ce travail considéré comme fastidieux. L’un des éléments clés de la mise à jour est l’amélioration des capacités d’intégration pour les données stockées dans Databricks et Google BigQuery, selon Stephen Catanzano, analyste chez Entreprise Strategy Group [propriété de TechTarget également propriétaire du MagIT].

Cette mise à jour inclut une intégration entre les outils no-code d’Informatica et les capacités d’IA générative de Databricks ; une fonction de transformation de données basée sur le SQL qui permet aux utilisateurs de traiter les pipelines d’extraction, de chargement et de transformation de données (ELT) dans Databricks Delta Lake et Google BigQuery ; et un assistant qui guide les utilisateurs lors de l’ingestion et de la réplication des données pour les projets d’IA.

« L’alignement avec Databricks est une étape importante, car le concurrent de Snowflake gagne du terrain avec ses [capacités d’IA générative] », note Stephen Catanzano. « La plateforme IDMC doit être intégrée partout où les clients d’Informatica sont et elle doit jouer le rôle de chef d’orchestre des traitements. »

« De nombreuses équipes chargées des données privilégient désormais les pipelines ELT. »
Kevin PetrieAnalyste, BARC US

Kevin Petrie, analyste chez BARC US, salue également l’ajout de pipelines ELT vers Delta Lake et BigQuery. « De nombreuses équipes chargées des données privilégient désormais les pipelines ELT, car elles peuvent effectuer des transformations sophistiquées sur les données après les avoir ingérées dans des plateformes telles que Databricks et Snowflake », assure-t-il.

De fait, ce sont les plateformes de données les plus populaires du marché. BigQuery conserve tout de même un certain attrait pour une partie de la clientèle d’Informatica, principalement les grandes enseignes de la distribution et de l’industrie, qui ne souhaitent pas héberger leurs données les plus critiques sur AWS. Oui, Snowflake et Databricks ont majoritairement développé leurs produits sur le cloud d’Amazon. Aussi, il est plus simple pour Informatica et ses clients de gérer les transformations sur la plateforme cible.

L’IA est un prétexte pour mieux couvrir les besoins d’intégration des entreprises qui migrent leurs données vers ces plateformes de traitement de données en cloud. Dans ce contexte, bon nombre d’entre elles (parfois clientes historiques d’Informatica) ont multiplié les recours à des outils comme dbt, Fivetran, Talend… tous en partie concurrent d’IDMC.

Pléthore de fonctionnalités complémentaires

La version Fall 2024 d’Informatica comprend également les éléments suivants :

  • Turbo-charged Application Integration Runtime, une fonctionnalité dont la disponibilité générale est prévue en novembre et qui vise à améliorer les performances des applications grâce à des fonctionnalités d’autoscaling, de haut débit et d’intégration à faible latence. Elle comprend une option serverless.
  • Des modèles d’intégration préconstruits pour intégrer des données stockées sur AWS, Microsoft Azure, Google et Oracle, entre autres.
  • Des connecteurs vers divers environnements IA, tels qu’Amazon Bedrock et Google Vertex AI, ainsi que des applications d’entreprise et de messagerie, notamment Coupa, Salesforce Streaming Events et Azure Service Bus.
  • De nouvelles fonctionnalités de gestion des données de référence conçues consacrées à l’intégration des flux de travail.
  • Des capacités de gouvernance des données améliorées, dont les contrôles d’accès aux métadonnées dans Cloud Data Governance et Data Catalog d’Informatica.
  • L’extension de la disponibilité régionale de Claire GPT, l’assistant d’IA de l’éditeur.
« Pour se différencier, les entreprises qui adoptent l’IA doivent optimiser l’expérience utilisateur avec des applications personnalisées basées sur des données gouvernées et intégrées. »
Kevin PetrieAnalyste, BARC US

Kevin Petrie note la large palette de fonctionnalités de cette mouture. Le plus important est peut-être qu’elles se complètent mutuellement. Par exemple, Turbo-charged Application Integration Runtime doit accélérer les intégrations rendues possibles par les connecteurs et les modèles d’intégration préconstruits.

« Pour se différencier, les entreprises qui adoptent l’IA doivent optimiser l’expérience utilisateur avec des applications personnalisées basées sur des données gouvernées et intégrées », considère l’analyste chez BARC US.

« Les exigences des clients (…) sont toujours les principaux moteurs, tout comme nos propres recherches et développements », note pour sa part Gaurav Pathak. « Aujourd’hui, de nombreux chefs d’entreprise et leaders technologiques cherchent à accélérer leurs projets GenAI et leurs initiatives stratégiques. Nous les aidons avec ces dernières innovations. »

Informatica choisit ses combats

En mai dernier, Informatica a présenté un environnement « low-code/no-code » pour le développement de modèles et d’applications d’IA. Il comprend des capacités de glisser-déposer, des modèles personnalisables, des techniques préconstruites pour le développement de l’IA générative et la prise en charge d’une variété de LLM et de bases de données vectorielles.

La dernière mise à jour de la plateforme du fournisseur comprend des intégrations et des connecteurs avec les environnements de développement d’autres fournisseurs tels que Databricks et Google, mais n’inclut pas de nouvelles fonctionnalités améliorées pour son propre environnement de développement.

« Je pense qu’Informatica devrait faire plus d’efforts pour faire comprendre à ses clients que sa plateforme est l’endroit où ils devraient chercher à construire des solutions GenAI. »
Stephen CatanzanoAnalyste, Entreprise Strategy Group

En conséquence, Stephen Catanzano suggère qu’Informatica concentre une partie de son développement de produits et de son marketing sur ses propres outils pour les développeurs de modèles et d’applications. « Je pense qu’Informatica devrait faire plus d’efforts pour faire comprendre à ses clients que sa plateforme est l’endroit où ils devraient chercher à construire des solutions GenAI », déclare-t-il. « Ils se concentrent sur la préparation des données, mais je n’ai pas vu grand-chose concernant l’étape suivante ».

Dans un même temps, l’intégration et la gouvernance de données sont deux vastes sujets. Aussi, les organisations ont déjà eu le temps de s’équiper pour déployer des agents d’IA, notamment auprès des acteurs précédemment cités ou en combinant un certain nombre d’outils open source.

D’où la disponibilité des « blueprints », des architectures de référence accessibles gratuitement permettant de standardiser l’assemblage des services des fournisseurs AWS, Microsoft Azure, Google Cloud, Oracle Cloud et des éditeurs Snowflake et Databricks pour déployer des applications d’IA générative sur leur plateforme respective. Évidemment, Informatica y explique comment interconnecter ses propres solutions afin d’intégrer et de gouverner le contexte de l’entreprise. L’éditeur évoque des « recettes iPaaS » préconçues pour exploiter les LLM accessibles par API, les bases de données vectorielles, les data lakehouse, les couches de cache, etc. Ces documents de référence sont déjà utilisés par les ESN, dont Deloitte et Capgemini.

Difficile de mener tous les combats simultanément, d’autant qu’Informatica tente de convaincre ses clients de migrer vers le cloud depuis plusieurs années.

« Environ 26 % des nouveaux revenus récurrents nets dans le cloud au cours des 12 derniers mois provenaient de migrations vers le cloud », expliquait Amit Walia, CEO d’Informatica, lors de la présentation des résultats du deuxième trimestre 2024 le 30 juillet dernier. « C’est encore une très petite partie de notre base installée sur site ». Le groupe qui porte une vision stratégique « exclusivement cloud » a tout de même dépassé les 700 millions d’ARR dans le cloud, en exploitant, entre autres, l’édition PowerCenter Cloud conçue pour accélérer les migrations.

Pour approfondir sur Middleware et intégration de données

Close