Sergey Bogomyako - stock.adobe.c
SingleStore se rend compatible avec Apache Iceberg
SingleStore a dévoilé une intégration « bidirectionnelle » avec Apache Iceberg visant à permettre aux entreprises d’exploiter des tables externes gérées depuis d’autres plateformes de gestion de données, dont Snowflake. L’éditeur suit par ailleurs la tendance en matière d’IA générative en combinant prise en charge des recherches vectorielles et plein texte.
Basé à San Francisco, SingleStore est un éditeur dont la plateforme de gestion de données s’installe sur site, dans le cloud ou en mode hybride. Ses outils sont conçus pour ingérer rapidement des données provenant d’un large éventail de sources, afin d’alimenter les décisions en quasi-temps réel.
En janvier, SingleStore a lancé Pro Max, une version rebaptisée de sa plateforme.
Avec cette annonce, SingleStore veut se placer au même rang que des entreprises telles que Snowflake, Databricks, Cloudera et Starburst, ainsi qu’avec des géants de l’IT, notamment AWS, Google, Microsoft et Oracle.
En outre, puisque la fondation de sa plateforme demeure une base de données multimodèle in-memory, SingleStore est toujours en concurrence avec MongoDB et Couchbase, entre autres.
« Cette annonce permet à SingleStore d’aller dans le sens du vent, c’est-à-dire qu’il aide les clients à opérer Apache Iceberg », déclare Kevin Petrie, analyste chez BARC US.
Au début du mois de juin, lors des conférences annuelles de Databricks – qui a racheté Tabular, dont les fondateurs sont les créateurs originels d’Iceberg – et de Snowflake, il est clairement apparu qu’Apache Iceberg est le format de table le plus populaire pour divers ensembles de données, poursuit Kevin Petrie.
« D’autres grands éditeurs, tels que Microsoft, sont également en train de s’y mettre, et Dremio en est un partisan de longue date », ajoute-t-il.
Apache Iceberg, une clé pour les éditeurs de lakehouse et leurs clients
Apache Iceberg, un format open source pour le stockage de grandes tables analytiques, est l’un des deux principaux formats de stockage pour les lacs de données, les lakehouses et les data warehouses. Le second n’est autre que Delta Lake, développé par Databricks.
« Les équipes responsables des données apprécient Apache Iceberg parce qu’il offre un accès ouvert aux données structurées, semi-structurées et non structurées, ce qui minimise le risque de dépendance à l’égard d’un fournisseur », souligne Kevin Petrie. « Il prend également en charge la cohérence transactionnelle entre les applications, l’évolution des schémas et une fonction “time travel” pour l’interrogation de jeux de données historiques ».
À noter que SingleStore ne prend pas, à proprement parler, en charge la création de tables Iceberg. L’éditeur permet – en préversion publique – l’ingestion de données en provenance des tables enregistrées dans ce format, hébergées dans des espaces de stockage objet Amazon S3, dans SingleStore. La couche de métadonnées d’Iceberg doit assurer la consistance du schéma de la table SingleStoreDB afin de répliquer les changements effectués dans la table Iceberg source. Ces ingestions sont réalisables à l’aide des catalogues REST et JDBC d’Iceberg, ainsi qu’avec ceux de Snowflake et d’AWS Glue.
Dans les prochains mois, SingleStore promet que l’interrogation des tables externes Iceberg sera aussi rapide que celles ciblant son format propriétaire.
En préversion privée, le mode bidirectionnel permet d’écrire des données dans les tables Iceberg sources, à l’aide d’AWS Glue. D’autres catalogues et services seront pris en charge à l’avenir. « Grâce à cette synchronisation bidirectionnelle, SingleStore servira de couche d’accélération sur votre lac, fournissant des analyses en moins d’une seconde pour toutes les données structurées et non structurées », insiste l’éditeur.
IA générative : SingleStore suit le mouvement
En entreprise, les données non structurées telles que le texte, les images et les fichiers audio sont omniprésents. De fait, les données structurées telles que les documents financiers et les transactions dans les points de vente ne suffisent plus aux entreprises pour comprendre pleinement leurs activités. Pour obtenir une vue d’ensemble, elles doivent combiner leurs données structurées avec leurs données non structurées.
Kevin Petrie, analyste, BARC US
En outre, les modèles et applications d’IA – dont l’IA générative – ont besoin d’autant de données de haute qualité que possible pour fournir des résultats précis, ce qui rend les données non structurées essentielles à l’entraînement d’algorithmes spécifiques et à l’exploitation des modèles « sur étagère ».
Des technologies telles que la vectorisation et les architectures RAG (Retrieval Augmented Generation) rendent cela possible en automatisant les pipelines de données non structurées et en éliminant une grande partie du travail manuel complexe qui était auparavant nécessaire pour exploiter les documents textuels, les images et les enregistrements sonores.
Madhukar Kumar, directeur marketing de SingleStore, rappelle qu’Apache Iceberg gagnait en popularité avant même la vague d’intérêt pour l’IA générative suscitée par le lancement de ChatGPT par OpenAI en novembre 2022.
Cependant, Apache Iceberg et d’autres formats de table, qui permettent aux entreprises de travailler avec de grandes quantités de données disparates, ont pris une importance encore plus grande en raison de l’intérêt croissant des entreprises pour le développement de modèles et d’applications d’IA générative.
Par conséquent, l’intégration de SingleStore avec Apache Iceberg a été en partie une réponse aux commentaires des clients.
« De très gros [clients] disposent d’une quantité massive de données au format Iceberg et cherchent des moyens de les utiliser pour des applications GenAI », indique Madhukar Kumar. « Et puis… dans l’industrie [de la gestion de données] elle-même, nous voyons l’adoption d’Iceberg croître considérablement ».
Outre l’intégration avec Apache Iceberg, SingleStore a mis à jour sa plateforme en ajoutant les éléments suivants :
- Des vitesses de recherche vectorielle améliorées qui rendent la découverte de données pertinentes 40 % plus rapide que les itérations précédentes de la plateforme SingleStore, selon l’éditeur, et qui ajoutent des capacités de filtrage pour les recherches vectorielles.
- Des fonctions de recherche textuelle qui réduisent la nécessité pour les clients de déployer des bases de données spécialisées pour l’IA générative et le développement d’applications en temps réel, en améliorant la qualité des résultats, grâce à la capacité d’interpréter les similitudes phonétiques et à l’amélioration de l’évaluation de la pertinence.
- Autoscaling, une fonction qui augmente ou réduit automatiquement les ressources de calcul mobilisées pour tenir compte de la demande de la charge de travail, dans le but d’aider les clients à contrôler les coûts dans le cloud.
- Helios, une offre de cloud entièrement gérée qui permet aux utilisateurs devant conserver leurs données dans un cloud privé virtuel (VPC), pour des raisons de sécurité et de gouvernance, de déployer SingleStore au sein de ce VPC. Auparavant, les clients déployant leurs données dans un VPC devaient gérer eux-mêmes SingleStore.
Helios et les nouvelles fonctionnalités de recherche vectorielle sont en préversion privée, tandis qu’Autoscaling est en bêta publique. La recherche plein texte, elle, est entrée en disponibilité générale.
Selon Kevin Petrie, la combinaison de la recherche vectorielle et par mot clé pourrait présenter d’importants avantages pour les entreprises qui développent des modèles et des applications d’IA générative.
« Malgré tout le battage médiatique autour de la GenAI, des systèmes RAG et de la recherche vectorielle, il est nécessaire de disposer de capacités supplémentaires pour s’assurer qu’un modèle d’IA générative est en mesure d’obtenir des informations exactes. La recherche plein texte est un bon moyen d’y parvenir, car elle permet d’extraire les documents les plus pertinents par rapport à la requête de l’utilisateur ».
Madhukar Kumar insiste sur l’importance d’accélérer la recherche vectorielle. Utilisée de concert avec l’intégration d’Apache Iceberg, les capacités de recherche textuelle et l’Autoscaling, l’amélioration de la vitesse de la recherche vectorielle permet aux entreprises de créer des applications d’IA générative en temps réel, assure-t-il.
« L’année dernière a été marquée par l’expérimentation de l’IA générative », rappelle M. Kumar. « Cette année, il s’agit pour les entreprises de passer à la production. Les exigences sont très différentes : volumes massifs de données, évolutivité, extrême rapidité et mélange des données [structurées et non structurées] ».
Évolutions futures
Selon M. Kumar, les usagers de SingleStore – des experts en traitement des données – souhaitent souvent travailler avec des pétaoctets de données en quelques millisecondes. Ils veulent créer des applications complexes telles que des graphes de connaissances. En ce sens, la feuille de route de SingleStore prévoit d’améliorer le moteur de l’éditeur pour le rendre plus efficace, d’ajouter de nouvelles capacités pour faciliter le développement de modèles et d’applications d’IA, et d’ajouter des connecteurs pour que les clients puissent accéder à des données provenant de nouvelles sources.
Kevin Petrie de BARC US, quant à lui, rapporte les propos de certains utilisateurs de bases de données alternatives telles que Microsoft SQL Server, PostgreSQL et MySQL qui considère que SingleStore est encore complexe à prendre en main. Il serait donc judicieux d’investir davantage pour faciliter l’utilisation de ses outils.
« Il s’agit là d’un domaine de développement permanent pour SingleStore », insiste-t-il.