master1305 - stock.adobe.com
Avec Pro Max, SingleStore entend rivaliser avec Databricks et Snowflake
L’éditeur de base de données a dévoilé Pro Max, une version rebaptisée de sa plateforme, qui comprend des fonctionnalités de recherche vectorielle et de capture de données en mouvement, afin de propulser les cas d’usage de BI et d’IA en temps réel à l’échelle.
SingleStore a présenté mercredi Pro Max, une version actualisée de sa plateforme avec une nouvelle image de marque. L’éditeur, connu pour sa base de données in-memory se positionne depuis environ deux ans comme le fournisseur en devenir d’une plateforme multimodèle capable de rivaliser avec Oracle Autonomous Database ou Snowflake.
Basé à San Francisco, Singlestore s’appelait à sa naissance MemSQL. Sa base de données relationnelle en mémoire « HTAP » (hybrid transaction/analytical processing, ou translytique pour Forrester) peut à la fois se déployer sur site et dans le cloud.
Au vu de ses fonctions d’ingestion et de traitement en quasi-temps réel des transactions, les concurrents naturels de SingleStore sont, tout comme lui à l’origine, des acteurs de niche tels que GridGain, HazelCast ou AeroSpike. Depuis quelques années, des éditeurs et fournisseurs plus réputés, dont MongoDB, AWS, Google et Microsoft se positionnent sur ce marché.
En octobre 2022, SingleStore a ajouté 30 millions de dollars aux 116 qu’il avait levés en juillet de la même année pour clôturer son cycle de financement F-2 de 146 millions de dollars, visant à poursuivre le développement de produits, à améliorer les campagnes de marketing et à favoriser son expansion géographique.
Sans véritable surprise, SingleStore suit la tendance du marché autour de l’IA générative dont la popularité a explosé depuis le lancement de ChatGPT par OpenAI à la fin du mois de novembre 2022. Avec les produits et modèles commercialisés par Microsoft, AWS, ou encore Google, les organisations ont découvert que la recherche vectorielle pouvait être utilisée pour entraîner et guider les réponses des LLM avec leurs propres données propriétaires et ainsi propulser certaines fonctions applicatives.
SingleStore et de nombreux autres fournisseurs de gestion de données, dont Dremio, et Neo4j, ont ajouté de nouvelles fonctionnalités de recherche vectorielle au cours des derniers mois, en vue de répondre à cet enjeu.
IA générative, RAG et recherche hybride… oui, mais « en temps réel »
SingleStore a d’abord fourni la recherche exacte du plus proche voisin en 2017, plus connu sous le nom de recherche plein texte (full text search), et a dévoilé la recherche approximative du plus proche voisin (ANN) dans sa mise à jour d’octobre pour étendre les paramètres des recherches vectorielles.
En préversion publique, la recherche vectorielle indexée sert à activer ces recherches ANN, en augmentant leur vitesse et leur précisant, ainsi qu’en organisant et en stockant plus efficacement les vecteurs. L’indexation utilise des algorithmes pour prédéterminer la similarité d’un vecteur par rapport à un autre, ce qui permet de comparer rapidement la proximité d’une requête avec un mot, une phrase ou un document.
Le système d’indexation de SingleStore prend en charge trois algorithmes populaires, à savoir IVF (Interted File), HNSW (Hierachical Navigable Small World), le plus couramment utilisé pour la recherche vectorielle, et Product Quantization (PQ). « PQ divise l’espace à haute dimension en sous-espaces quantifiés plus petits pour un stockage efficace et une recherche ANN rapide dans les grands ensembles de données », assure l’éditeur.
Compte tenu de l’importance de la recherche vectorielle en tant qu’outil de développement de l’IA générative, les capacités d’indexation de vecteurs sont significatives pour les clients de SingleStore, selon Kevin Petrie, analyste chez Eckerson Group.
« SingleStore permet de répondre à deux exigences principales des entreprises en matière de GenAI », déclare-t-il.
Tout d’abord, les capacités de recherche vectorielle de l’éditeur permettent de prendre en charge des données non structurées, ce qui n’est pas une capacité originelle de MemSQL ni des systèmes transactionnels ou analytiques des entreprises. Ces vecteurs doivent affiner et stimuler les modèles de langage spécifiques à un domaine, poursuit Kevin Petrie. Les outils de SingleStore gèrent les vecteurs au même titre que les tables ou les fichiers JSON, « ce qui est important, car les flux de travail d’IA générative se développeront pour inclure des algorithmes prédictifs et d’autres fonctions analytiques ou opérationnelles ».
Comme Elastic, SingleStore vante ses capacités de recherche hybride, qui permet de combiner la recherche plein texte à la recherche vectorielle.
« Il est utile d’avoir une plateforme unique qui peut répondre à divers besoins pour ces flux de travail à multiples facettes », avance Kevin Petrie.
En cela, l’approche est opposée à celle de Pinecone qui loue sa base de données spécifique à la recherche vectorielle.
« Les capacités de recherche vectorielle de SingleStore – de concert avec d’autres fonctionnalités de Pro Max – visent à informer les LLM en temps quasi réel », assure Madhukar Kumar, directeur marketing de SingleStore.
La rapidité est depuis longtemps une priorité pour SingleStore. Selon l’éditeur, la recherche vectorielle indexée doit permettre aux clients de construire des pipelines de génération augmentée de recherche (RAG) qui ingèrent automatiquement des données non structurées, vectorisent les données et les introduisent dans le pipeline de données approprié, pour informer une application ou un modèle.
Par exemple, une réunion virtuelle enregistrée peut être automatiquement transcrite et chargée dans une base de données vectorielle, le texte se voit attribuer des vecteurs, et les vecteurs sont introduits dans les pipelines RAG pour nourrir des modèles d’IA et d’analytique – le tout en quelques millisecondes, selon M. Kumar.
Madhukar KumarDirecteur marketing, SingleStore
« Il s’agit d’obtenir une architecture RAG compatible avec les exigences en temps réel des entreprises », vante-t-il.
Change Data Capture, forfait gratuit : les astuces de SingleStore pour favoriser son adoption
Au-delà de la recherche vectorielle indexée, SingleStore introduit avec Pro Max un outil de Change Data Capture (CDC), signale Kevin Petrie.
Le coût de maintenance des infrastructures liées à la gestion de données a considérablement augmenté ces dernières années. Les volumes, la complexité des informations et les outils pour les traiter s’accumulent. Si le cloud a un temps été perçu comme un moyen de faire baisser cette charge financière, les entreprises considèrent qu’il faut désormais obligatoirement surveiller les coûts induits par les traitements de données distants.
Les fonctions CDC de SingleStore sont conçues pour aider les organisations à mieux contrôler le coût du déplacement des données dans et hors de la base de données de l’éditeur.
Plus précisément, SingleStore ajoute des fonctionnalités d’ingestion vers sa plateforme en provenance de MongoDB (en disponibilité générale) et de MySQL (en préversion publique).
En outre, SingleStore prend en charge des fonctions CDC en vue de simplifier la migration des données de SingleStore vers des systèmes OLAP tels que les bases de données tierces, les data warehouses et les lakehouses.
En ce sens, l’éditeur prévoit de prendre en charge la lecture et l’écriture des tables Apache Iceberg pour ingérer ou transférer des données de systèmes tiers. Plus tard, il sera possible d’ingérer des données depuis PostgreSQL vers SingleStore.
Kevin PetrieAnalyste, Eckerson Group
« En ajoutant des fonctionnalités de CDC, SingleStore élimine un obstacle à l’adoption en simplifiant le transfert de données dans des environnements hétérogènes », déclare Kevin Petrie. « La plupart des entreprises ont encore besoin de CDC ou d’autres outils de pipeline de données, mais cela réduit le besoin de ces outils pour certaines sources et cibles ».
SingleSore avait déjà développé des capacités d’ingestion parallélisée en provenance d’Apache Kakfa, de systèmes de stockage objet (Amazon S3, Google Cloud Storage, Azure Blob Storage) et HDFS (Hadoop).
De fait, afin de gagner en popularité, SingleStore a non seulement besoin de s’intégrer à un écosystème élargi, mais aussi de faire découvrir son offre. Ainsi, Pro Max comprend un volet gratuit.
SingleStore propose des options de tarification SaaS et autogérées. Le fournisseur ne publie pas le coût de son option d’autogestion, mais son option SaaS se décline en trois niveaux à partir de 0,80 $ par heure pour son édition Standard et de 1,60 $ par heure pour son édition Premium. Le coût de l’édition dédiée, qui répond aux besoins des organisations ayant des exigences particulières en matière de sécurité et qui comprend plus de soutien que les éditions Standard et Premium, n’est pas non plus rendu public.
La version gratuite de Pro Max est une option permanente, selon M. Kumar, mais elle est assortie de limitations, comme le fait d’avoir 10 bases de données ou moins. « Pour certains utilisateurs, cela peut suffire. Mais pour la plupart d’entre eux, nous espérons qu’ils passeront à l’un des autres niveaux ».
« Nous voulons que les gens puissent se connecter, développer des choses et se rendre compte de leur valeur par eux-mêmes », envisage Madhukar Kumar. « S’ils l’apprécient, c’est parfait, ils peuvent passer à un niveau supérieur. Et s’ils ne veulent pas passer à un niveau supérieur et que [c’est suffisant], c’est très bien aussi. »
Cette semaine, SingleStore a également présenté les fonctionnalités suivantes :
- Un service de calcul à la demande pour les GPU et les CPU qui permet aux usagers d’exécuter des charges de travail adjacentes à la base de données, y compris la préparation des données, sans avoir à déplacer inutilement les données.
- La disponibilité générale de SingleStore Kai, une API dévoilée en avant-première publique au début de l’année 2023, conçue pour accélérer les analyses sur MongoDB en éliminant la nécessité de modifier les requêtes et de transformer les données.
- Projections, une fonctionnalité visant à améliorer la vitesse d’interrogation de la base de données SingleStore en ajoutant des clés secondaires de tri et de division.
SingleStore veut entrer dans la cour des grands
Selon M. Kumar, chacun de ces ajouts représente l’effort continu de SingleStore pour fournir des outils qui permettent aux entreprises de toutes tailles d’exploiter leurs données à grande échelle.
« De plus en plus d’entreprises passent du stade du prototype à celui de la production et ont besoin de fonctionnalités avancées adaptées aux exigences de leur entreprise », déclare-t-il. « C’est ce que nous avons construit au cours des dix dernières années ».
M. Petrie a toutefois fait remarquer que si SingleStore muscle sa plateforme et son offre, les outils présentés ne sont pas nécessairement différents de ceux des concurrents.
Si certains éditeurs de bases de données sont à la traîne, les fournisseurs de plateformes tels Databricks, Snowflake, Google Cloud, AWS et Microsoft offrent de nombreuses fonctionnalités similaires à celles de Pro Max.
« Cette version s’inscrit dans une tendance industrielle », rappelle l’analyste d’Eckerson Group. « Un certain nombre de fournisseurs, dont Databricks et les hyperscalers, entendent prendre en charge toutes les charges de travail ».
Avec Pro Max désormais disponible, SingleStore prévoit de poursuivre son expansion au-delà de ses racines traditionnelles pour s’établir comme un éditeur de plateforme de données reconnu à l’instar de Databricks ou Snowflake, avance Madhukar Kumar.
Il note qu’il existe plus de 300 bases de données, dont la plupart sont des bases de niche ou à usage général, mais avec une spécialité. Nombre d’entre elles ont ajouté des capacités de recherche vectorielle. Cependant, la plupart ne font pas partie d’une pile de données entièrement intégrée.
Or SingleStore se rapproche de ses concurrents en la matière et compte se différencier par les capacités temps réel de son moteur in-memory.
« Nous nous dirigeons vers une plateforme de données intégrée qui répond en quelques millisecondes, quel que soit le type de données, afin qu’elles puissent être utilisées avec les IA », promet le directeur marketing.
Outre la vitesse, la qualité des données restera essentielle, ajoute-t-il.
« Si quelqu’un dispose de données propres, fraîches et en mouvement, il peut agir beaucoup plus rapidement qu’un autre dont les données seraient de mauvaise qualité, datées et soumises à des processus batch trop nombreux », vante-t-il. « Notre vision est d’aider les entreprises à prendre leurs données, à les rendre exploitables en quelques millisecondes et à les combiner avec les grands modèles de langage ».