Anatoly Stojko - stock.adobe.com

DBaaS : en rachetant Rockset, OpenAI se tourne franchement vers les entreprises

Le pionnier de l’IA générative est sorti du domaine d’expertise pour sa deuxième acquisition, en se tournant vers ce « petit » éditeur de base de données pour ses capacités de recherche et de vectorisation en temps réel.

Le rachat de la startup Rockset, éditrice d’une base de données analytique en temps réel et de recherche vectorielle, démontre qu’OpenAI souhaite mieux cibler les entreprises.

Cette acquisition rendue publique le 21 juin donne au fournisseur de grands modèles de langage l’accès à une base de données cloud native permettant à ses clients de retrouver et de générer des informations actualisées.

C’est en tout cas ce que pense Kashyap Kompella, CEO du cabinet de recherche, RPA2AI Research.

« Avec des capacités d’ingestion, de traitement, de recherche et d’analyse de données et la prise en charge des données SQL, NoSQL et vectorielles, Rockset comble les lacunes de la technologie OpenAI et peut devenir plus adapté et attrayant pour les cas d’usage en entreprise », déclare M. Kompella.

Rockset, un bébé de RocksDB

Comme tous les fournisseurs de LLM, OpenAI doit arrêter les connaissances de ses modèles à une date donnée. Par exemple, le modèle GPT-4-Turbo a un « knowledge cutoff » établi en avril 2023.

« Pour beaucoup de cas d’usage d’entreprise, si la réponse d’un modèle s’appuie sur des données de préentraînement, cela ne suffit pas », avance Kashyap Kompella. « Pour être utiles, les réponses de l’IA doivent contenir des informations opportunes, actualisées et souvent en temps réel ».

Fondée en 2016 par deux anciens ingénieurs de Facebook, Rockset développe une base de données reposant sur une architecture découplant calcul et stockage.

Celle-ci est une variante de RocksDB, un moteur de clé-valeur persistant in-memory (dérivé de LevelDB de Google) à la fois adapté au stockage en mémoire vive et Flash, imaginé dans les locaux… de Facebook (Meta).

La startup mise sur un système d’indexation « convergé ». En clair, elle prend en charge trois types d’index pour les données en colonne, en ligne et inversé (pour la recherche) au moment de leur ingestion. Un système d’optimisation des requêtes permettrait d’interroger les données en quelques centaines de millisecondes après leur ingestion. La société a conçu un système « schemaless », capable de reconnaître « automatiquement » le type de données (structurées, semi-structurées, géographiques, time-series, embeddings).

« L’infrastructure de Rockset permet aux entreprises de transformer leurs données en informations exploitables. Nous sommes ravis d’apporter ces avantages à nos clients en intégrant les fondations de Rockset dans les produits OpenAI. »
Brad LightcapCOO d’OpenAI

Rockset propose une vingtaine de connecteurs vers les bases de données et les services de streaming de données des fournisseurs cloud (AWS, GCP, Azure) et de quelques éditeurs (MongoDB, Oracle, Snowflake, Elasticsearch, etc.).

Malgré sa nature NoSQL, Rockset prendrait en charge « l’entièreté » des fonctionnalités SQL et serait idéal pour des applications concurrentes utilisant « moins de 100 To d’espace de stockage ». La startup propose un ensemble de SDK Python, Go, Java, Nodejs, ainsi qu’un provider Terraform et une intégration DBT pour que les développeurs puissent l’exploiter.

Plus récemment, Rockset a ajouté la prise en charge de l’intégration de vecteurs qui permet aux utilisateurs de rechercher et d’analyser des données non structurées.

Jeune concurrent d’Aerospike, de Gridgain ou encore d’HazelCast, Rockset a levé un total de 105 millions de dollars, dont 44 millions en août 2023. Aucune des deux sociétés n’a révélé la valeur de l’acquisition, mais la transaction, entièrement en actions, aurait été à neuf chiffres, selon Reuters.

Les membres de l’équipe de Rockset rejoindront OpenAI, indiquent les deux sociétés dans un billet de blog.

« L’infrastructure de Rockset permet aux entreprises de transformer leurs données en informations exploitables. Nous sommes ravis d’apporter ces avantages à nos clients en intégrant les fondations de Rockset dans les produits OpenAI », affirme Brad Lightcap, COO d’OpenAI, dans ce même billet, déclaration qui semble confirmer les propos des analystes.

OpenAI, qui a débuté en tant que laboratoire de recherche à but non lucratif en 2015, a connu une croissance explosive dans le cadre de la montée en puissance de l’IA générative et est désormais une société à but lucratif évaluée à plus de 80 milliards de dollars.

« C’est le début d’une tendance. Les entreprises de données passent des données à l’IA. […] Les entreprises d’IA se rapprochent des données. »
Sanjeev MohanDirecteur de SanjMo

Si les produits du fournisseur GenAI, qui propose également la série de modèles Dall-E de générations d’images ainsi que les modèles multimodaux GPT-4o et Sora, se sont avérés populaires auprès du grand public, l’entreprise n’a pas encore établi une base solide de clients professionnels.

« La plus grande valeur d’OpenAI réside dans son potentiel à revoir entièrement l’indexation des données et l’interrogation au sein de sa propre plateforme », déclare Mike Leone, analyste au sein de l’Enterprise Strategy Group de TechTarget [également propriétaire du MagIT]. « Cela signifie qu’OpenAI sera en mesure d’améliorer la confiance dans les réponses grâce à un accès plus rapide à de plus grandes quantités de données ».

Par ailleurs, certains voient dans la démarche d’OpenAI le signe d’une tendance naissante qui pourrait inverser le paradigme actuel selon lequel les grands spécialistes de la gestion de données investissent dans des startups d’IA plus petites et les acquièrent.

« C’est le début d’une tendance. Les entreprises de données passent des données à l’IA. C’est le cas de Snowflake, Databricks, Oracle, Google. Aujourd’hui, nous constatons que les entreprises d’IA se rapprochent des données », ajoute Sanjeev Mohan, directeur de SanjMo, une société de conseil spécialisé en traitement de données. « À un moment donné, les données, l’analytique et l’IA vont toutes converger, et nous allons donc voir davantage de rachat de ce type ».

Les clients de Rockset doivent migrer

« [Les clients de Rockset] doivent trouver une autre base de données et quitter Rockset. Je suis triste de voir que tout ce développement technologique est en train de disparaître ».
Sanjeev MohanDirecteur de SanjMo

OpenAI ne compte pas pour autant maintenir l’offre de services de Rockset.

En quelques années, Rockset s’est constitué une liste d’utilisateurs renommés, dont Meta, le vendeur de paiements Klarna et JetBlue, selon l’éditeur.

Ces entreprises devront désormais trouver un nouvel éditeur de base de données en temps réel, et ce rapidement. Dans une FAQ sur le site de Rockset, l’entreprise indique que « les clients qui paient au mois ou qui ont des arriérés auront jusqu’au lundi 30 septembre 2024, 17 heures PDT, pour se désengager ».

« Je ne pense pas que ce soit une bonne affaire pour les clients de Rockset », estime Sanjeev Mohan. « Ils doivent trouver une autre base de données et quitter Rockset. Je suis triste de voir que tout ce développement technologique est en train de disparaître ».

Mais pour les entreprises à la recherche d’un fournisseur de GenAI, la technologie de Rockset pourrait les inciter à opter pour OpenAI.

« OpenAI a clairement compris que la prochaine vague d’innovation GenAI se concentre sur les données d’entreprise spécifiques à un domaine. »
Kevin PetrieAnalyste, BARC U.S

Malgré sa réputation, OpenAI reste une entreprise essentiellement tournée vers le grand consommateur. Pendant ce temps, les rivaux de l’IA tels que Google, AWS, Meta et même Microsoft, le propre partenaire d’OpenAI, ont des empreintes beaucoup plus importantes dans les entreprises.

« OpenAI a clairement compris que la prochaine vague d’innovation GenAI se concentre sur les données d’entreprise spécifiques à un domaine », note Kevin Petrie, analyste chez BARC U.S. « Les entreprises doivent organiser leurs données multistructurées… de manière que les modèles de langage et les modèles d’IA puissent les comprendre très rapidement. Rockset offre ces capacités »..

Pour approfondir sur Base de données