Nomad_Soul - Fotolia
Dremio : le rival de Databricks lève (encore) des fonds
L’éditeur lève à nouveau des fonds alors que la demande autour des plateformes de gestion de données dans le cloud continue de croître, les entreprises cherchant à améliorer leurs déploiements BI et analytiques.
Le 25 janvier, Dremio a annoncé une levée de fonds de 160 millions de dollars dans le cadre d’un tour de table de série E. La valorisation du fournisseur de data lake atteint désormais 2 milliards de dollars.
Dremio n’est pas encore un nom connu de tous en Europe, mais l’entreprise basée à Santa Clara en Californie avait déjà collecté 135 millions de dollars l’année dernière. Cette série D avait été dévoilée le 6 janvier 2021.
Dremio, le data lake pour la BI et l’analytique
La plateforme de Dremio permet aux utilisateurs de s’appuyer sur le stockage en cloud pour des lacs de données, avec la possibilité d’organiser et d’interroger les données pour des besoins décisionnels, les opérations et l’analyse de données.
Le succès du financement de Dremio est en partie dû à la demande globale du marché et à l’intérêt grandissant des investisseurs pour ce segment. Databricks, fournisseur rival de plateformes de lacs de données, a été extrêmement actif l’année dernière, en accumulant 2,6 milliards de dollars en deux récoltes en 2021.
« Nous constatons que les data lakes demeurent complexes à déployer et à gérer d’après les doléances de nos clients », déclare Noel Yuhanna, analyste chez Forrester. « La plupart des organisations étant confrontées à l’explosion des données, leur transformation en indicateurs exploitables nécessite un temps et des efforts considérables, ce qui a pour conséquence d’impacter la croissance et l’innovation. »
Dremio contribue à accélérer les applications commerciales basées sur des lacs de données de plusieurs façons, selon Noel Yuhanna. Dremio aide à automatiser l’ingestion, l’accès et le traitement des données dans les data lakes pour les data scientists, les analystes et usagers de la BI, les ingénieurs et autres consommateurs de données.
Hyoun ParkAnalyste, Amalgam Insights
En outre, l’analyste de Forrester souligne que Dremio possède une expertise en matière de gestion des données, puisqu’il prend en charge le projet open source Apache Arrow, permettant d’effectuer des analyses in-memory.
Selon Hyoun Park, analyste chez Amalgam Insights, l’une des principales tendances analytiques de cette décennie sera de débloquer la capacité d’analyser toutes les données qui, traditionnellement, étaient trop désordonnées ou arrivaient trop rapidement pour être traitées.
« Le financement de Dremio reflète l’énorme opportunité qui existe sur le marché à analyser toutes les données des entreprises. Il tend également à prouver que les champions de cette nouvelle ère de l’analytique seront désignés au cours de cette décennie », anticipe Hyoun Park. « L’accent mis par Dremio sur l’accélération des requêtes et la puissance de calcul dédiée à l’analytique, sans avoir à investir dans une énième base de données, est un point de départ attrayant pour les entreprises qui cherchent à adopter rapidement un data lake. »
Sur son site Web, l’éditeur présente son data lake comme le « Lake house SQL ». En reprenant la terminologie de Databricks, Dremio entend se différencier de son adversaire qui à son lancement s’adressait davantage aux data scientists qu’aux data analysts.
Quant à savoir pourquoi Dremio récolte des fonds maintenant, Tomer Shiran, cofondateur et chef de produit, affirme que l’éditeur s’est développé au cours de l’année dernière en augmentant ses revenus et son nombre de clients, mais qu’il n’a toujours pas dépensé l’argent qu’il a levé en 2021.
Entre-temps, l’entreprise a réalisé que la technologie suscitait beaucoup d’intérêt de la part des investisseurs et que le marché était vaste. Il a souligné que pour être compétitif, Dremio a besoin d’un « trésor de guerre » pour financer les efforts techniques et de mise sur le marché en cours.
La direction générale prise par Dremio est celle d’une offre publique initiale (IPO), annonce Tomer Shiran.
« L’objectif est de construire une grande société publique autonome », poursuit-il. « Nous n’avons pas de calendrier spécifique en tête pour une introduction en bourse, mais c’est définitivement le chemin vers lequel nous nous dirigeons. »
Une feuille de route bien remplie en 2022
Tomer Shiran a de grands projets pour Dremio en 2022, car l’éditeur continue de développer sa plateforme.
En 2021, Dremio a lancé son initiative Dart, une série d’efforts conçus pour aider à accélérer la performance des requêtes du lac de données. Cet effort pour améliorer encore les performances avec l’initiative Dart se poursuivra en 2022, déclare le cofondateur.
Dremio continuera également à étendre l’intégration de son data lake avec le projet open source Apache Iceberg. Iceberg est un format de table conçu pour les gros volumes de données.
Iceberg, qui est désormais à la base de la plateforme de Dremio, est en concurrence avec la technologie open source Delta Lake créée par Databricks, le rival de Dremio.
Dremio prévoit aussi d’embarquer la technologie open source Apache Arrow Flight SQL.
Pour rappel, Apache Arrow Flight est un framework RPC basé sur les formats gRPC et IPC, prévu pour charger ou télécharger des lots de données au format orienté colonne d’Arrow. Grâce à la parallélisation des transferts, Flight doit permettre de tirer des flux de données simultanés d’un cluster.
Pour gagner en performance face aux autres protocoles en place, les responsables du projet ont œuvré à « réduire le coût de la sérialisation des données » à leur destination, c’est-à-dire que la représentation des données tabulaires du protocole de transport « on wire » et celle de l’API public s’appuient toutes deux sur le format Arrow et nécessite pas de conversion à leur réception. L’autre effort a consisté à réduire au maximum le nombre de copies des enregistrements en mémoire. Résultat, les vitesses de transfert se frottent à celles du protocole RoCe, selon Wes McKinney, co-créateur d’Apache Arrow.
Apache Arrow Flight SQL, quant à elle, est une API rattachée à Arrow Flight conçue comme un « pilote universel » pour JDBC. Au lieu d’employer un connecteur spécifique qui réclame souvent de télécharger un driver supplémentaire, Dremio propose d’exposer un point de terminaison qui ne dicte pas la manière dont le client et le serveur communiquent, mais qui dispose de la bonne couche pour interpréter l’implémentation de la couche SQL de la base de données.
Tomer ShiranCofondateur et chef de produit, Dremio
Selon Tomer Shiran, l’approche Flight SQL peut rendre les requêtes beaucoup plus rapides qu’en utilisant uniquement la connectivité de base de données Java (JDBC) ou la connectivité de base de données ouverte (ODBC), qui sont généralement utilisées pour permettre les requêtes.
Dremio cherche également à poursuivre le développement et l’intégration du projet open source Nessie pour les capacités de data catalog dans les lacs de données. Nessie s’inspire fortement des systèmes de contrôle de version comme Git, mais entend appliquer ce principe à des tables de données Iceberg, Delta Lake ou des vues SQL pouvant comporter des millions de fichiers.
« Il existe une réelle opportunité de créer un bien meilleur métastore de données centré sur le cloud », assure Tomer Shiran.