Données : Scalytics met en réseau les silos
L’éditeur propose une implémentation du logiciel Open source Apache Wayang. Il s’agit de faire des économies et de gagner en vitesse en pilotant des traitements sur chaque silo de données, plutôt que les rapatrier sur une plateforme de calcul centrale.
Lorsque l’on a fait partie des premiers employés de Cloudera, on dispose d’une certaine expérience de la plateforme Hadoop. Lorsque l’on constate quelque temps plus tard qu’Hadoop ne répond plus aux attentes des utilisateurs, on se penche sur la plateforme Open source Apache Wayang. On en devient l’un des principaux contributeurs et l’on crée une société pour en éditer des versions prêtes à l’emploi. C’est la situation d’Alexander Alten, l’un des quatre fondateurs et l’actuel PDG de Scalytics.
Scalytics Connect, le produit phare de l’entreprise, est une plateforme Open Source qui intègre de manière transparente des sources de données décentralisées, ce qui améliorerait l’efficacité opérationnelle et garantirait une meilleure conformité aux réglementations sur la confidentialité des informations.
Proposer une alternative à la centralisation des données
« Notre mission est de devenir le framework leader pour une IA fédérée et explicable, permettant aux entreprises de créer des systèmes d’apprentissage automatique sécurisés, évolutifs et transparents », lance Alexander Alten.
Alexander AltenCofondateur et PDG de Scalytics
« Exploiter et créer de l’IA est difficile dans un paysage de données fragmenté par silos. Pour résoudre cette difficulté, nombreux sont ceux qui expliquent qu’il faut centraliser les données. Dans un datalake, dans une base de données, comme à l’époque du Big Data. C’est tout simplement faux. »
« En tant que développeur, il est vraiment difficile de créer quelque chose de bon avec un modèle pareil. C’est ce que nous voulons changer », ajoute-t-il.
Alexander Alten prend l’exemple du secteur bancaire qui produit des milliards de milliards de nouvelles données chaque jour et qui s’évertue à tout centraliser, en vain. « Les systèmes de stockage et de données traditionnels ne sont pas conçus pour gérer le volume massif de données que génèrent actuellement les banques. À cette échelle, leurs performances s’essoufflent et ils imposent de déployer des efforts stratégiques incroyables pour minimiser les risques », argumente-t-il.
Utiliser la puissance de traitement des silos de données sources
Scalytics Connects, au contraire, revendique plusieurs avancées technologiques, notamment sa capacité à gérer de gros volumes sans altérer les performances.
Et pour cause, le logiciel repose sur Apache Wayang, un système de traitement de données qui utilise la puissance de traitement de chaque source.
Alexander AltenCofondateur et PDG de Scalytics
« Scalytics Connect est une plateforme lakehouse qui, plutôt que les dupliquer, utilise les magasins de données existants comme moteurs de calcul. Ceci est d’autant plus efficace que nous les faisons tous travailler en même temps », assure Alexander Alten.
Il avance un chiffre : Scalytics Connect aurait permis de préparer, pour une IA, 3 To de données 150 fois plus rapidement que ne l’aurait fait une plateforme Hadoop. Cette comparaison prend en compte le temps qu’il aurait fallu pour importer les données dans Hadoop et celui pour faire tous les calculs au niveau de cet Hadoop.
Avantage supplémentaire, puisqu’il n’est pas nécessaire d’installer une nouvelle infrastructure de données, les coûts sont d’autant réduits.
Au-delà d’une version clés en main d’Apache Wayang, l’entreprise propose aussi différents outils destinés à améliorer la qualité des données. Ils sont regroupés dans une plateforme que Scalytics appelle Blossom Studio.
Un marché fortement concurrentiel
Scalytics ambitionne de réaliser à terme 2,5 milliards de dollars de chiffre d’affaires en capturant 10 % du marché de l’intégration de données en amont d’une IA.
Pour autant, Scalytics est loin d’être le seul à vouloir le faire en proposant une solution qui s’appuie sur Apache Wayang. Ce projet Open source, créé en 2022, compte plus de 33 contributeurs, dont Google, IBM, Cloudera, Databricks.
Le paysage concurrentiel dans lequel évolue Scalytics se compose principalement d’AWS Glue, d’IBM Data Stage, de Starbust ou encore des solutions analytiques de SAS.
Scalytics peut se targuer de travailler avec l’Agence Spatiale européenne, qui utilise Apache Wayang pour fédérer ses systèmes d’observation de la Terre.