Data Science : le français ForePaaS a un coup d’avance sur ses clients

Le spécialiste de la data preparation et de la data viz veut aujourd’hui industrialiser la data science. Mais ses clients ne seraient pas totalement prêts à développer leurs algorithmes, d’après le PDG de l’éditeur.

Depuis 2013, la startup française ForePaaS (10 millions de dollars levés) se présente comme l’éditeur d’une plateforme multicloud et hybride capable d’automatiser la mise en production et la maintenance de pipelines analytiques ou de machine learning jusqu’à l’intégration de ces flux au sein d’applications.

Selon Paul Sinaï, PDG de ForePaaS, cette industrialisation n’est pas synonyme de gros projets, mais d’une « galaxie de projets » dont la durée de vie varie suivant l’importance des cas d’usage et les besoins de l’entreprise.

« Aujourd’hui, nous observons que l’IA est une promesse stimulante. Tout le monde s’intéresse au deep learning, mais une simple régression linéaire peut répondre aux besoins de la plupart des entreprises », déclare Paul Sinaï.

« La technologie n’est pas forcément votre problème », dit le responsable. « Ce qui vous intéresse, c’est la valeur que vous apportez à vos clients ».

Cette même phrase entendue dans la bouche de responsables de Salesforce ou encore SAP ne veut pas dire que ForePaaS « cache » le fonctionnement de son produit et l’architecture associée derrière un rideau marketing.

Une usine à données automatisée

composants ForePaaS
Les composants accessibles depuis la plateforme ForePaaS.

Cette PaaS propriétaire est composée d’une sorte d’ETL nommé Data Processing Engine, d’une brique de data management ou de gestion des workflows, et d’un outil pour déployer les modèles au sein d’API ou directement dans des applications.  

En 2019, ForePaaS affirme avoir effectué une mise à jour par semaine (52 sprints au total), ajouté 20 nouvelles fonctionnalités et publié 110 articles dans la documentation associée.

« Cette année, nous allons travailler sur la simplification et l’automatisation du déploiement des algorithmes », assure Thomas Trinelle, responsable produit, chez ForePaaS qui a présenté la feuille de route 2020.

Cela commence par assouplir Data Processing Engine (DPE) qui, semble-t-il, garde encore quelques tares de « l’Ancien Monde ». « L’idée, c’est d’apporter de la flexibilité à ce que nous avons déjà créé », assure le responsable. ForePaaS veut faire de son orchestrateur ETL un outil visuel qui permet d’intégrer des fonctions et des scripts de type FaaS codés en Python pour déployer des pipelines de traitements de données sur différentes sources. Pour l’éditeur, ce sont des « Custom Actions ».

Le DPE peut se connecter aux sources de données (base de données, CRM, fichiers Excel, etc.) par API ou par connecteur. L’utilisateur aura également la possibilité de gérer les flux de données à l’aide de déclencheurs paramétrables depuis l’UI. « Jusqu’alors il n’était pas possible de lancer des Custom Actions de manière unitaire. La mise à jour permet d’orchestrer des workflows en temps réel ou sur une base événementielle », précise Paul Sinaï.

ForePaaS développe un éditeur en ligne permettant de modifier les fonctions programmatiques. Celui-ci s’intégrera au dépôt Git des entreprises. Les data engineers pourront profiter du système de versionning de la plateforme afin de modifier les variables à la volée associées aux workflows.

L’éditeur prévoit également d’ajouter un tableau de bord de monitoring des performances de l’infrastructure nécessaire au fonctionnement des algorithmes. À la manière d’un Kibana, celui-ci affiche la consommation des jobs en RAM et en CPU, ainsi que le temps d’exécution de chacun d’entre eux. L’outil conservera un historique des métriques afin de « comprendre l’impact des modèles sur les performances du système » (et de gérer les coûts). Celui-ci sera accessible aux ingénieurs data, dans une approche DevOps.

Même si ForePaaS ne se voit pas en premier lieu comme une fabrique à modèles, la plateforme s’intègre avec plusieurs notebooks et frameworks dédiés à la Data Science : Jupyter, Scikit Learn, Tesseract, TensorFlow et Prevision.io.

En revanche, l’éditeur veut fournir un moyen de ré entraîner les modèles suivant les besoins des entreprises, puis de les compiler dans des « model files » injectables dans des API. Cette fonctionnalité en cours de conception consiste à prendre un jeu de données et d’y appliquer une autre structure que celle auquel il était soumis auparavant via la technique du feature engineering. Le modèle est ré entraîné, puis compilé.

Un point sur l’infrastructure de ForePaaS

architecture forepaas
L'infrastructue sous jacente à la plateforme de ForePaaS.

La PaaS proposée par l’éditeur français repose sur une infrastructure containerisée dont le composant principal est open source. En effet, il utilise la branche ouverte de Kubernetes.

ForePaaS déploie un control plane propriétaire (Cloud Management Platform) qui régit des clusters Kubernetes hébergés sur des clouds comme AWS, Microsoft, GCP, mais aussi OVH. Si l’éditeur utilise bien la branche principale de l’orchestrateur de containers, elle y adjoint des composants maison pour gérer les logs et les métriques, les accès à la plateforme, la sécurité ou encore les proxy.  

Selon l’éditeur, cette infrastructure permet d’obtenir la scalabilité attendue afin de manipuler des flux de données et des algorithmes. Le modèle économique a été adapté en conséquence. Les clients paient une licence, puis des ForePaaS Unit (FPU. 1 FPU = 1 demi CPU, 2 Go de RAM). Ils peuvent déterminer une puissance de calcul ou bénéficier d’une disponibilité à la volée.

En mode cloud hybride, seul le control plane est piloté depuis le cloud public pour assurer les mises à jour. Le reste de l’infrastructure peut être installée sur des instances VMware ou un OpenStack. Pour le client, le déploiement de l’infrastructure est automatisé. L’installation d’une première instance prendrait 4 minutes, selon Paul Sinaï.

Cibler trois nouveaux cas d’usage

Thomas Trinelle estime qu’il y a trois cas d’usage potentiels de la plateforme auxquels veut répondre ForePaaS en 2020. « Premier cas, les clients veulent développer et mettre en production ses algorithmes depuis la plateforme. Auquel cas il connecte son notebook, il l’exporte, l’entraîne et le met en production ».

Deuxième cas, le client a déjà des outils de développement et une équipe de data science. Il veut déployer et entraîner les modèles avec la solution. Troisième cas de figure, ForePaaS s’adresse aux entreprises qui cherchent à intégrer leurs algorithmes dans des applications en « glisser-déposer ».

Pour favoriser l’adoption de sa plateforme, ForePaaS a mis au point un guide d’utilisation « rapide ». « Nous vous fournissons des jeux de données, des scripts et en suivant les instructions, n’importe qui peut créer sa propre application data avec des données publiques » vante Thomas Trinelle. L’éditeur a mis au point une cartographie détaillée des outils et des fonctionnalités qu’il propose. Au courant de l’année, ForePaaS veut lancer une version d’essai de 14 jours.

Aider les clients à obtenir leur premier galop en Data Science

En cette fin de mois de janvier, cette feuille de route ressemble à une liste de bonnes résolutions. D’autant que l’éditeur aussi basé à San Francisco estime réaliser 25 % de son chiffre d’affaires aux États-Unis, un marché qui commence à adopter les outils de machine learning.

Si la plupart des fonctionnalités présentées dans cet article sont bien en production, la plateforme a d’abord été conçue comme un moyen automatisé d’ingestion, de transformation, de chargement de données auquel se superposent un outil de requêtes SQL (Query Builder), puis une brique de génération d’application ou d’API de data visualization. En d’autres termes, ForePaaS est d’abord une plateforme Analytique/BI qui a grossi pour intégrer les nouvelles problématiques de la data science.

Or, les clients n’utilisent pas forcément les briques de data science de cette « DataPlant », comme l’appelle l’éditeur.

« Suivant l’origine géographique du client et l’industrie, nous percevons un degré de maturité un peu plus élevé dont certaines parties des secteurs financiers et de l’énergie ». La plupart des clients commencent par « industrialiser à la pelle des dizaines de fichiers, de macros, de types de scripts python appliqués à des tableurs et des bases de données », affirme le PDG de ForePaaS. « Plus de 50 % des clients ont déployé des premiers essais d’algorithmes, mais la plupart répondent à des cas d’usage très précis », constate le dirigeant.

Par exemple, depuis décembre 2019, le transporteur GEFCO s’en sert pour automatiser la préparation de données et leur visualisation afin d’effectuer des rapports d’une activité.

Sans donner le nombre exact de clients, Paul Sinaï affirme que les applications conçues depuis la plateforme sont consultées par plus de 10 000 utilisateurs actifs. ForePaaS répond pour l’instant à des besoins particuliers dans des filiales de Total, EStia, SK E&C, Cora ou encore du Crédit Agricole. En 2019, Gartner a mentionné la « scale up » comme un Cool Vendor du marché des technologies « AI Core ».

Pour approfondir sur PaaS