metamorworks - stock.adobe.com

H2O veut faire de sa plateforme la fabrique de l’IA pour les métiers

Un peu plus discret que ses concurrents, H2O.ai a aussi des arguments à faire valoir. Parti de l’open source, l’éditeur américain veut réunir ses solutions pour construire une plateforme de data science collaborative, aux mains des data scientists pour les métiers.

Fondée en 2012 à Mountain View, H2O.ai est une startup bien connue des data scientists. Elle développe une plateforme open source in-memory (sous licence Apache 2.0) par-dessus Hadoop, Spark (via Sparkling Water), ou à installer sur une workstation qui intègre dans une librairie de nombreux algorithmes de machine learning et de deep learning (XGBoost, K-means, SVM, AutoML, Random Forest, Gradient Boosting, etc.) écrits en R et Python. Comme avec les autres plateformes, il est possible d’importer des modèles écrits en Java, Scala, Python, JSON via des notebooks Jupyter ou Flow, l’équivalent fournit par l’éditeur.

Une de ses particularités tient dans le fait qu’à l’entraînement les modèles sont exécutés en mémoire depuis un binaire spécifique en R ou en Python. À l’inférence, en production donc, les modèles de scoring sont convertissables aux formats POJO (Plain Old Java Object) et MOJO (Model ObJect Optimized). Ces formats ont été conçus pour embarquer les modèles dans des environnements Java, le langage utilisé pour écrire le cœur de H2O.

Aujourd’hui, cette plateforme libre est utilisée par près de 20 000 « organisations » et 270 000 utilisateurs.

L’AutoML pour les data scientists

Mais H2O ne se contente pas de proposer des solutions open source, elle s’appuie sur celles-ci pour en offrir des versions managées.

« Au cours de ces neuf dernières années, nous avons augmenté notre portefeuille parce que l’intelligence artificielle ne se résume pas à un algorithme d’apprentissage automatique. »
John SpoonerHead of Artificial Intelligence EMEA, H2O

« Au cours de ces neuf dernières années, nous avons augmenté notre portefeuille parce que l’intelligence artificielle ne se résume pas à un algorithme d’apprentissage automatique », déclare John Spooner, Head of Artificial Intelligence, EMEA chez H2O auprès du MagIT. « L’IA revient à prendre les données dans leur forme brute et automatiser le processus de création d’intelligence qui en découle, pour permettre à une organisation d’améliorer sa prise de décision. Une grande partie de ce voyage que les gens entreprennent est très manuelle ».

Pour automatiser ce processus, il s’agit à la fois de proposer des environnements à déployer automatiquement sur le cloud, mais aussi d’automatiser certains processus et de fournir des outils de type MLOps pour suivre l’évolution des modèles en production.

En 2017, H2O a lancé Driverless AI (H2O AutoML dans sa version open source), un outil pour préparer les données, calibrer les paramètres d’un modèle et identifier automatiquement l’algorithme le plus performant répondant à un cas d’usage spécifique sans écrire de code. Google a popularisé cette capacité sous le terme AutoML. Mais John Spooner tient à désamorcer l’effet magique vanté par la plupart des éditeurs. Driverless AI est davantage conçu pour aider les data scientists.

« Un modèle d’IA comprend plusieurs composantes », rappelle le responsable. « Il inclut des caractéristiques optimisées [issu du feature engineering, N.D.R.] obtenues à partir de caractéristiques nominales (features en VO) qui permettent d’améliorer la précision du modèle. Mais il faut aussi sélectionner l’algorithme ainsi que les hyperparamètres. Ce que nous faisons, c’est que nous automatisons ces deux processus distincts en parallèle pour optimiser la métrique choisie par le data scientist », ajoute-t-il.

C’est typiquement le mode d’AutoML choisi récemment par Databricks pour compléter les capacités de son « Lake House ». Avec Driverless AI, le data scientist explore les possibilités d’un modèle généré automatiquement et peut le « fine tuner » à façon si les performances finales ne sont pas à la hauteur de ses attentes.

Wave réunit les briques pour fournir des applications aux métiers

À destination des data et business analysts, la startup propose H2O Wave, une solution disponible depuis décembre 2020.

« C’est différent que de fournir aux business analysts un système qui va bâtir automatiquement un modèle pour eux », explique John Spooner. « Selon nous, les métiers devraient utiliser une application qui résout un problème particulier. Par exemple, un responsable marketing pourrait chercher à déterminer quels leads il doit choisir et suivre. Tous les 10 ou 20 000 prospects, il ne veut regarder que les 10 % les plus importants, parce qu’il n’a pas la capacité à en traiter davantage. Ce que nous avons fait, c’est que nous avons créé des applications qui embarquent des capacités AutoML. Ainsi, le métier utilisera une application pour résoudre son problème, sous le couvert d’une capacité d’automatisation, mais sans se préoccuper de la formation du modèle ».

Cependant, H2O Wave n’est pas directement mis dans les mains d’un métier. Il s’agit en réalité d’un framework open source pour que les data scientists, machine learning engineers et développeurs créent des applications. Le framework supporte les langages Python, HTML, CSS et JavaScript. Wave contient des templates, des composants d’interface, des widgets, des thèmes visuels qui sont censés accélérer la programmation. Les runtimes peuvent être déployés dans des environnements Windows, Linux, macOS ainsi que sur les clouds AWS, GCP et Azure.

La startup assure que son framework est compatible avec les outils et librairies les plus populaires tels scikit-learn, NumPy, Pytorch, matplotlib, TensorFlow ou encore pandas. En revanche, H2O propose bien 6 templates pour des applications consacrées à l’estimation de l’attrition, la recommandation d’achat en ligne, la mesure des « sentiments » (propos positifs ou négatifs) sur Tweeter ou encore l’analyse d’octroi de crédit avec validation humaine.

« Aujourd’hui, deux “personnages” bâtissent des applications Wave : des employés de H2O qui travaillent pour nos clients et des data scientists, ou des membres de la communauté qui créent leurs propres applications Wave », indique John Spooner.

« Dans les prochains moins, nous lancerons une place de marché pour que la communauté puisse partager ou vendre ses applications ».

Dans un premier temps, les « Apps Wave » sont disponibles dans l’app store de H2O Hybrid Cloud, la plateforme de la startup réunissant H2O3, Driverless AI, Wave et H2O MLOps, disponible depuis janvier 2021. La startup y ajoute plus de « 100 recettes AutoML pour Wave ».

Basée sur une architecture Kubernetes, la plateforme peut être exécutée dans le cloud (AWS, GCP ou Azure) et sur site. En plus des capacités d’automatisation de la plupart des étapes de data science (notamment pour les données times series, le traitement des images et du langage, selon Gartner), l’éditeur évoque plus de 200 connecteurs vers les environnements HDFS, de stockage objet (Azure blob storage, S3, Google Cloud Storage), ou des bases de données, ainsi que des fonctionnalités d’explicabilité.

Dans son Magic Quadrant 2021 consacré aux plateformes de data science, Gartner saluait les capacités d’automatisation des outils de H2O, considéré comme visionnaire, mais soulignait « une marge d’amélioration » en matière de préparation de données. Le cabinet explique également que Driverless AI est dépendant des partenariats technologiques, puisque les images Docker ne sont compatibles qu’avec les environnements RHEL et IBM dans le cloud ou sur un serveur équipé d’un GPU Nvidia, et sur Ubuntu, Windows ou macOS sur des workstations, mais sans accélérateur graphique dédié. Surtout, Gartner remarque que si l’éditeur cible les différents personas d’une équipe de data science, il lui manque encore une forme de cohérence et de moyens pour faire collaborer les utilisateurs. H2O.ai tente de résoudre ce problème avec Hybrid Cloud.

H2O prend la vague Snowflake

H2O souhaite également prendre la vague Snowflake, le datawarehouse cloud qui a le vent en poupe. Contrairement à ses concurrents, il ne disposait pas de moyens natifs pour exécuter des modèles sur les données en Python, R ou en Scala. Ces capacités sont encore en préversion. Le fournisseur a en revanche amélioré sa capacité à supporter des programmes Java (via Java UDF), fonctionnalité sur laquelle beaucoup d’éditeurs dont Informatica, DataRobot, ThoughSpot et H2O, misent.

« Nous n’inférons pas du code Python, parce que ce n’est pas une manière efficace d’exécuter un modèle en production », assure John Spooner. « Au lieu de ça, nous créons un résumé du modèle de scoring via les formats POJO et MOJO qui peuvent fonctionner dans un framework Python, mais aussi dans des environnements C++ et Java. Nous travaillons en étroite collaboration avec Snowflake pour exécuter ces modèles dans le datawarehouse », annonce-t-il.

Parmi ses premiers clients, H2O évoque PayPal et Wells Fargo que la startup positionne en tant que pionniers de l’utilisation de l’IA en production. Aujourd’hui, la société qui a levé plus de 147 millions de dollars revendique « plusieurs centaines de clients » sans en dévoiler le nombre exact (le privilège d’une entreprise privée). En France, l’éditeur cite EDF comme l’une de ses références.

Pour approfondir sur Intelligence Artificielle et Data Science