WavebreakmediaMicro - Fotolia
Data Processing : OVHcloud vante les qualités de son Spark à la demande
OVHcloud a lancé depuis peu un service nommé Data Processing, sa distribution managée du framework Apache Spark dans son cloud. Le fournisseur compte convaincre les startups à la recherche du meilleur coût/performance et les grands groupes en quête d’infrastructures souveraines.
OVHcloud poursuit les développements de ses services cloud public (ou Public Cloud dans sa nomenclature), notamment auprès des entreprises qui ne souhaitent pas passer par les ténors américains pour traiter leurs données.
OVH développe depuis trois ans des offres consacrées aux traitements de la donnée et l’IA. « S’il y avait bien des services de bases de données, des systèmes de gestion de logs, de séries temporelles, quand je suis arrivé il y a trois ans, nous cherchions à être plus forts sur ces parties-là », indique Jean-Louis Quéguiner, Directeur Data et IA chez OVHcloud. « Nous avons eu une accélération très forte l’année dernière avec la disponibilité des outils Big Data as a service », ajoute-t-il.
Le fournisseur a enrichi ses catalogues Data Analytics et AI & Machine Learning. Après Big Data Cluster (Hadoop), Data Collector (Apache Kafka, en bêta), il introduit OVHcloud Data Processing. Data processing est « tout simplement » une distribution gérée d’Apache Spark.
Les utilisateurs d’AWS connaissent bien EMR ou Glue, ceux de Microsoft Azure passent par Azure HDInsights (ou par Azure Databricks) et chez Google, ils peuvent passer par Data Proc. OVH veut se différencier des géants du cloud.
« Notre objectif c’était de faire du traitement de données scalable. Les utilisateurs de Spark et d’Hadoop sur site ont des workloads qui varient pendant la journée, mais il y a souvent des pics de workloads toutes les heures ou vers minuit. Il faut souvent dimensionner son infrastructure pour supporter ces pics ou attendre que le trafic diminue pour exécuter son traitement », explique Jean-Louis Quéguiner. OVHcloud entend répondre à ce besoin avec Data Processing.
Le grand atout de Data Processing, selon le fournisseur ? Des clusters « préchauffés ». « Il n’y a pas besoin de provisionner l’infrastructure pour utiliser le cluster Spark. Chez les concurrents, il y a un temps de préchauffe qui n’est pas négligeable, et il faut payer le provisionnement de l’infrastructure là où nous proposons d’exécuter un job en quelques secondes » vante Jean-Louis Quéguiner.
OVH à une « potion magique » pour ses clusters Spark
La société de conseils Novagen Conseil, partenaire d’OVH, utilise le service pour la plupart des jobs de ses clients, que ce soit, l’amélioration de la qualité des données, des traitements BI ou du machine learning. Hubert Stefani, Chief Innovation Officer chez Novagen, explique dans une vidéo qu’il n’a pas à attendre 15 minutes avant de lancer un job.
Jean-Louis QuéguinerDirecteur Data et IA, OVHcloud
LeMagIT bien tenté de savoir comment OVH préchauffe ses clusters, mais selon le Directeur Data et IA, il ne faut pas dévoiler « la recette secrète ». « Nous avons l’habitude d’optimiser des workloads à grande échelle, mais c’est quelque chose que nous préférons garder pour nous : c’est la magie OVH », déclare-t-il, malicieusement.
L’autre qualité de Data Processing, défendue par son fournisseur, c’est sa compatibilité avec les versions standards open source de Spark.
« Nos API et notre CLI sont standards, cela veut dire que je peux remplacer mon système Spark personnel par Data Processing sans adaptation. Il n’y a pas de personnalisation comme on pourrait l’imaginer sur des systèmes annexes, nous voulons conserver une réversibilité et pouvoir nous assurer d’accueillir les workloads des clients qui souhaitent faire du débordement sur notre cloud public ».
Assurer une compatibilité avec la version standard de Spark
Data Processing prend pour le moment en charge la version 2.4.3 de Spark et les jobs peuvent être codés en Java 8, Scala 12, Python 2.7.x, Python 3,4 et supérieur. « Point important, nous gérons les dépendances de Python, ce qui n’est pas donné à tout le monde. Nous nous sommes assurés que les data scientists n’aient pas à se forcer à utiliser un langage de programmation avec lequel ils ne seraient pas à l’aise », précise Jean-Louis Quéguiner.
Selon la documentation du fournisseur, il faut charger les jobs Spark depuis un compte OVHcloud Object Storage. Les clients peuvent utiliser un stockage objet connecté pour traiter les données avec Data Processing. OVHCloud propose Object Storage, mais il est possible d’utiliser d’autres services cloud comme Amazon S3 ou tout autre stockage connecté à l’Internet public.
Data Processing est pour l’instant disponible sur une seule région cloud, c’est-à-dire depuis le centre de données de Gravelines (GRA). Les calculs sont réalisés à l’aide de ressource CPU et RAM. Un job peut disposer au maximum de 60 Go de RAM et 16 cœurs CPU par nœud exécuteur, pour une durée maximale de 24 heures (Spark dispose d’un nœud orchestrateur, qui orchestre une tâche et des nœuds de travail, des exécuteurs).
Dans la vidéo de présentation de Novagen, l’on remarque qu’il est possible de paramétrer des machines dotées de 4 vCore avec 8 Go de RAM ou 12 vCore avec 24 Go de RAM, par exemple. La prise en charge des workloads via des GPU arrivera prochainement.
Par ailleurs, l’équipe d’OVHcloud veut étoffer le nombre de versions du moteur Spark. Les équipes sont en train de préparer l’ajout de Spark 3.0 dans Data Processing, mais le fournisseur ne veut pas imposer la dernière version en date.
« Les clients ont tout de même des flux BI et de data science en production. Migrer de la version 1.6 à la 2 a été un enfer pour beaucoup de clients et migrer de Spark 2.x à la version 3.x sera également compliqué, parce qu’il y a beaucoup de paramètres qui changent. Nous gardons à l’esprit que l’existant des clients est leur réalité : la mise à jour de codes a un coût non négligeable », déclare le directeur Data et IA chez OVHcloud.
OVH souhaite imposer des tarifs compétitifs
Sur son site web, OVHcloud affiche une tarification à l’heure « pour des raisons de simplification », mais le véritable décompte est à la minute. La mémoire vive est facturée 0,0162 euro HT par heure et par Go, tandis que l’utilisation CPU est tarifiée 0,06 euro HT par heure et par Vcore. Il faut ajouter à cela l’utilisation d’Object Storage pour charger les jobs, soit 0,01 euro HT par Go par mois pour les données répliquées trois fois et 0,01 euros HT par Go pour le trafic sortant (le trafic entrant est inclus).
« Nous maîtrisons toute la chaîne de valeur et nous assemblons nous-même les composants qui iront dans nos centres de données suivant les services proposés. En termes de tarification, cela nous permet de nous placer systématiquement en dessous de nos compétiteurs », assure Jean-Louis Quéguiner.
Jean-Louis QuéguinerDirecteur Data et IA, OVHcloud
OVHcloud considère que Data processing est avant tout consacré aux activités de reporting, de suivi des clients (notamment via la librairie MLib intégrée à Spark) ou l’analyse de paniers dans l’e-commerce, mais ne veut pas mettre le nez dans les jobs de ses clients.
« Il y a un sujet de souveraineté de la donnée chez nos clients, en particulier chez les grands groupes. Là où les startups cherchent avant tout le rapport performance/prix, les entreprises adoptent des infrastructures dédiées pour des raisons de protection de la propriété intellectuelle », déclare le directeur Data et IA.
OVHcloud veut étoffer ses services dédiés à l’IA
En ce qui concerne le machine learning, OVHcloud avait présenté en juin dernier ML Serving, un service de déploiement et de maintien des algorithmes en production, exécuté depuis une infrastructure dédiée.
« Comme notre version managée de PostgreSQL, Data Processing et MLServing sont venus des contraintes en interne », assure Jean-Louis Quéguiner. Concernant ML Serving, nous avons énormément de sujets de machine learning et nous avions un problème de maintien en condition opérationnelle de nos algorithmes. Les clients avaient les mêmes problèmes que nous ».
ML Serving permet d’exporter des modèles depuis Dataiku ou encore H20.ai, mais aussi des frameworks open source comme Scikit-learn, Pandas ou Keras. Le service accepte les modèles au format ONNX, PMML et TensorFlow. « ONNX est le standard de l’industrie sur lequel tout le monde est en train de converger. Dans les quelques semaines à venir, nous allons proposer du ML Serving nativement compatible avec Pytorch, Tensorflow et d’autres surprises », promet Jean-Louis Quéguiner. « Nous voulons nous rapprocher des environnements des data scientists pour faciliter les déploiements ».
D’autres produits dédiés à la data science et à l’analytique seront donc bientôt présentés, sûrement au début du mois de novembre 2020, lors de son événement OVHcloud Ecosystème Experience.