vege - stock.adobe.com
AuraDS : Neo4j dégaine sa plateforme de data science en mode SaaS
Comme promis, l’éditeur de la base de données orientée graphes éponyme a annoncé la disponibilité générale de la version SaaS de sa plateforme de data science hébergée sur Google Cloud.
La volonté de Neo4j de proposer des solutions adressées aux data scientists n’est pas un secret. Dans les colonnes du MagIT, Emil Eifrem, CEO de Neo4j, a soutenu le fait que le développement de l’intelligence artificielle offrait des perspectives de croissance non négligeables à son entreprise.
En ce sens, l’éditeur a lancé il y a deux ans une plateforme de traitement de données, sous le nom de graph data Science (GDS). Sa distribution entièrement managée, accessible depuis le 12 avril 2022, s’intitule AuraDS. Elle s’appuie la version 2.0 de GDS fraîchement disponible et sur le SGBD NoSQL Neo4j. Le tout est hébergé sur Google Cloud Platform (GCP).
AuraDS ou Graph Data Science à la demande
AuraDS encapsule l’édition entreprise de Graph Data Science. Tout comme GDS, AuraDS inclut plus de 65 algorithmes graphes associés à un client Python. Ces outils doivent permettre de développer des cas d’usage de machine learning et d’analytique tels que la détection de fraudes, l’optimisation de trajets, la recommandation de produits, ou encore la connaissance des clients.
Dans sa documentation, l’éditeur précise que l’outil fournit les moyens de préparer les données, d’entraîner les modèles à partir d’algorithmes préentraînés et de les déployer en production.
Avec AuraDS, Neo4j entend simplifier le travail des data scientists en leur proposant une interface glisser-déposer pour charger les données (depuis un fichier CSV ou l’utilitaire d’importation d’AuraDB), les modéliser dans les graphes (grâce à l’outil de data viz Bloom) et configurer les flux de traitements.
Tout comme GDS 2.0, la plateforme dispose d’un catalogue dédié aux modèles, et un autre pour les pipelines de traitement. En effet, il existe deux types d’algorithmes et donc deux méthodes de calcul avec cet outil : les premiers servent à traiter les données liées aux nœuds d’un graphe, les seconds aux arêtes qui relient les nœuds.
En outre, AuraDS supporte les connecteurs Apache Spark et Kafka de Neo4j pour traiter les données en batch ou en streaming.
Version managée oblige, l’éditeur propose d’automatiser le contrôle des workloads, des correctifs et des sauvegardes ainsi que les mises à jour de ce produit. Une fonction MLOps doit automatiser la gestion des sauvegardes et des restaurations de modèles. Les données sont chiffrées au repos et au transit, tandis que l’ensemble des backups sont conservés pendant 180 jours.
Neo4j donne accès à deux types d’instances : celles en exécution, et celles en pause. Une instance en pause permettrait de réduire les coûts de 80 % par rapport à une autre en exécution.
Le modèle économique pay-as-you-go dépend d’un tiers « self-start », facturé au prorata de la consommation mensuelle, à partir de 0,125 dollar par Go de RAM par heure et de 0,025 centime de dollar par Go de RAM par heure pour les instances en pause. AuraDS Enterprise est disponible en préversion après la signature d’un contrat annuel.
Là où l’édition entreprise de GDS permet de supporter une quantité « illimitée » d’espace de stockage, de RAM et de vCPU, AuraDS donne accès à des instances comprenant entre 8 et 96 Go de mémoire vive, entre 2 et 20 vCPU ainsi qu’entre 16 Go et 192 Go d’espace de stockage.
AuraDS Enterprise permettra de repousser deux de ces limites à 256 Go de RAM et 40 vCPU. Précisons que, contrairement à AuraDS, cette version Enterprise n’est pas multitenant. Elle doit être déployée derrière un VPC spécifique.
Une plateforme SaaS, mais pas serverless
Le choix de la mémoire vive comme unité de mesure principale n’est pas un hasard : avec Neo4j, les graphes de données résident in-memory. Cependant, les clients ne peuvent pas décider précisément la quantité de RAM ou de calcul dont ils auraient besoin.
Avec AuraDS, il existe sept instances de taille différente. Une instance avec 2 vCPU, 8 Go de RAM et 16 Go de stockage coûte 1 dollar de l’heure (et 20 centimes de dollar en pause). Le prix grimpe de 1 dollar par heure (et donc de 20 centimes quand les instances sont en pause) entre les quatre premières instances. Cette différence de prix passe à 2 dollars (et de 40 centimes en pause) de l’heure entre la cinquième et la sixième instance. L’instance la mieux dotée (20 vCPU, 96 Go de RAM, 192 Go d’espace de stockage) coûte 12 dollars de l’heure et 2,40 dollars en pause. Neo4J ne précise pas s’il est possible de stopper une instance sans perdre les sauvegardes liées aux workloads. De plus, l’éditeur ne garantit pas de SLA. La souscription à AuraDS Enterprise permettra toutefois de négocier les termes du service et d’obtenir des remises sur le volume.
Neo4j bichonne son partenariat avec Google Cloud
Il est possible de payer et de recevoir la facture via la console d’AuraDS ou celle de Google Cloud depuis la Marketplace. Cette seconde option issue du partenariat privilégié entre Neo4j et GCP permet aux clients du fournisseur cloud de s’abonner au service de data science avec leurs crédits obtenus sur engagement d’utilisation.
Justement, AuraDS peut être intégré avec Vertex AI pour les équipes de data science qui auraient décidé d’administrer leurs pipelines de traitement depuis l’environnement de développement de GCP.
Néanmoins, cette exclusivité d’AuraDS sur GCP est temporaire. L’éditeur espère proposer ce produit SaaS sur AWS, puis sur Azure, tout comme il a prévu de le faire pour AuraDB Enterprise.
D’autant que Neo4j n’est pas le premier à offrir un service similaire : son jeune concurrent TigerGraph avait lancé son offre en avril 2021 sur GCP.