L’essentiel sur Oracle Data Science
Oracle a ajouté une gamme de nouveaux services à sa plate-forme cloud pour fournir aux Data Scientists et aux Data Analysts plus de fonctionnalités de gestion et d'analytiques avancées.
Lors de l’Open World Europe 2020 à Londres, Oracle a présenté une nouvelle gamme de services autour de l’analyse des données – Oracle Cloud Infrastructure Data Science – issue de la plateforme DataScience.com qu’il a rachetée en 2018.
Oracle Data Science fournit un workflow automatisé pour le Machine Learning et l’analytique avancée. Oracle lance également un nouveau catalogue de données (data catalog) pour mieux organiser les données des grandes entreprises, ainsi qu’un service cloud SQL pour interroger les dépôts de données hébergées dans les clouds, et un service baptisé Data Flow, un Spark « as a service » dédié à l’analytique Big Data.
« Oracle a fait son nom dans les bases de données et il reste à ce jour un leader dans ce domaine », commente l’analyste de Nucleus Research Daniel Elman. « Avec ces services, il tire parti de son expertise en matière de gestion de données pour proposer aux milliers de clients de sa base une voie “naturelle” pour leur permettre de lancer des initiatives de Data Science sans avoir à migrer leurs données ou à se former à de nouveaux outils spécialisés ».
Automatisation et collaboration pour la Data Science
Oracle présente son service Data Science comme un moyen pour des équipes d’analystes de travailler ensemble pour générer des modèles de Machine Learning et les appliquer ensuite à des applications en production.
Il se compose d’un environnement de projet qui met automatiquement en place l’infrastructure sous-jacente et le réseau nécessaires pour accéder aux données, et les outils nécessaires à l’analyse, explique Greg Pavlik, SVP en charge du développement produits, des données et de l’IA chez Oracle.
Parmi ces outils, une fonctionnalité de Machine Learning automatisé peut gérer des tâches courantes comme la présélection des algorithmes.
Oracle se lance dans le marché du Data Catalog
En parallèle, l’éditeur lance un catalogue de données pour aider les organisations à suivre tous les jeux de données qui entrent dans un déploiement.
« Supposons que vous mettiez en place un entrepôt de données, nous pouvons l’introspecter et permettre aux utilisateurs – Data Scientists, Data Stewards, analystes métiers – de découvrir quelles données sont disponibles, qui en est responsable et à quoi elles sont destinées », explique Greg Pavlik.
Le catalogue de données offre également des capacités de tagging pour que les administrateurs puissent définir des taxonomies et commencer à organiser les jeux de données de manière hiérarchique.
Data Flow pour le Big Data avec Spark
Le service Data Flow répond à un besoin différent. Il permet d’exécuter des jobs Apache Spark à la demande dans le cloud Oracle.
Pour Greg Pavlik, un des plus gros défis auxquels les organisations sont confrontées, quand elles exécutent des jobs analytiques avec Spark, est qu’ils sont le plus souvent exécutés sur des clusters Hadoop, ce qui introduit une complexité supplémentaire.
À l’inverse, vante-t-il, « tout ce qui est nécessaire pour exécuter un workload Big Data dans Data Flow, c’est d’uploader le script, de cliquer sur une application – qui est en quelque sorte le pointeur vers le script – puis de spécifier sur combien de CPU le job doit s’exécuter ».
« Nous allons traiter le job à la volée dans une architecture totalement serverless, qui s’exécute en quelques dizaines de secondes », continue-t-il. « Nous voyons vraiment cela comme un bond générationnel dans la manière de rendre le Big Data consommable par les entreprises ».
Oracle renforce également ses capacités analytiques cloud avec son offre cloud SQL. Cette offre est conçue pour exploiter les capacités du SQL sur des jeux de données hébergés. « De cette manière vous pouvez avoir un data lake cloud et lui appliquer toute la richesse sémantique de la base de données Oracle », explicite Greg Pavlik.
Aussi un service d’intégration de données en approche
En plus de ces services d’Oracle Data Science, l’éditeur à quelques projets en cours pour les compléter. Parmi ceux-ci, Greg Pavlik promet un service d’intégration de données avec des capacités de préparation de données et d’ETL.
« [Ce service] vise à trouver le moyen le plus efficace et le plus rentable de gérer les éléments d’un flux de données et de les filtrer, et à réduire au minimum les mouvements de données », précise Greg Pavlik. « Il est également doté d’une vue immersive des données, ce qui permet de creuser dans les datasets, de les comprendre et de mieux les manipuler ».
En une annonce, Oracle se pose donc à la fois en nouveau concurrent direct de Dataiku, Databricks, et autres DataRobot (workflow de Data Science) ; de Collibra et d’Alation et autres Tibco (Data Catalog) ; et de Talend ou Informatica (ETL).