Victoria - Fotolia
BigQuery ML : du ML directement dans BigQuery et avec SQL
Google permet aux utilisateurs de BigQuery de développer des modèles de Machine Learning avec SQL, directement depuis l'entrepôt de données cloud via une technologie BigQuery ML
Quand SQL rattrape le ML. A l’occasion de sa conférence Google Cloud Next, Google a publié une version bêta de BigQuery ML, un service dont la vocation est de permettre de bâtir des modèles de Machine Learning (ML) depuis BigQuery, mais en ayant recours à des commandes SQL standard.
Avec BigQuery ML, il n’est ainsi plus nécessaire de déplacer les jeux de données contenus dans Google BigQuery vers un outil tiers pour développer des modèles analytiques. L’autre élément positif avec ce service : la création de modèles de ML est désormais accessible aux analystes de données qui ne connaissent généralement pas les langages plus avancés comme R, Python et Scala – langages utilisés généralement par les data scientists pour bâtir leurs modèles.
Pour l’heure, cet outil souffre encore de quelques limites. Comme l’a précisé Google, BigQuery ML ne supporte initialement que deux types de modèles : les modèles de régression linéaire qui établissent des prévisions, comme les prévisions de ventes, et les modèles de régression logistique binaire qui peuvent être utilisés pour réaliser des segmentations - identifier les courriels comme spam par exemple - et des classifications relativement simples au sein d’ensembles de données. BigQuery ML repose également sur la variante batch standard de la méthodologie de descente de gradient qui pilote les algorithmes au lieu de la version stochastique.
L'approche stochastique « est aujourd’hui beaucoup plus courante dans les systèmes d'apprentissage machine à grande échelle », reconnait d’ailleurs Google dans un billet de blog. Cette variante par lots « présente de nombreux avantages pratiques » en matière de performances, de stabilité et de paramétrage.
Agrandir la base d'utilisateurs du Machine Learning
BigQuery ML ne cible pas les data scientists qui analysent les données stockées dans BigQuery , et cela ne changera pas leur façon de faire, déclare Daniel Mintz, évangéliste en chef chez Looker Data Sciences. La société s’est associé à Google pour faire de sa plateforme de modélisation et d'analyse de données un outil frontal à BigQuery ML. « Les spécialistes des données continueront à utiliser leurs propres outils, ceux avec lesquels ils sont le plus à l'aise », ajoute encore le responsable.
Toutefois, poursuit-il, BigQuery ML a un avantage : donner la possibilité aux nombreux analystes de données « qui connaissent SQL mais n'ont pas encore fait grand-chose avec le ML » de commencer à développer des modèles sans avoir à apprendre de nouveaux langages ou à déployer d’autres outils d'analyse.
Et, dans certains cas, ces spécialistes des données pourraient bien accélérer le processus de modélisation et ainsi, mieux répondre aux besoins des entreprises.
Le studio de cinéma 20th Century Fox est l'un des premiers utilisateurs de la technologie, qu’il exploite à des fins marketing. Miguel Angel Campo-Rembado, vice-président Data Science et analytics de la société explique que son équipe de marketing a besoin de données en continu pour évaluer les campagnes publicitaires et promotionnelles initiées sur les films. « Mais nous avons une équipe réduite de data scientists, et il peut être difficile de répondre à toutes les campagnes.»
Du ML moins compliqué
Selon lui, avec BigQuery ML, son équipe a été en mesure de développer un modèle de régression linéaire en seulement 30 secondes pour analyser les bandes annonces de films. Cela a permis d’identifier l’audience à cibler dans la promotion du dernier film Maze Runner sorti en janvier. Il a juste fallu ajouter une instruction CREATE MODEL à une requête SQL existante dans BigQuery ML pour analyser l'audience. Le modèle a ainsi pu être exécuté rapidement et les résultats livrés aux spécialistes du marketing du studio de Los Angeles « en quelques minutes », soutient le responsable.
BigQuery ML est en fait un ensemble d'extensions SQL pour le ML et l'analyse prédictive. Les modèles sont créés dans Big Query via des requêtes SQL standard. Voici un exemple donné par Google :
CREATE MODEL dataset.model_name.model_name
OPTIONS(model_type='linear_reg', input_label_cols=['input_label'])
AS SELECT * FROM input_table ;
BigQuery ML : il reste encore du travail
Pour l’heure, BigQuery ML est en beta et Google n’a pas précisé quand l’outil apparaîtrait en version finale – donc disponible pour tous. Dans son blog, la société précise travailler à améliorer les performances de la technologie et supporter d'autres types d'algorithmes de ML afin d'élargir les cas d’usage.