alex_aldo - Fotolia
Outils analytiques Big Data : dix fonctionnalités indispensables
Vous êtes à la recherche d'un outil d'analyse des Big Data ? Vous devrez vous assurer qu'il permet d'encapsuler et de partager les résultats des analyses, qu'il peut facilement s'intégrer à d'autres applications BI et qu'il supporte le versioning, entre autres fonctionnalités clefs.
L'analyse des mégadonnées (Big Data) est un processus complexe qui implique aussi bien les métiers et les data scientists que les développeurs et les équipes de production.
Voici 10 caractéristiques et fonctionnalités indispensables à un outil analytique Big Data, pour qu'il puisse réduire la complexité du travail des Data Scientists dans leur mission d'améliorer les résultats de l'entreprise grâce à l'exploitation des données.
1 - Résultats encapsulables et partageables
L'analytique Big Data crée véritablement de la valeur lorsque les connaissances générées à partir des modèles de données peuvent aider à prendre des décisions avec d'autres applications.
« Il est primordial de pouvoir intégrer ces informations dans un processus décisionnel en temps réel », avertit Dheeraj Remella, responsable de la technologie chez VoltDB, un fournisseur de base de données in memory.
Pour cela, l'outil doit être capable de créer des aperçus dans un format facilement intégrable, notamment dans une plate-forme décisionnelle de type BI, qui elle même doit d'intégrer ces aperçus dans un flux de données et d'événements pour prendre des décisions en temps réel.
2 - Data Wrangling
Les Data Scientists ont tendance à consacrer beaucoup de temps au nettoyage, à la classification et à l'organisation des données avant leur analyse. Pour faciliter leur tâche, il faut pouvoir intégrer de façon transparente des sources et des types de données disparates, des applications et des API et gérer les accès de manière granulaire et sécurisée, basée sur les rôles.
« Les outils d'analyse des Big Data doivent donc prendre en charge l'ensemble des types de données, des protocoles et des scénarios d'intégration afin d'accélérer et de simplifier ces différentes étapes du Data Wrangling », conseille Joe Lichtenberg, directeur marketing pour les plates-formes de données chez InterSystems, un fournisseur de bases de données.
3 - Data Exploration
L'analytique implique souvent une phase de découverte (Data Discovery) et d'exploration (Data Exploration) ad hoc des données sous-jacentes.
Cette exploration aide à comprendre le contexte fonctionnel d'un problème et à formuler de meilleures questions analytiques.
Toutes les fonctionnalités qui aident à rationaliser ce processus facilitent le test de nouvelles hypothèses, accélère l'élimination des mauvaises données et simplifient la découverte de corrélations cachées dans ces données.
De solides capacités de visualisation (DataViz) peuvent également faciliter ce processus d'exploration.
4 - Être une base pour différents cas d'usages
Il existe plusieurs manières d'exploiter en production les résultats d'une analyse Big Data : Business Intelligence, analyse prédictive, analyse en temps réel ou l'apprentissage machine par exemple. Chaque approche apporte une valeur différente.
Les bons outils d'analytique Big Data doivent être suffisamment fonctionnels et flexibles pour prendre en charge ces différents cas d'utilisation, avec un minimum d'effort et peu d'apprentissage supplémentaire.
5 - Scalabilité
Les Data Scientists ont généralement le luxe de pouvoir développer et tester pendant longtemps différents modèles sur de petits ensembles de données. Mais les modèles qui en résultent doivent fonctionner de manière rentable, et ils doivent souvent produire des résultats rapidement.
Cela exige de ces modèles qu'ils acceptent des montées en charge rapides, en supportant en production l'ingestion et le traitement de grosses quantités de données, et ce sans avoir de coûts exorbitants en matériel ou en services cloud.
« Un outil qui sait accompagner un algorithme dans sa croissance, pour qu'il passe de manière simple du traitement de petits jeux de données à celui de très gros ensembles de données est essentiel », affirme Eduardo Franco, responsable des données chez Descartes Labs, une société d'analyse prédictive. « Beaucoup de temps et d'efforts sont consacrés à cette montée en puissance, donc l'automatisation est d'une grande aide ».
6 - Versioning
Dans un projet Big Data, plusieurs personnes peuvent être impliquées dans l'ajustement des paramètres du modèle d'analyse. Certains de ces changements semblent prometteurs au départ, mais ils peuvent créer des problèmes inattendus lorsqu'ils sont mis en production.
Un contrôle de version (versioning) directement intégré aux outils Big Data peut améliorer leur capacité à suivre ces modifications. Si des problèmes surviennent, il peut également être plus facile de revenir à une version antérieure du modèle d'analyse qui a mieux fonctionné.
« Sans versioning, un changement effectué par un développeur, seul de son côté, peut entraîner un dysfonctionnent de tout ce qui a déjà été créé », constate Charles Amick, vice-président Data Sciences chez Devo, un fournisseur d'outils analytiques pour les données opérationnelles.
7 - Intégration simple
Moins les Data Scientists et les développeurs passeront de temps à personnaliser les intégrations, aux sources de données et aux applications, plus ils consacreront du temps à améliorer les modèles analytiques et leurs usages.
Des intégrations simples facilitent également le partage des résultats avec d'autres développeurs et d'autres spécialistes des données.
Les outils d'analyse Big Data doivent donc s'intégrer facilement avec les applications, les entrepôts de données de l'entreprise et le cloud.
8 - Gestion des données
« Les outils d'analyse Big Data ont besoin, en fondation, d'une gestion des données robuste et efficace pour assurer la continuité et la standardisation de tous les livrables », ajoute Tim Lafferty, directeur de l'analyse chez Velocity Group Development, une société de conseil en analyse de données. « Or la volatilité des données augmente avec leur volumétrie ».
Une plate-forme de gestion de données digne de ce nom aide à maintenir une « source unique de vérité », ce qui est essentiel au succès d'une initiative Big Data.
9 - Gouvernance des données
Les fonctions de gouvernance de données sont importantes pour les outils Big Data. Elles aident les entreprises à rester conformes et sécurisées.
La gouvernance permet de suivre les données (leurs sources et leurs caractéristiques) pour construire des modèles sécurisés et pour gérer leurs flux (déplacements, modifications, etc.) jusqu'aux Data Scientists et aux ingénieurs.
La gouvernance est particulièrement cruciale pour les données sensibles, comme les informations de santé ou les informations personnelles qui doivent être conformes aux réglementations en matière de confidentialité.
Certains outils proposent aujourd'hui la possibilité de « pseudonymiser » les données, ce qui permet aux analystes de construire des modèles fondés sur des renseignements personnels tout en restant conforme au RGPD.
10 - Framework
De nombreux outils d'analyse Big Data se focalisent soit sur l'analyse, soit sur le traitement des données. Mais certains frameworks, comme Apache Spark, supportent les deux.
Ce framework permet d'utiliser les mêmes outils aussi bien pour le traitement en temps réel, que pour les tâches complexes d'extraction, de transformation et de chargement (ETL), ou pour l'apprentissage machine, le reporting ou les requêtes SQL.
Un tel framework est bénéfique parce que la Data Science est un processus hautement itératif. Un spécialiste peut créer 100 modèles avant d'en élaborer un qui sera finalement mis en production. Ce processus itératif implique souvent l'enrichissement des données pour améliorer les résultats des modèles.
« Les outils d'analyse qui unifient ces tâches aident les entreprises à construire des pipelines de données à travers une multitude de systèmes de stockage, souvent en silo, tout en formant et en modélisant des solutions de manière itérative », vante Ali Ghodsi, CEO et co-fondateur de Databricks, un éditeur de plate-forme de data analytics.