Qu’est-ce que le Data Wrangling ?
Le Wrangling est une variante, subtile, de la Data Preparation. Il tire son origine de l’imagerie du Grand Ouest américain et de ses cowboys. Le mot est principalement utilisé par Trifacta.
Après avoir éclairci la différence entre la Data Préparation et la Data Exploration, une notion connexe restait dans la brume du nouveau vocabulaire de la BI et de la donnée : le Data Wrangling, terme utilisé par la prometteuse startup Trifacta.
« Le data wrangling et la préparation de données sont très similaires », admet sans détour Trifacta.
Ceci étant, les deux ne sont pas exactement identiques. « La distinction entre les deux vient de ses origines géographiques et culturelles », avance l’éditeur.
La donnée « bétail » et l’utilisateur « cowboy »
Pour bien saisir ce contexte culturel, il faut savoir que le mot Wrangling est quasiment entré dans le vocabulaire commun de la côte ouest. « En Californie, vous pourriez dire à votre enfant : “Wrangle your room!”. Ce qui signifie en français “range cette pagaille” », explique Bertrand Cariou, Senior Director Partners & Solutions chez Trifacta dans un échange avec LeMagIT.
À l’origine, le terme est en fait lié aux cowboys et au bétail – et donc à l’imagerie des grands espaces et des pionniers américains.
« Un Wrangler est un cowboy qui doit regrouper son bétail éparpillé dans les plaines du Grand Ouest, une activité laborieuse, salissante, harassante, mais absolument nécessaire », resitue Bertrand Cariou. « Le travail de la préparation de données est similaire, d’où l’analogie avec le terme Data Wrangling ».
Historiquement, la notion de Wrangling a été évoquée dans un contexte BI en 1997 dans une publication sur la préparation de données co-écrite par un professeur de Berkley et un de ses étudiants. Quatorze ans plus tard, en 2011, un de leurs disciples incarne concrètement ces concepts dans un outil open source (le Stanford Wrangler) qui connaît rapidement le succès.
Les trois universitaires – le professeur Joe Hellerstein, l’étudiant Vijayshankar Raman et le disciple Sean Kandel – fondent alors Trifacta.
Différence avec la Data Preparation et la Data Exploration
La différence entre Data Wrangling et le duo Data Prep/Exploration est au final assez ténue. Trifacta ne le nie pas.
Pour faire le distinguo, l’éditeur met néanmoins en avant l’utilisation de l’Intelligence Artificielle pour guider l’utilisateur dans son processus de préparation « et donc rendre sa tâche plus aisée, car l’outil fait en partie le travail pour lui ».
Deuxième distinction, le Data Wrangling est – toujours dixit Trifacta – associé à des données au format complexe ou/et à de très grosses volumétries. Plusieurs clients, dont LinkedIn, l’utilisent par exemple sur des clusters Hadoop.
Créé en 2012, Trifacta s’est implanté en Europe en décembre 2015 en ouvrant deux antennes à Londres et à Berlin. La startup a depuis ouvert un bureau parisien d’où elle gère l’Europe du Sud et l’Afrique du Nord.