Pour Neopost, Hadoop est d’abord une base de données plus rapide
Neopost, le numéro deux mondial des équipements de salle de courrier, a testé le Big Data avec Hadoop, dans le but d'analyser ses données plus rapidement qu'avec ses bases SQL traditionnelles.
Neopost, le numéro deux mondial des équipements de salle de courrier, a testé le Big Data avec Hadoop, dans le but d'analyser ses données plus rapidement qu'avec ses bases SQL traditionnelles.
« Lorsque nous voulons effectuer des simulations sur nos bases dites structurées, nous posons une question à la machine et nous partons nous faire un café en attendant la réponse ! Après avoir eu en mains les premières versions d’Hadoop, et constaté qu'il fonctionne en cluster, j'ai eu l’intuition qu’il pourrait être plus rapide pour répondre à nos questions », lance Hugues Le Bars, le Chief Data Officer de Neopost.
Et d'expliquer combien la vitesse d'analyse est déterminante chez Neopost : « notre activité est très contrainte. Par exemple, nos machines à affranchir ne doivent pas contenir de produits toxiques, selon une norme européenne qui évolue tout le temps. Si bien que, lorsque nous broyons une machine, nous devons à chaque fois analyser ses poussières et, le cas échéant, remonter très vite la chaîne de nos fournisseurs pour trouver une solution qui soit aux normes », dit Hugues Le Bars.
Tester Hadoop dans le cadre d’un projet pilote
Problème, Hadoop est encore jeune. Et il n'est pas question pour Neopost d'investir dans le déploiement de cette solution uniquement pour voir si elle est plus rapide que les bases SQL déjà en place.
« Nous avons donc pris et le parti de tester des versions gratuites des logiciels et de les déployer sur des machines virtuelles peu chères dans le Cloud public Google Engine », raconte Hugues Le Bars. Il aurait tout aussi bien pu choisir les Clouds IaaS d'Amazon ou de Microsoft, mais Hugues Le Bars les avait déjà expérimentés sur d'autres projets.
« Quand on fait du Big Data, il y a la volonté derrière de transformer les processus de l'entreprise et donc un certain appétit pour tester toutes les nouvelles technologies qui nous permettraient d'y parvenir », s'amuse-t-il à dire ! Et d'expliquer que les essais sur Hadoop ont été faits à la manière d'un projet pilote.
De fonctions haut de gamme pour un prix minimal
En pratique, Hadoop et un système Open source - donc disponible gratuitement - qui s'installe sur un ensemble de serveurs et chacun d’eux stocke et traite directement une partie des données.
Et aussi
« C'est ce qui explique la rapidité des traitements. Car pour analyser certaines données, on va se servir des CPU et de la RAM qui sont au plus proches de ces données. Et, cela, sans qu’il y ait d’interaction avec d’autres opérations de lecture ou d'écriture qui se déroulent simultanément sur d'autres parties du cluster », détaille Hugues le Bars.
Il ajoute qu’Hadoop stocke chaque donnée en trois exemplaires, à différents endroits du cluster : « ce dispositif, qui offre déjà une tolérance aux pannes supérieures à celles des bases SQL (lesquelles ont juste un Master et un Slave globaux), permet surtout de toujours trouver un serveur disponible pour traiter telles ou telles données », dit-il.
En ce qui concerne la visualisation des données à proprement parler, Hadoop n’offre rien de natif, mais il s’interface avec les logiciels du marché. « Toujours dans une optique de coût minimal, nous avons donc opté pour une version de démonstration de Tableau. Bien entendu, elle ne fonctionne que pendant un mois. Mais, après tout, c'est bien la durée maximale que nous voulions accorder à ce test », sourit Hugues Le Bars.
Reste l’ingestion des données existantes dans Hadoop et l'apprentissage de leur manipulation dans le nouveau système. « Nous nous sommes fait accompagner par une société extérieure. C'était le strict minimum pour apprendre », affirme Hugues Le Bars. Cette prestation aura au final porté le coût du projet à 20 000 €.
Hadoop est plus rapide, plus précis et manipulable par les DBA
Le test est concluant. « Non seulement les simulations sont devenues immédiates, mais, chose surprenante, les résultats différaient quelque peu des analyses similaires que nous avions effectuées sur nos bases SQL », s’étonne encore Hugues Le Bars !
Lui et son équipe se rendent alors compte que les données remontées des machines à affranchir, des outils de création documentaire, des logiciels de CRM, ou encore des annotations des transporteurs de colis, arrivent plus ou moins tronquées dans les bases SQL. « En réalité, pour être structurées, ces données sont converties par des ETL et des scripts.
Or, sans que nous nous en rendions compte, certains processus avaient réduit le nombre de chiffres après la virgule, voire avaient converti les valeurs en entier », commente-t-il. Avec Hadoop, au contraire, les données ne sont pas converties. Elles sont récupérées directement à la source et elles entrent avec leur format d'origine dans le cluster.
Autre enseignement, bien qu’Hadoop ne soit pas une base structurée, les DBA (administrateurs de base de données) parviennent tout de même à s'en servir. « Hadoop offre Hive, une interface pour manipuler des données avec des requêtes SQL. On y trouve également Pig, un langage de script qui rappelle Python et auquel nos DBA ont pu se former en deux semaines. Franchement, il faut arrêter de dire que le Big Data implique le remplacement des DBA par des Datascientists », Lance Hugues Le Bars !
Hortonworks HDP est à Hadoop ce que Debian est à Linux
À l'issue de ce test concluant, les métiers on manifesté la volonté de déployer Hadoop de manière opérationnelle chez Neopost. L'étape suivante consiste donc à convaincre la DSI d'adopter cette technologie qui na rien n'a voir avec l'existant.
« Il y a plusieurs versions d'Hadoop. Et pour que notre Proof-of-Concept se transforme en projet opérationnel, il fallait proposer une solution cohérente », dit Hugues Le Bars.
Ainsi, il n'a pas fait le choix des distributions commerciales d’Hadoop - Cloudera ou MapR - parce qu’elles proposent des outils propriétaires qui adressent des besoins autres que ceux de Neopost. Il n'a pas non plus choisi les codes sources d'Apache.
« Le problème des projets Open source et qu'il faut les auditer. Si je compile moi-même des versions Apache, je risque de voir arriver un régulateur qui me demandera de prouver que ma solution est bien aux normes. J'ai donc choisi la distribution HDP 2.2 d’Hortonworks, parce que c'est qu'un Hadoop prêt à l'emploi, qui est validé par une communauté d'utilisateurs », commente Hugues Le Bars.
Selon lui HDP est l'équivalent pour Hadoop de ce qu'est la distribution Debian pour le monde Linux.
À date Neopost a mis en place deux projets Hadoop, l’un pour sa Supply Chain, l’autre pour faire de la Business Intelligence. À terme, Hugues Le Bars compte investiguer les autres promesses de cette solution Big Data, à savoir croiser les bases des différents métiers et voir s’il peut y découvrir de nouvelles opportunités commerciales pour Neopost.