Sergej Khackimullin - Fotolia

Travailler dans la Big Data : quels métiers choisir ?

Juvenal CHOKOGOUE, auteur de l’ouvrage « Hadoop : devenez opérationnel dans le monde du Big Data », passe en revue les 6 profils métiers aujourd’hui attachés de près ou de loin à Hadoop.

Si la structure technique en LEGO d’Hadoop est bien connue, rares sont ceux qui ont conscience que chacun de ces composants peut être associé à une problématique métier particulière. Derrière, ce sont également des profils métier qui se sont créés avec chacun leurs spécificités et leur champ de compétences.

Pour faciliter les choses, les outils Hadoop sont regroupés par catégories et chaque catégorie correspond à un métier Hadoop. Par exemple, la catégorie SQL est l’ensemble des outils qui permettent d’écrire des requêtes SQL sur Hadoop, la catégorie Modèles de calcul correspond à l’ensemble des modèles de calcul qui sont utilisés par Hadoop pour résoudre des problématiques algorithmiques particulières.

Une problématique peut faire appel à une ou plusieurs de ces catégories. Ainsi, la montée en compétence sur Hadoop est un peu particulière et nécessite de se spécialiser dans ce que nous appelons « un profil métier Hadoop ».  Le profil de métier Hadoop fait référence à votre usage d’Hadoop, en d’autres termes, à votre métier dans la Big Data. En fonction des besoins que nous avons pu constater dans les entreprises, les tendances du moment et les offres d’emploi sur le Big Data, nous avons constaté que 6 profils de métier  Hadoop revenaient constamment : l’Ingénieur de données (Data engineer), le Data Scientist,  le Growth Hacker, le développeur, l’administrateur et l’architecte. 

L’ingénieur de données (Data Engineer) 

Un « Data engineer »est un professionnel spécialisé dans  la gestion des données en utilisant Hadoop. En d’autres termes, c’est quelqu’un qui sait se connecter à plusieurs sources de données, croiser les données, effectuer des opérations de nettoyage de données, mettre en place des filtres, des jointures, gérer le stockage des données dans différents bases de données, gérer divers sortes de formats de données. En clair, l’ingénieur de données, c’est celui qui maitrise les techniques de data management. Dans le cadre d’Hadoop, il est question pour lui de maîtriser des outils SQL sur Hadoop (Impala, Phoenix, HAWQ), les langages d’abstraction (HiveQL, Pig Latin) et les bases de données NoSQL (HBase, HCatalog, MongoDB). Concrètement, il sait écrire des requêtes SQL, HiveQL, Pig Latin pour l’interrogation des bases de données, il  sait connecter les systèmes de Business Intelligence traditionnels des entreprises à Hadoop. Il sait également écrire des requêtes complexes nécessaires pour résoudre des besoins métier de Reporting, de calcul d’indicateurs et d’exploitation de données pour du Reporting. L’ingénieur de la donnée sait aussi interroger des bases de données et sait les exploiter pour l’intégration des données de divers formats. Compte tenu de la diversité des formats de données du numérique et de l’explosion du volume des données, ce profil est de plus en plus recherché.

Le Data Scientist 

 Il y’a eu beaucoup d’engouement autour de ce profil. A une époque, il était même décrit, de façon exagérée comme étant le « mouton à 5 pattes de l’économie numérique ».. En réalité, ce profil de métier correspond à une personne qui sait développer des algorithmes statistiques pour anticiper le comportement d’une variable, recommander des actions à effectuer, ou catégoriser les données en fonction de leur degré de similarité. Les modèles qu’il développe sont vitaux au fonctionnement de certaines entreprises, par exemple dans l’e-commerce et les réseaux sociaux. C’est le Data Scientist qui développe  les algorithmes de recommandations qui tournent derrière les « personnes que vous pourriez aussi connaître »,  les « produits que vous pourriez aussi acheter », les  « pages que vous pourriez aussi aimer ».

Dans le domaine de la banque, les Data Scientists développent des modèles de scoring qui permettent de prêter ou pas l’argent à un individu, d’investir ou de ne pas investir dans un projet. Etre Data scientist nécessite donc d’avoir une double compétence dans  le métier et en mathématique. Ce profil de métier est celui qui est le plus en vogue sur le marché actuellement. Si ce profil vous attire,  il  faudra vous spécialiser dans l’apprentissage statistique et l’utilisation des modèles de calcul d’Hadoop.

Le Growth Hacker 

 Cet autre métier vient tout droit de la Silicon Valley aux Etats-Unis. Le Growth Hacker est également un profil de métier Hadoop. Du terme Growth hacking qui veut littéralement dire "bidouiller la croissance", le Growth Hacker est une personne à l'intersection du  marketing et d’Hadoop. Il utilise des techniques de marketing pour accélérer rapidement et significativement la croissance (Growth) d'une entreprise, précisément d’une start-up. Il est à la base un professionnel du marketing, mais sait faire du développement logiciel. Il utilise les modèles de calcul d’Hadoop, les outils SQL, les langages d’abstraction pour créer de nouvelles fonctionnalités. Son but n’est pas l’analyse de données pour des fins décisionnelles, mais il cherche à créer de nouveaux produits à partir d’Hadoop.   Comme les gens du marketing, il s'efforce de trouver des clients pour les produits de l'entreprise, mais il le fait en utilisant des variantes de pages d'accueil, des facteurs de viralité, et l'envoi massif de courriers électroniques.

Il modélise ses hypothèses et utilise Hadoop pour interroger les bases de données régulièrement. Si l'entreprise n'a pas encore complètement développé son produit, le Growth Hacker fait en sorte que la viralité fasse partie du produit même; si la startup a déjà un produit fini, il étudie précisément les données pour découvrir ce qui marche dans le produit et permet d'optimiser la croissance. Ce profil est très recherché dans les start-up et dans les entreprises à modèle économique flexible qui ont le souci de se réinventer constamment.

Le développeur 

Profil typique d’Hadoop, le développeur fait référence à un développeur logiciel capable d’utiliser  Java, Scala ou tout autre langage évolué pour développer des applications métiers qui vont s’exécuter sur Hadoop. Il sait écrire des fonctions MapReduce en Java et sait manier l’exécution parallèle des travaux sur Hadoop. Il connait le développement distribué, la coordination de service, et sait gérer la tolérance aux pannes, rendre un système cohérent et peut même réfléchir aux futures améliorations d’Hadoop. C’est l’un des rares profils à pouvoir travailler sur pratiquement toutes les catégories des outils d’Hadoop puisque son travail intervient en amont de ceux-ci. Ce profil est également très recherché, et surtout en ce moment où les entreprises utilisent Hadoop à des fins d’évaluation. Si vous voulez vous orienter vers ce profil, il faudra vous spécialiser dans le développement logiciel (principalement Java) et le traitement distribué.

L’administrateur 

L’administrateur fait référence à un profil de compétences lié à l’administration d’Hadoop. Concrètement, l’administration d’ Hadoop consiste à configurer des ordinateurs sur lesquels Hadoop est installé (connexion des ordinateurs, configuration, installation du système d’exploitation), à gérer l’installation et la configuration d’Hadoop, l’ajout de nouveaux ordinateurs, la gestion des défaillances (retrait des ordinateurs défaillants et remplacement par de nouveaux), le provisionnement des ressources et leur redimensionnement.

L’administration Hadoop consiste également à gérer les aspects sécuritaires, l’attribution des autorisations et des niveaux de permissions aux différents utilisateurs d ‘Hadoop. L’administrateur Hadoop sait utiliser les outils d’administration d’Hadoop. Bien évidemment, ce profil est également un profil très recherché. Si vous souhaitez vous orienter vers ce profil,  il est clé de vous spécialiser dans les domaines du réseau informatique,  de la sécurité informatique et de l’administration des bases de données.

L’architecte 

Un autre profil de métier relié à Hadoop est l’architecte. Ce profil de métier, plus  fonctionnel que technique, fait référence d’une part à la capacité de décider des briques Hadoop nécessaires pour la résolution d’une problématique précise, et d’autre part, à la capacité à intégrer cet ensemble à l’architecture informatique existante de l’entreprise ou à la modifier de sorte qu’elle puisse s’intégrer avec celle-ci.

Il s’agit  plus d’un travail conceptuel et fonctionnel qu’un travail technique. Habituellement, les architectes de ce type de profil travaillent dans l’urbanisation des systèmes d’information. On les appelle souvent les architectes des SI ou les urbanistes des SI. A la différence des architectes des SI qui fournissent la cartographie du système d’information de l’entreprise, l’architecte Hadoop, lui, fournit la cartographie des outils Hadoop à utiliser, montre l’impact que cela aura dans l’architecture du SI et travaille avec les décideurs pour la mettre en place. Si vous voulez suivre ce profil alors, une spécialisation dans la gestion de projets, la maîtrise d’ouvrage et le développement Hadoop en général, est nécessaire

Ces 6  profils de métier vous permettent de prendre le virage du Big Data. Une fois que vous aurez choisi votre profil de métier, vous pourrez le développer à l’aide d’une ou plusieurs certifications, ou encore d’un cursus de formation tel qu’un Master ou une formation professionnelle.

Consulter le livre « Hadoop – Devenez opérationnel dans le monde du Big Data »

Pour approfondir sur Formation