Big Data et analyse In-Memory nécessitent un socle solide
Utiliser les outils In-Memory pour analyser des pools de données en volume pose des problèmes en matière de conception de systèmes, de dimensionnement et d’intégration qui doivent être pris en compte en amont.
Réaliser des analyses de Big Data en mémoire ne correspond pas à une simple opération. Les déploiements en mémoire des Big Data soulèvent une série de questions en termes d’architecture IT qu’il convient d’adresser avant de démarrer, comme la conception du système, le dimensionnement et les contraintes en matière d’intégration de données.
Identifier l’infrastructure hardware adaptée est l’une des premières considérations. Pour supporter les outils analytiques In-Memory, les entreprises doivent investir dans des serveurs robustes, réclamant beaucoup de mémoire. Elles doivent également décider de la meilleure approche pour mettre le système à l’échelle car les besoins en analyse augmentent au fur et à mesure que le volume des données progresse, explique John Myers, analyste au sein du cabinet de conseil Entreprise Management Associates, spécialisé dans la BI et l’entrepôt de données.
« Lorsqu’on aborde la problématique du hardware, l’une des plus importantes décisions architecturales est de savoir s’il faut mettre à l’échelle (scale up) un seul bloc massif de Big Data ou bien faire évoluer (scale-out) plusieurs machines », explique Myers. Déployer un unique serveur signifie moins de maintenance du côté de l’administrateur système. Mais l’analyste recommande généralement d’opter pour une approche scale-out – par exemple, un cluster de serveurs de commodité. « Si vous passez à l’échelle une grosse boite et qu’elle tombe en panne, tout est fini », commente-t-il. « Avec une approche scale-out, vos points de défaillances sont distribués sur plusieurs nœuds. »
Placer des serveurs de haute capacité, comportant un maximum de mémoire, aussi près que possible des utilisateurs peut aussi aider à réduire la latence des applications analytiques In-Memory, affirme de son côté Jeff Boehm, vice-président du marketing mondial chez Qlik Technologies, un éditeur d’outils de BI et d’analytiques.
La persistance des données porte-t-elle ses fruits ?
Selon lui, il y a un autre facteur à prendre en compte : est-il besoin que la technologie In-Memory supporte la persistance des données pour empêcher que l’information soit perdue en cas de plantage du système ou de processus analytiques défaillants ? Il ajoute que les entreprises devraient également connaître la taille limite des données des différents outils analytiques In-Memory lorsqu’elles sont en phase d’évaluation.
Le dimensionnement des systèmes en mémoire est un problème sur le long terme pour la plate-forme en ligne Cheezburger, qui a associé l’application QlikView de QlikTech à un environnement Big Data bâti sur Hadoop pour obtenir de la visibilité en temps réel sur les activités de ses visiteurs. Cela lui permet de proposer un contenu plus personnalisé, raconte Loren Bast, qui était directeur de la BI chez Cheezburger, avant de quitter la société en avril dernier. Alors que la société envisageait de porter son système analytique auprès de davantage d’employés, est apparue la question des coûts du traitement In-Memory, explique-t-il.
« Même si la mémoire n’est plus un composant couteux, elle n’est toujours pas gratuite », commente-t-il. « Nous ne disposons que de quelques serveurs bourrés de mémoire, mais ils atteignent leurs limites en matière de capacités de chargement des données. Des dizaines d’utilisateurs utilisent désormais le système et nous n’avons aucun problème à aligner les coûts logiciel et matériels avec la valeur dégagée. Mais que se passe-t-il si nous étendons les possibilités de reporting à d’autres utilisateurs ? Bast ajoute que les coûts en matière d’infrastructure et de licences logicielles peuvent « augmenter très rapidement lorsqu’on cible des centaines d’utilisateurs ».
Miser sur la flexibilité du In-Memory et des outils Big Data
La flexibilité et l’intégration de données sont deux autres questions que doivent se poser les responsables BI et analytiques à la recherche d’outils capables de supporter l’analyse de Big Data en mémoire. Ces technologies analytiques In-Memory et Big Data sont relativement nouvelles et continuent d’évoluer. Par exemple, une architecture système peut éventuellement nécessiter d’avoir recours à autre chose qu’Hadoop, même s’il s’agit de la technologie généralement associée au Big Data.
« Il est important que les personnes investissent dans des outils et des architectures qui soient très flexibles », assure Boehm. « Les contraintes vont changer ; les utilisateurs vont également évoluer. Et si vous vous enfermez dans une unique architecture qui impose une seule façon de travailler, vous vous fermez également à d’autres options qui pourraient être requises dans le cadre d’autres projets ».
ContactLab, un fournisseur de services d’emailing marketing basé en Italie, a déjà retenu la leçon. La société, qui a des bureaux dans 5 pays européens, fait transiter les données de ses campagnes et de ses activités Web depuis un système Hadoop vers l’application Visual Analytics de SAS Institute, pour y opérer une analyse In-Memory. Sur le long terme, la société souhaite y adjoindre des données relationnelles, explique Massimo Fubini, fondateur de ContactLab et son directeur général. Il cite par exemple des données transactionnelles portant sur l’usage des cartes de fidélité des clients.
« Je ne pense pas que Hadoop sera la seule solution dans le futur », précise-t-il. « Nos données relationnelles sont encore très importantes et je souhaite avoir la possibilité de mixer les deux environnements. L’avenir est à l’analyse des données, et non pas au logiciel. Le véritable enjeu est de créer un environnement avec lequel vous avez le droit de changer d’avis. »