À l’heure du cloud, les data stack traditionnelles sont-elles encore pertinentes ?
Les piles de données traditionnelles n’ont pas la flexibilité et l’évolutivité que le cloud offre aux « data stack » modernes. Cependant, les architectures déployées sur site présentent encore plusieurs avantages par rapport à leurs homologues en cloud, selon les experts du secteur.
Une data stack – ou pile de données – moderne utilise le stockage en cloud et des outils d’analyse avancés pour créer une option plus flexible et évolutive que chaque organisation peut adapter à ses besoins spécifiques. Voilà le discours vu et revu chez les éditeurs pour vanter les mérites des solutions cloud de plus en plus alignés avec l’adoption des approches de type Data Mesh. Mais qu’est-ce que c’est réellement une « data stack » ?
Comment fonctionne une data stack ?
Une data stack est comparable à une chaîne d’approvisionnement, mais pour les données, résume Robert Parr, Chief Data Officer chez KPMG US. Tout comme une supply chain physique, une pile de données peut impliquer plusieurs outils, technologies et framework spécialisés, indique le spécialiste.
Par exemple, cette architecture peut inclure des outils qui évaluent, corrigent et normalisent les données à l’aide de règles et de scripts communs. Elle peut également intégrer des outils qui structurent les données pour le stockage, l’agrégation et la distribution à des fins d’analyse, de reporting, de visualisation et de génération d’informations. Aucun éditeur ni aucun ensemble de services d’un fournisseur unique ne peut couvrir l’ensemble de ces aspects, prévient Robert Parr.
Si elles ne parlent pas forcément de « data stack », toutes les entreprises disposent d’une pile de données sous une forme ou une autre. Aujourd’hui, la plupart d’entre elles sont dites « cloud native ». Un exemple typique d’une « modern data stack » pourrait ressembler à ceci :
- Azure Data Factory ou AWS Glue Data pour l’ingestion des données.
- Intelligent Data Management Cloud d’Informatica ou AWS Glue Data Brew pour la mise en qualité de données.
- Des buckets Amazon S3, MongoDB Atlas ou Azure Data Lake pour le stockage des données.
- Apache Spark, Flink, Presto/Trino ou DataBricks pour le traitement ou la transformation des données.
- Le langage de programmation Python et ses bibliothèques telles que Pandas et NumPy ou encore la plateforme Dataiku pour l’analyse des données.
- Tableau ou Power BI pour la visualisation des données.
Les bénéfices des offres cloud, selon KPMG
Lorsque les entreprises entretiennent des relations étroites avec un hyperscaler principal telles que Microsoft, AWS ou Google, elles ont tendance à positionner le reste de leur pile de données en fonction de ce fournisseur de cloud, explique M. Parr.
Le fait d’opter pour un seul fournisseur entraîne souvent des compromis. Par exemple, les outils de cet hyperscaler peuvent être plus simples à intégrer et avoir des structures de coûts plus prévisibles. Cependant, ils peuvent ne pas offrir les meilleures fonctionnalités dans chaque catégorie de composants.
Néanmoins, la possible montée à l’échelle, l’accessibilité accrue, les fonctions d’analytiques intégrées, de machine learning, ainsi que la réduction des coûts de maintenance sont autant de bons points pour les offres cloud, selon le Chief Data Officer de KPMG US.
De plus, les entreprises peuvent accéder à des jeux de données tiers afin d’étoffer leurs analyses. Par exemple, certaines entreprises proposent des données économiques, des données météorologiques, des données sur la chaîne d’approvisionnement, des repères concurrentiels, etc.
Dès lors, une question se pose : faut-il forcément dire adieu aux piles de données sur site ?
Les piles de données traditionnelles ont-elles leur place ?
Dans le passé, une pile de données traditionnelle se résumait à une base de données, explique Holger Mueller, vice-président et analyste principal chez Constellation Research. Au fil du temps, elle s’est enrichie de systèmes de fichiers, ainsi que d’outils d’intégration, de qualité, de nettoyage et de déduplication des données. Cette évolution a conduit aux entrepôts de données et aux « lakehouses », nés dans le cloud, mais désormais reproduits sur site.
Le traitement de données sur site est – a priori – sur le déclin, mais la pratique offre encore certains avantages, signale l’analyste. Les data stack traditionnelles offrent aux administrateurs un niveau de contrôle accru sur l’infrastructure, et les entreprises peuvent adapter plus finement les couches de cette pile à leurs besoins, avance Holger Mueller.
« Ce contrôle peut être particulièrement important pour les entreprises qui traitent des données sensibles et qui sont soumises à des réglementations strictes en matière de conformité », confirme Robert Parr de KPMG US.
« Les entreprises qui ont besoin d’un traitement en temps réel ou qui ont des exigences élevées en matière de débit peuvent exécuter leur propre pile afin de maintenir des niveaux de performance constants », poursuit-il.
Robert ParrChief Data Officer, KPMG US
De fait, certains systèmes capables de gérer un haut niveau de cardinalité sont davantage déployés sur site pour diminuer la latence et assurer des traitements en quelques millisecondes. Par exemple, les acteurs industriels se tournent vers les bases de données in-memory InfluxDB, GridGain, HazelCast ou encore Couchbase. Ces technologies ne prennent pas forcément place dans une pile traditionnelle.
Clairement, l’utilisation d’une pile de données sur site ne signifie pas que les entreprises doivent utiliser des technologies legacy. Ce terme désigne généralement des outils et des processus obsolètes qui manquent d’évolutivité, de flexibilité et de fonctionnalités avancées. Bien qu’il n’y ait rien de mal à exploiter des logiciels vieillissants, mais robustes, certains d’entre eux ne sont tout simplement plus adaptés aux besoins de l’entreprise.
« Les outils existants (legacy) peuvent nécessiter une maintenance manuelle, avoir des capacités d’intégration limitées et avoir du mal à gérer de gros volumes de données ou des tâches analytiques complexes », souligne M. Parr.
Une pile de données traditionnelle typique pourrait utiliser les éléments suivants :
- Un ETL SQL pour l’ingestion des données.
- Informatica Data Quality pour la qualité des données.
- Microsoft Access, Db2 ou des fichiers plats pour le stockage des données.
- SAS ou IBM SPSS pour le traitement et la transformation des données.
- Microsoft Excel pour l’analyse des données.
- Excel et PowerPoint pour la visualisation des données.
Il n’est pas rare que les entreprises exploitent une combinaison de technologies legacy et « modernes ». Par exemple, les organisations qui utilisent une pile de données sur site peuvent l’enrichir d’outils analytiques avancés au service de leurs équipes de data science.
« Les données sont ingérées à l’aide d’un système d’intégration de données sur site qui gère l’extraction, la transformation et le chargement à partir d’un mainframe ou d’un système de planification d’entreprise », explique Doug Henschen, vice-président et analyste principal chez Constellation Research. Ensuite, un entrepôt ou un lac de données sur site permet de gérer ces données.
Quand le cloud s’avère plus coûteux que les déploiements sur site
Au-delà du contrôle et de la sécurité des actifs, ces systèmes déployés localement offrent un autre avantage par rapport aux data stacks déployés dans le cloud : ils peuvent être moins coûteux. C’est sans doute contre-intuitif au vu des discours des fournisseurs cloud, mais cela se vérifie dans certaines conditions.
Avec des charges de travail variables, les déploiements en cloud sont judicieux. Lorsque l’on a besoin d’une plus grande puissance de traitement pendant une courte période, les instances des fournisseurs s’additionnent facilement et se soustraient lorsque la demande est satisfaite. Le coût dépend de ce que l’entreprise utilise.
Mais si les entreprises ont des charges de travail stables et prévisibles, le cloud s’avère bien moins intéressant, « en particulier si elles n’ont jamais abandonné leurs centres de données pour passer entièrement au cloud », nuance Doug Henschen.
Bhrugu Pange, directeur général du groupe des services technologiques chez AArete, une société de conseil en gestion, explique que les piles de données traditionnelles sont également utilisées pour les données volumineuses et à faible rotation.
Ce type de data stack utilise généralement une base de données relationnelle telle qu’Oracle, Microsoft SQL Server ou PostgreSQL pour le stockage des données. Pour les fonctions d’extraction, de transformation et de chargement, les DSI emploient des outils tels que Microsoft SSIS, Informatica ou Talend. Pour l’analyse et la visualisation des données, il faut ajouter des outils tels que Tableau, Qlik ou Power BI.
« Bien que cette pile puisse héberger de gros volumes de données, elle ne prend majoritairement pas en charge l’analytique et le traitement des événements à haute fréquence, en temps réel ou en flux continu », prévient Bhrugu Pange.
Une réalité bigarrée
En conséquence, certaines entreprises abandonnent ces piles technologiques éprouvées au bénéfice de systèmes cloud natifs afin de répondre aux demandes de métiers souhaitant obtenir des rapports BI plus rapidement qu’à l’accoutumée.
C’est finalement à l’aune de besoins réels, d’une analyse la plus rationnelle possible, qu’il faut choisir si le cloud sera, ou non, le seul habitat d’une data stack. En clair, il est fort probable que ces architectures soient hybrides. De manière générale, et pour toutes les raisons évoquées ci-dessus, Mohammed Sijelmassi, CTO groupe de Sopra Steria, envisageait auprès du MagIT qu’à l’avenir, les entreprises migreraient environ 70 % de leurs actifs IT vers le cloud. Donc, 30 % des applications et données resteraient durablement sur site. Si l’estimation est impossible à vérifier, ce ressenti traduit bien un difficile, voire impossible, passage au tout cloud, peu importe si la data stack est traditionnelle ou non.