Petya Petrova - Fotolia
Intégration de données : les limites des ETL à l’ère du Big Data
L’intégration de données fournit une vue convergente des performances de l’entreprise à travers de multiples sources, mais cette technique doit suivre l’évolution des besoins des organisations et la révolution du Big Data.
Disposer d’une vision globale des performances économiques, pour une grande entreprise, est un problème épineux. Souvent, les organisations internationales ne disposent pas d’une source unique et définitive d’informations relatives aux clients ou aux produits. C’est pourquoi il est difficile de répondre même aux questions les plus simples. L’intégration de données pourrait être la solution.
Cette méthode permet d’obtenir une vue unifiée des données provenant de multiples sources à travers le système informatique d’une société. La technologie ETL était une première tentative d’intégration de données.
Avec un ETL, les informations sont extraites, transformées et chargées à partir de systèmes transactionnels à sources multiples dans un seul espace, comme un data warehouse d’entreprise. Les parties extractions et chargements sont relativement mécaniques, mais la transformation n’est pas aussi facile. Pour que cela fonctionne, il est obligatoire de définir des règles de gestion qui valident l’étape.
L’une des principales distinctions entre l’ETL et l’intégration des données, c’est que la seconde inclut davantage d’aspects. Elle peut induire la gestion de la qualité et la définition des données de références liées, aux produits, aux acquéreurs, aux fournisseurs et d’autres renseignements clés à l’échelle de l’entreprise qui mettent en contexte les transactions commerciales.
Classification et cohérence des données
Prenons un exemple. Une grande société en activité peut avoir besoin de plusieurs niveaux de classification des produits et des clients afin de segmenter les campagnes de marketing. Une petite filiale de la même entreprise pourrait le faire avec une simple hiérarchisation des éléments nécessaires. La structure la plus importante classifierait une canette de cola comme une boisson gazeuse faisant partie de la sous-catégorie breuvage, lui-même rattaché à la section vente de boissons et de nourritures. La division, elle pourrait ranger le même produit au sein de la catégorie principale. D’où l’importance de la cohérence dans la nomenclature, tout du moins une compréhension des différences pour bénéficier d’une vue d’ensemble des activités.
Malheureusement, le simple fait de connaître son interlocuteur n’est pas une chose aisée pour les entreprises. Shell Royaume-Uni est une succursale du géant du pétrole Royal Dutch Shell. Des sociétés comme Aera Energy et Bonny Gas Transport sont des entités du même groupe. Par conséquent, les transactions doivent s’inscrire dans une vision globale de Shell, mais l’affiliation n’est pas forcément évidente d’après le nom de la compagnie.
Dès lors, il devient compliqué d’évaluer le volume d’affaires ou la fiabilité d’un partenaire parce que ces informations sont enfouies dans les systèmes.
Améliorer la qualité des données lors de l’intégration
Le fait d’utiliser l’intégration de données permet d’éviter les erreurs, là où un ETL ne fait qu’une partie du travail. Pour un projet sur lequel j’ai travaillé, près de 80 % des dossiers clients apparents étaient des doublons. Cela signifie que l’entreprise ne comptait qu’un cinquième de ses clients avec qui elle travaillait.
Dans le cas des matériaux, les taux de duplication des fichiers maîtres sont de 20 à 30 %, ce qui est la norme. Ces anomalies doivent être éliminées lorsque les données sont agrégées. Alors, la conception d’un catalogue de données peut faciliter la classification. Par ailleurs, des solutions de data preparation, parfois alimentées à l’intelligence artificielle, permettent de filtrer et d’agréger les bonnes informations.
Des volumes toujours plus importants
Toutefois, cette technique n’est pas miraculeuse parce que les grandes sociétés produisent de plus en plus de données non structurées. Et comme elles sont conservées sous différents formats – informations de capteurs, registres Web, enregistrement d’appels, documents, images et vidéos –, les outils ETL peuvent être inefficaces parce qu’ils n’ont pas été conçus en fonction de ces facteurs.
Ces acteurs éprouvent également des difficultés lorsque le volume de données est élevé. Certains projets à l’instar d’Apache Kafka tentent de résoudre ce problème en les diffusant en temps réel. Cela permet de contourner les anciennes limitations. Talend propose notamment la solution Data Streams, basée sur Apache Beam, pour migrer les informations dans le cloud en flux tendus et ainsi réaliser des analyses approfondies.
Par ailleurs, il y a donc de nouvelles variables à prendre en compte pour aller au-delà de l’ETL. Ce marché doit poursuivre son évolution pour accompagner les changements au sein des organisations poussées par la révolution du Big Data.