Looker_Studio - stock.adobe.com
Sécurité et data science : Cloud Innovation Partners prône l’usage des données synthétiques
Alors que les cyberattaques s’intensifient et que les entreprises veulent traiter de plus en plus de données, Cloud Innovation Partners qui édite CloudTDMS vantent les avantages des données synthétiques.
La gestion réglementaire des données continue de poser un problème aux entreprises. Selon une analyse d’Atlas VPN issue du projet Enforcement Tracker, les sociétés auraient payé plus de 97 millions d’euros d’amendes pour non-respect du RGPD rien qu’au premier semestre 2022.
Si certains usages des données privées des citoyens européens s’avèrent intentionnellement délictueux, les entreprises « ne sont pas égales » concernant l’application du RGPD, observait le conseil général de l’économie en 2019.
Selon Data Legal Drive, les contraintes budgétaires et temporelles des entreprises pèsent sur la gouvernance des données.
Plusieurs articles de recherche mettent en évidence le manque de connaissances ou de formations des développeurs au regard de l’application du RGPD dès le lancement du projet. D’où la multiplication de guides de bonnes pratiques, comme celui de la CNIL.
En parallèle, les fuites de données de masse se poursuivent. IBM a étudié 550 fuites provoquées par différentes cyberattaques. En 2021, elles auraient coûté en moyenne 4,35 millions de dollars aux entreprises concernées, contre 4,24 millions de dollars l’année précédente. Parmi les vecteurs les plus courants, IBM note que 19 % des attaques sont causées par le vol d’authentifiants, 15 % par un problème de configuration dans le cloud, 16 % par le phishing. Enfin, 13 % des incidents sont dus à une vulnérabilité dans un logiciel tiers.
Trop de données de production dans les environnements de test
Certains vols de données surviennent parce que les secrets des environnements de test sont mal protégés. En effet, il n’est pas rare que les développeurs clonent des données de production au sein de leurs instances.
Malgré les risques encourus, l’utilisation des données de production en phase de développement demeure attrayante. Elle est synonyme de gain de temps : les développeurs n’ont pas à créer de nouveaux jeux de données. Ils peuvent tester plus aisément les problèmes qu’ils rencontreront plus tard dans le « monde réel ». Pour les data scientists, l’intérêt est similaire : la promesse est d’obtenir des modèles de prédiction plus précis au regard des cas d’usage attendus.
Or, cette pratique est fortement découragée tant en matière de gouvernance que de sécurité des données.
Pour ne pas tomber dans cet écueil, de plus en plus souvent les équipes de développement s’appuient sur des jeux de données ou des tables dont certaines valeurs sont obfusquées, voire chiffrées. Dans d’autres cas, ils n’ont accès qu’à un sous-ensemble d’une base de données plus vaste.
Selon Khalid Boujdaa, CEO et CTO de l’ESN Cloud Innovation Partners, cette approche demeure risquée. « L’on se donne bonne conscience en chiffrant certaines données sensibles, mais le chiffrement peut être brisé », déplore-t-il. « Aussi, si l’on anonymise le prénom et le nom d’une personne, cette information peut se trouver dans son mail », poursuit-il. « Il n’est pas rare d’oublier certains champs quand une table contient plusieurs centaines d’attributs ».
CloudTDMS, une plateforme pour gérer les données synthétiques
Même si certains clients de Cloud Innovation Partners le réclament encore, l’ESN n’encourage pas cette pratique. « Masquer les données, nous ne le recommandons pas. Les projets en développement ne doivent jamais accéder aux vraies données, que ça soit en interne ou en externe », affirme Khalid Boujdaa.
Khalid BoujdaaCEO et fondateur, Cloud Innovation Partners
La solution se trouverait dans la génération et l’utilisation de données synthétiques. Comme l’appellation l’indique, il s’agit d’automatiser la création de « fausses » données par un algorithme au lieu d’utiliser des informations de production ou opérationnelles.
Cette approche est de plus en plus courante dans le cadre de projets de data science, car les modèles de machine learning et de deep learning requièrent des volumes de données importants lors de leur entraînement.
« Les données synthétiques permettent d’obtenir la masse nécessaire au projet Big Data, de varier les cas d’usage ou de mettre en œuvre des simulations », vante le CEO. « Gartner prédit que d’ici à 2024, 60 % des données utilisées pour le développement des projets d’IA et d’analytiques seront synthétiques. Nous, nous pensons que ce ratio tournera autour des 50 % ».
Khalid Boujdaa suggère que tous projets de développement devraient utiliser ces « fausses » données. C’est d’ailleurs pour cette raison que Cloud Innovation Partners a lancé la solution SaaS CloudTDMS (pour Test Data Management System). Développée depuis 2019 et lancée en juillet 2022, la plateforme no-code doit permettre d’administrer la génération de données synthétiques conformes aux réglementations en vigueur au sein des entreprises.
Comme les outils plus traditionnels tels que Test Data Management d’Informatica et IBM InfoSphere, l’outil établit un profilage des données existantes, les masque et identifie les modèles associés. Cependant, l’implémentation SaaS de CloudTDMS permettrait d’accélérer ces tâches et de générer des données synthétiques.
« La découverte d’environ 85 % des données prend quelques dizaines de secondes, tandis que notre algorithme peut générer un jeu de données en moins de dix secondes dans le meilleur des cas », assure Khalid Boujdaa.
Une fois les données créées, l’outil permet de les réinjecter dans les environnements de test ou de data science.
Techniquement, CloudTDMS reprend les grands principes d’un ETL. Il s’appuie sur le projet open source Airflow, un orchestrateur de flux de données exprimés en graphes orientés acycliques (DAG). Un portail front-end permet de paramétrer les workflows de génération de données, de les planifier et d’éditer les modèles de données.
Si certains cas d’usage réclament d’obtenir des jeux de données parfaits, souvent difficiles à maintenir dans la vie réelle, CloudTDMS dispose d’une fonction pour configurer la qualité des données attendues. Ainsi, l’outil peut générer des erreurs dans les enregistrements afin de tester les performances d’une application. Il est également possible de simuler le comportement d’utilisateurs en créant de nouveaux enregistrements.
De la donnée synthétique à la donnée réaliste
La génération de données synthétiques est toutefois fonction de la modélisation des données. « Il faut s’assurer que les relations entre les tables et les données sont conformes à la réalité. Ensuite, il n’y a que des avantages », considère Khalid Boujdaa.
C’est également ce qu’Alexander Linden, VP Data & Analytics chez Gartner observe concernant l’usage des données synthétiques dans le cadre des projets d’IA. « L’utilisation de données synthétiques nécessite des étapes de vérification supplémentaires, comme la comparaison des résultats du modèle avec des données réelles annotées par l’homme, afin de garantir la fidélité des résultats », note-t-il. « En outre, les données synthétiques peuvent être trompeuses et conduire à des résultats inférieurs, et les données synthétiques peuvent ne pas être sûres à 100 % en ce qui concerne la confidentialité ».
En l’occurrence, les algorithmes de génération de données synthétiques peuvent reproduire de véritables informations, ou à l’inverse des erreurs grossières, selon Robert Riemann, consultant pour le Contrôleur européen de la protection des données.
Pour pallier ces défauts, Khalid Boujdaa estime qu’il faut passer à la création de données réalistes. Celles-ci ressemblent à s’y méprendre à des informations présentes dans les systèmes d’origine, mais elles ne doivent en aucun cas reproduire des données sensibles. Il faut également chercher à émuler ou tester des cas d’usage génériques. « Par exemple, il est possible de simuler différents parcours client dans une base de données dans un système de santé sans compromettre le secret médical ou l’identité des patients », illustre le PDG.
CloudTDMS est loin d’être le seul sur le créneau des données synthétiques. D’autres startups dont Mostly.ai, Tonic.ai, Syntho ou encore Datamize se spécialisent dans la génération de données synthétiques structurées. Des acteurs comme Datagen, Neurolabs, Synthesis AI ou Deep Vision Data se concentrent sur la génération de données non structurées, principalement des textes et des images.
« Nous préférons nous focaliser sur les données structurées et semi-structurées, car c’est là où se trouve la majorité des enjeux pour les entreprises », estime le créateur de CloudTDMS.
« Nous lisons et générons des données dans une dizaine de formats classiques : CSV, XML, JSON, etc. Nous pouvons aussi lire et écrire les données dans S3, Redshift, une base de données Oracle, MySQL, PostgreSQL, ainsi que dans des systèmes comme Google Drive, Dropbox Salesforce ou encore ServiceNow », précise-t-il.
CloudTDMS est déjà manipulé par plusieurs clients « early adopters », dont des opérateurs télécoms. L’un d’entre eux utilise la plateforme pour simuler l’ingestion de données IoT dans un data warehouse et un CMDB ServiceNow.