Les jours du Health Data Hub sur Azure sont-ils comptés ?
Si la CNIL autorise l’hébergement d’un entrepôt de données de santé du Health Data Hub sur Azure pendant trois ans, c’est pour mieux, espère-t-elle, encourager la migration de la plateforme technique vers un cloud souverain. Un projet qui s’annonce difficile au vu des imbroglios réglementaires, techniques et politiques.
Dans une délibération du 21 décembre publiée au journal officiel le 31 janvier 2024, la CNIL autorise le groupement d’intérêt public « Plateforme de données de santé » (GIP PDS) à constituer un entrepôt de données de santé (EDS) établi sur les technologies de Microsoft Azure dans le cadre d’un projet européen initié par l’agence européenne des médicaments (European Medicines Agency ou EMA).
En 2021, le GIP PDS, plus connu sous le nom de Health Data Hub, a remporté un appel à projets auprès de l’EMA afin de constituer une base de données pour mener des études en pharmacoépidémiologie auprès des patients de cinq établissements de santé français partenaires.
Dans sa délibération, la CNIL précise que ces données sont appariées avec celles du SNDS (Système National des Données de Santé), dans le but d’enrichir les informations sur les patients et sur leurs enfants. Les informations du personnel soignant (spécialité, mode d’exercice, sexe, âge et département d’implantation) sont également requises dans le cadre de ce projet. Les données sont pseudonymisées, chiffrées et sont liées aux bases du SNDS à travers un identifiant technique.
Entrepôt de données EMC2 sur Azure : la CNIL autorise, mais « déplore »
C’est dans ces conditions que la CNIL autorise pour une durée de trois ans la constitution de l’EDS EMC2 sur la région française du cloud américain Azure. À contrecœur, car malgré les mesures de sécurité estimées « proportionnelles aux risques présentés par le traitement », cet entrepôt demeure soumis aux lois extraterritoriales américaines.
En sus des fragiles accords d’adéquation de transferts de données à caractère personnel (Data Privacy Framework), l’autorité se méfie sans les nommer du CLOUD Act et du FISA Act.
Pas de transfert de données en dehors de l’UE, prestataire exclusivement soumis au droit européen, niveau de protection respectant le référentiel SecNumCloud, voilà les recommandations actuelles de l’Autorité, des recommandations qu’elle juge en accord avec la doctrine « cloud au centre », même après son actualisation en mai dernier.
CNILDélibération 2023-146 du 21 décembre 2023
« En particulier, pour les entrepôts de données de santé appariées avec le SNDS, et malgré le fait que ces données soient pseudonymisées, la CNIL a toujours demandé aux porteurs de projet, publics et privés, de s’assurer que l’hébergeur des données n’est pas soumis à une législation extraeuropéenne », écrit-elle dans sa délibération.
Le choix du Health Data Hub apparaît alors « en très nette contradiction » avec les préconisations de la CNIL et la politique gouvernementale française.
La polémique n’est pas nouvelle. Au lancement du groupe en 2019, le Health Data Hub a opté pour Microsoft Azure afin d’héberger et traiter des données de santé. Ce déploiement avait eu lieu à la suite d’une procédure d’achat simplifiée par le biais de la centrale UGAP. Depuis lors, ces conditions d’attribution font l’objet de critiques de la part de certains politiques – dont le député MODEM de la 1re circonscription de Vendée, Philippe Latombe –, d’associations telles qu’Anticor et des fournisseurs de cloud français.
Les responsables du Health Data Hub, eux, n’ont pas changé de ligne de défense.
« Si beaucoup d’institutions publiques hébergent leurs données dans des clouds américains, c’est parce que les solutions technologiques américaines offrent des outils aux meilleures normes techniques et de sécurité », écrivaient les membres du conseil scientifique consultatif du Health Data Hub, dans un rapport d’octobre 2023 consacré aux « bénéfices et risques de l’utilisation des données de santé à des fins de recherche ».
Sans nier l’intérêt d’une solution souveraine, les auteurs jugent que les fournisseurs américains « sont les seuls à pouvoir répondre aux exigences des appels d’offres. Il n’existe donc pas d’alternative technologique satisfaisant aux normes de sécurité de haut niveau, ni en France ni en Europe ».
Un premier « audit flash » encore défavorable aux acteurs français
Une affirmation que la CNIL souhaitait vérifier. À sa demande, dans le cadre du projet EMC2, les pouvoirs publics ont confié à la délégation du numérique en santé (DNS), la DINUM et l’Agence du numérique en Santé une mission d’expertise afin d’évaluer si un hébergeur européen pouvait répondre aux besoins du Health Data Hub, tout en respectant les exigences de souveraineté et de sécurité.
La CNIL précise d’emblée que ce travail a été effectué dans un « délai très contraint ». Le rapport a été remis le 13 décembre 2023. Le 30 décembre, Octabe Klaba, président du conseil d’administration d’OVH, rendait publiques sur X les conditions de ce parangonnage.
Selon lui, la liste des exigences a plus que doublé « en deux-trois semaines » et le document, un fichier Excel, a connu six versions différentes. Auprès de nos confrères de 01net, les porte-parole de NumSpot et de Cloud Temple assurent avoir vécu une expérience similaire.
Pour autant, les fournisseurs consultés ont apprécié la démarche, car c’était la première fois qu’ils avaient accès aux exigences techniques du Health Data Hub pour déployer ces entrepôts de données de santé.
Selon le document remis à la CNIL, « aucun prestataire potentiel ne propose d’offres d’hébergement répondant aux exigences techniques et fonctionnelles du GIP PDS pour la mise en œuvre du projet EMC2 dans un délai compatible avec les impératifs de ce dernier ».
La CNIL, tout comme les instances des pouvoirs publics et le Health Data Hub s’entendent sur le fait que la migration d’une plateforme cloud à une autre ralentirait la mise en œuvre du projet conduit par l’EMA, mais que la mise en place d’un démonstrateur « cloud de confiance » conforme aux à la doctrine cloud au centre « devrait se poursuivre dans les prochaines années ». Des conclusions elles aussi alignées avec les prédispositions de la circulaire ministérielle. Celle-ci prévoit des exceptions quand il n’existe pas d’équivalents chez les fournisseurs et éditeurs de droit européen.
Un rattrapage technique en cours chez OVHcloud, NumSpot et Cloud Temple
Toutefois, ni la CNIL ni Health Data Hub n’indiquent précisément là où le bât blesse. Voilà quelques éléments connus du MagIT chez les trois acteurs qui se sont exprimés publiquement.
Concernant l’analyse des données, le Health Data Hub utilise des technologies standards : les langages de programmation Python et de R, des serveurs Apache Spark, des notebooks JupyterLab et RStudio, le framework Apache SuperSet pour la visualisation de données, les bases de données MySQL et PostgreSQL, ou encore des dépôts git et GitLab. Certains services conteneurisés sont déployés sur Kubernetes et les ingénieurs exploitent à la fois des services de stockage en mode objet et en mode fichier. Le tout est poussé selon une logique Infrastructure as code.
LeMagIT note que les briques de la pile technologique du HDH sont pratiquement toutes agnostiques du fournisseur cloud. Ce sont les notions de « clé en main » et d’agilité qui ont poussé le groupe d’intérêt public à adopter les solutions Azure.
En la matière, OVH semble le plus avancé et dispose de pratiquement tous les prérequis analytiques. Cloud Temple déploie la PaaS Red Hat OpenShift en ce premier trimestre 2024 et prévoit de lancer des services managés de ce type d’ici 2025. NumSpot prend également en charge la plateforme de Red Hat et se prépare lui aussi au lancement de services DBaaS capables de répondre aux besoins du Health Data Hub.
Ajoutons que le GIP PDS propose des environnements de travail isolé les uns des autres, chiffre les données à l’aide d’un HSM « en propre » (probablement Azure dedicated HSM), et recourt au IAM Azure Directory et au SIEM Azure Sentinel.
Ces éléments-là, les fournisseurs cloud français sont en train de les développer ou de les déployer. NumSpot a internalisé le développement de son IAM et échange très régulièrement avec l’ANSSI. OVHCloud termine le déploiement d’un gestionnaire unifié des accès et des rôles. Cloud Temple a déjà un Bastion et prévoit de fournir des HSM au premier trimestre 2024.
L’enjeu du SecNumCloud pour le SecNumCloud
La véritable difficulté tient dans la nécessaire conformité de l’ensemble de la pile technologique au référentiel SecNumCloud. Une exigence nouvelle, selon Octave Klaba.
En temps normal, il est demandé que l’infogérant ou le fournisseur cloud sélectionné soit qualifié hébergeur de données de santé (HDS), ce qui est le cas pour OVH, Cloud Temple, NumSpot, IBM, Google Cloud, Microsoft Azure, AWS, Claranet ou encore Coreye. Exemple, selon un document déclaratif, relatif aux outils de téléconsultation et constitué par le ministère de la Santé en 2020, une bonne partie des 190 éditeurs listés privilégie les hébergeurs HDS français ou européens, OVH en tête.
« La qualification SecNumCloud est nécessaire pour héberger [certaines données] du service public. C’est la première fois qu’on nous demandait SecNumCloud pour les données de santé », s’étonne Octave Klaba sur X. Un étonnement partagé par Cloud Temple et NumSpot, selon 01net. De son côté, LeMagIT a noté lors de la convention de l’USF que certains organes publics écartent pour l’heure les fournisseurs français tant que les offres « cloud de confiance » de type Bleu ou S3NS ne sont pas pleinement constituées ou que les solutions IaaS, PaaS et SaaS nécessaires sont toutes qualifiées SecNumCloud.
Conseil scientifique consultatifHealth Data Hub
Or, la première obtention de la qualification SecNumCloud prend environ deux ans et doit être renouvelée tous les trois ans. Sans parler des frais engagés. Un programme a été mis en place pour accompagner et accélérer ces démarches.
« Il apparaît plus important de privilégier la sécurité informatique, plutôt que la protection contre un hypothétique risque d’appropriation par les USA de données pseudonymisées, ce qui ne constituerait pas un dommage pour les citoyens ni individuellement, ni collectivement », justifiaient en octobre les membres du conseil scientifique consultatif du Health Data Hub.
Sur LinkedIn, Philippe Latombe, lui, estime qu’en vertu du Data Privacy Framework, la CNIL ne peut pas s’opposer en droit au choix du Health Data Hub, mais que les arguments du conseil scientifique du GIP relèvent d’une « doxa », « suivie aveuglément par la Direction du Numérique en Santé au ministère. Et cela alors même que la sécurité d’Azure est régulièrement mise en cause et que des solutions françaises et européennes robustes existent ».
La CNIL, elle, « regrette que la stratégie mise en place pour favoriser l’accès des chercheurs aux données de santé n’ait pas fourni l’occasion de stimuler une offre européenne à même de répondre à ce besoin ». La technologie se fait enjeu politique.
Le HDH n’accomplirait pas ses « missions centrales » à cause du choix d’Azure
Les auteurs du rapport « Fédérer les acteurs de l’écosystème pour libérer l’utilisation secondaire des données de santé » mené par Jérôme Marchand-Arvier (ex-conseiller d’État et actuel délégué général à l’emploi et à la formation professionnelle auprès du ministère du Travail) apportent un autre niveau de lecture. Le document publié le 5 décembre conclut que le choix de Microsoft Azure a ralenti le Health Data Hub dans l’accomplissement de ses « missions centrales ».
Mission Marchand-Arvier
« S’il est prévu depuis 2019 que le Health data hub prenne le relais de la CNAM (Caisse d’Assurance Nationale Maladie) pour la mise à disposition de ces données, cette transition n’a toujours pas été opérée en raison du blocage du transfert des données de la base principale du SNDS, lié au choix de la solution logicielle Azure de Microsoft pour la plateforme technologique du Health data hub », écrivent les rapporteurs.
Selon Jérôme Marchand-Arvier, cette migration qui n’est pas le sujet principal pour les acteurs de la filière est toutefois un « préalable » pour gagner leur confiance. D’ailleurs, la mission partageait la recommandation de la CNIL de mener un « audit flash » des acteurs cloud européens.
Mission Marchand-Arvier
La mission Marchand-Arvier « constate que la migration de la plateforme du HDH sur un cloud souverain a déjà été actée par le gouvernement. Il s’agit désormais d’acter publiquement et officiellement cette orientation, d’en préciser les modalités et d’en tirer toutes les conséquences », poursuivent les auteurs.
Et d’ajouter que « les informations réunies par la mission permettent d’estimer qu’un horizon de 24 mois est ambitieux, mais crédible pour l’hébergement du HDH sur un cloud qualifié “SecNumCloud” ». La CNIL justifie l’autorisation de trois ans pour le projet EMC2 puisque cette durée « correspond à la réalisation du projet de migration de la plateforme de la PDS, projet confirmé par le gouvernement ».
Chiche, répond en substance Sébastien Lescop, directeur général de Cloud Temple dont l’offre PaaS est en cours de qualification SecNumCloud.
« Cette évaluation a permis à Cloud Temple de démontrer un degré de conformité élevé, qui atteindra 95 % au printemps 2024, après la qualification SecNumCloud des nouveaux services PaaS de confiance de notre plateforme », déclare-t-il dans un communiqué de presse. « Nous sommes confiants dans le respect des engagements pris par les pouvoirs publics concernant la migration du Health Data Hub vers un hébergement qualifié SecNumCloud, via l’organisation d’un appel d’offres en 2025 ».