Novartis unifie ses données et ses pratiques analytiques
Le groupe pharmaceutique suisse mise pleinement sur les données et la data science. Une stratégie qui l’amène à combiner les infrastructures, les outils et les informations, pour déployer un framework analytique à l’échelle de l’entreprise.
Issue de la fusion entre Ciba-Geigy et Sandoz, Novartis est un poids lourd de l’industrie pharmaceutique. En 2021, le groupe employant 110 000 collaborateurs à travers le monde revendiquait un chiffre d’affaires de 51 milliards de dollars. Il notait avoir dépensé un peu plus de 9 milliards de dollars en recherche et développement.
Recherche médicamenteuse, essais cliniques, fabrication, logistique… Toutes ces activités chez Novartis sont génératrices de données. De beaucoup de données.
Dans le SI du groupe, les données consacrées à la R&D occupent à elles seules plus de 20 pétaoctets d’espace de stockage.
Cette réalité ne date pas d’hier. Et le groupe ne cesse de faire évoluer ses infrastructures.
De grands projets à rassembler
C’est à partir de 2015 que l’entreprise met en chantier une plateforme analytique consacrée à ses essais cliniques. En 2016, elle présente le programme Nerve Live. C’est le « centre de commande » consacré au recrutement des patients affectés à quelque 500 essais cliniques par an. Il inclut entre autres le module SENSE.
Il s’agit d’une « tour de contrôle » qui informe du statut des essais cliniques et permet d’identifier des problèmes, de prévenir des risques de dépassement budgétaire ou les retards. D’autres outils d’analytique avancée permettent de piloter les ressources humaines, de simuler les résultats d’un essai ou encore de gérer l’approvisionnement des traitements nécessaires à son déroulement.
« [Ce sont] les principaux moyens de défense nous ayant permis de repousser et d’atténuer les risques pour nos essais cliniques pendant la pandémie mondiale, avec un impact limité sur nos opérations et nos échéanciers », indique le groupe sur son site Web.
En 2018, cette plateforme reposait alors sur un data lake déployé en interne. C’était avant que Novartis développe une architecture hybride. Nerve Live s’appuie maintenant sur des serveurs locaux d’ingestion de données couplés à un cloud privé.
Puis, Novartis a mis au point le programme data42, une plateforme conçue pour analyser et explorer les données historiques de ses essais cliniques. Celle-ci repose sur une architecture mêlant des HPC du groupe avec des instances AWS.
En février 2022, data42 était utilisée par 700 chercheurs environ, répartis dans trois entités de Novartis. Plus d’un pétaoctet de données y a été ingéré depuis plus de 3 000 systèmes sources. La plateforme rassemble pas moins de trois mille essais cliniques concernant environ 900 000 patients.
En 2021, Novartis a déployé en partenariat avec Microsoft une suite de data science pour étudier les formules utilisées lors des premières phases de fabrication des traitements expérimentaux.
Cette utilisation massive des données ne s’applique pas uniquement à la recherche. Dès 2015, les historiens et une vingtaine d’ERP des usines du groupe déversaient leurs données dans un système Hadoop sur site.
Constatant que son système HDFS supportait mal le dimensionnement scale-out, Novartis a décidé en 2019 de migrer ses données vers des instances Amazon S3 et EBS. Depuis, Novartis combine les données historiques de ses usines avec celles en provenance de capteurs IoT équipés du service AWS IoT Greengrass. Les données industrielles sont ingérées dans la plateforme d’analyse en temps réel SpotOn, déployée sur 18 sites de production en 2021.
En chine, Novartis déploie en partenariat de Tencent une application nommée AI Nurse. Elle est consacrée aux pronostics et au suivi des maladies cardiovasculaires. Plus de 5 000 professionnels de santé l’utilisent afin d’accompagner 300 000 patients à travers 1 000 hôpitaux.
Formula One, une plateforme pour 2 000 data scientists
Novartis ne voulait pas que ces initiatives demeurent isolées. En 2019, le groupe lance le programme F1, pour Formula One.
Le groupe pharmaceutique a alors dans l’idée de mettre en place une plateforme globale qui interconnecterait l’ensemble des données de l’entreprise à des fins analytiques. Aujourd’hui, le dispositif intègre « pratiquement toutes les données internes de l’entreprise », selon Loïc Giraud, Global Head Digital Delivery chez Novartis.
Loïc GiraudGlobal Head Digital Delivery, Novartis
« Nous avons une plateforme d’analytique globale à laquelle nous connectons plus de 80 sources de données majeures », affirme-t-il. « Elle est utilisée pour la recherche, les essais cliniques, le manufacturing – qui inclut la production, la logistique, les ventes et le marketing –, ainsi que les fonctions support : les achats ou encore la gestion RH ».
Considérant que les processus de l’entreprise, de la recherche jusqu’à la commercialisation d’un médicament sont interconnectés, il a été convenu de mettre en place une architecture modulaire. Elle devait accueillir les projets des 2 000 data scientists du groupe.
« La plateforme est une architecture multicloud et multiproduit », indique Loïc Giraud. Elle est déployée sur plusieurs régions cloud AWS et Azure en Europe, aux États-Unis et en Chine. Selon une offre d’emploi du groupe publiée en février 2022, Novartis aurait augmenté son empreinte sur AWS de 200 %, et de 1 500 % sur Microsoft Azure.
Cette plateforme est divisée en trois ensembles : il y a une « zone d’atterrissage » où les données et leurs modèles sont ingérés, avant d’être harmonisés, unifiés, et intégrés dans un MDM. Les données sont ainsi soumises aux règles métiers de Novartis.
Les données peuvent être transvasées dans une zone consacrée au « raffinement », c’est-à-dire à la curation et l’analyse prédictive et prescriptive des données. Enfin, ces données préparées ou analysées sont poussées dans des applications BI, d’IA ou de machine learning.
Une « marketplace » transversale permet aux métiers et surtout aux data scientists de rechercher les jeux de données, les sources ou tout autre actif auxquels ils auraient accès. La place de marché joue le rôle d’une solution de gouvernance des données à l’échelle du groupe, et intègre des capacités de data lineage, de cataloging, de gestion de la qualité ou encore d’exploration de données.
L’objectif est de concevoir des jeux de données réutilisables pouvant être croisés afin de répondre à différents cas d’usage. Aujourd’hui, plus de 1 500 actifs sont disponibles depuis la plateforme.
De même, une équipe DevSecOps est responsable du développement et du maintien en condition opérationnelle de la plateforme. L’accès aux données et le provisionnement d’infrastructure ont été grandement automatisés.
Après une première mise en production au troisième trimestre 2020, la plateforme accueille désormais plus de 300 cas d’usage. « Les demandes en interne sont exponentielles », relate Loïc Giraud.
Comment Novartis mise sur Snowflake
L’un des cas d’usage concerne plus spécifiquement les activités commerciales américaines du groupe en direction des officines et des médecins. Ralenti par un paysage SI siloté et vieillissant, les équipes devaient effectuer des efforts importants pour lancer et suivre de nouvelles campagnes d’information. Les outils analytiques n’étaient plus adaptés à la situation, tandis que le lancement de nouveaux médicaments était de plus en plus difficile à prévoir.
Ce fut l’un des premiers cas d’usage envisagés au lancement de l’initiative Formula One, à la fin de l’année 2019. La survenue de la pandémie de la COVID-19 a bouleversé les habitudes de ses commerciaux habitués à rencontrer les responsables d’officines et les médecins. Il fallait faire évoluer les processus commerciaux pour continuer à informer les professionnels de santé aux États-Unis. L’un des objectifs était d’améliorer la segmentation de ces populations afin d’affiner les campagnes d’information.
Loïc GiraudGlobal Head Digital Delivery, Novartis
La même année, Snowflake annonçait le lancement de sa plateforme de partage de données, Data Exchange. C’est l’un des arguments qui a fini de convaincre les responsables de la plateforme de choisir le data warehouse multicloud.
« Le lancement de Data Exchange a changé beaucoup de choses pour nous », confirme Loïc Giraud.
Au-delà des efforts marketing visant à faire connaître les médicaments de Novartis, cette fonction d’échange de données renforçait des possibilités commerciales et accélérait un ensemble de processus, allant de la recherche à la commercialisation de molécules.
Novartis a donc revu la manière dont elle accédait aux données externes, en provenance de partenaires tels que IQVIA et Symphony Health. « Nous avons été l’un des premiers acteurs Big Pharma à miser réellement sur le système de partage de données de Snowflake », affirme Ed Scura, Head Solution Architecture chez Novartis, lors d’une session de la conférence Snowflake Summit 2022. « Là où nous mettions plusieurs semaines pour récupérer les données, cela ne prend plus que quelques jours ».
En ce qui concerne l’analytique, Novartis souhaitait que ses équipes profitent d’une expérience intégrée. Cela tombe bien : le système au cœur de Data Exchange permet de partager des jeux de données à l’aide d’un simple lien URL. Il fallait également que la qualité des données en provenance d’une centaine de flux soit au rendez-vous. « Nous avons intégré plusieurs centaines de vérifications de qualité avant même que les données atterrissent dans les mains des data scientists et des analystes », indique Ed Scura. Pour cela, les responsables de la plateforme issue du programme F1 ont combiné un framework développé en interne, l’ETL Matilion et des jobs Apache Spark servis par Databricks.
Les workbenchs analytiques, eux, sont formés d’une combinaison d’Amazon SageMaker, de Dataiku, et de R Maker, entre autres.
De leur côté, les métiers peuvent accéder à certaines des analyses via des applications Qlik Sense. « Nous sommes le plus gros consommateur de Qlik Sense. Nous avons 60 000 utilisateurs et plus de 500 applications Qlik », renseigne Loïc Giraud.
Il n’est pas rare de voir des plateformes analytiques permettant de combiner des sources de données internes et externes. Sauf que Novartis a déployé 300 pipelines de données – à la fois des flux ETL Matillion et des jobs Spark sur Databricks pour alimenter son data warehouse Snowflake. Ces flux sont connectés à une base de données orientées graphe – AWS Neptune – afin de les répertorier dans la marketplace interne.
À lui seul, le cas d’usage implique une couche d’un pétaoctet de données mise à disposition de plus de 1 000 utilisateurs aux États-Unis.
L’autre critère de choix qui a motivé le déploiement de Snowflake, c’est la performance, selon Loïc Giraud. Le groupe pharmaceutique a pu s’essayer à Snowflake dès 2017.
Après avoir migré ses données d’Hadoop vers AWS, Novartis s’est rendu compte qu’Amazon RedShift ne répondait pas à ses besoins de traitement de compensation des forces de vente. « Cela prenait beaucoup de temps. Les tests que nous avons menés avec Snowflake nous ont convaincus : nous n’avions jamais vu ce niveau de performance », assure Loïc Giraud. Le data warehouse cloud a ensuite été étendu à d’autres cas d’usage. « Nous avons commencé par l’analytique, mais nous nous sommes aperçus que Snowflake pouvait être utilisé à tous les niveaux », ajoute-t-il.
De nouveaux cas d’usage en cours de développement
Chez Novartis, Snowflake devient donc la place de marché de choix pour échanger des données. L’entrepôt est une des couches utilisées pour l’agrégation de données nécessaires aux forces de vente, à la R&D et au maintien des politiques RSE, mais pourrait également propulser de nouveaux cas d’usage.
En effet, Loïc Giraud voit d’un bon œil l’arrivée des tables hybrides, un mécanisme introduit par Snowflake pour accueillir les traitements transactionnels depuis le data warehouse. De même, le support récent des données non structurées, du langage de programmation Python, et d’Apache Iceberg pourrait accroître l’usage de cette technologie.
Ainsi, Novartis poursuit ses déploiements de Snowflake dans la région EMEA et souhaiterait que le fournisseur renforce sa présence en Chine.
En parallèle, le groupe pharmaceutique explore d’autres technologies, notamment les jumeaux numériques et la blockchain.
Novartis est membre du consortium européen PharmaLedger. L’organisation développe une blockchain consacrée au partage, à la transparence et à l’intégrité des données de la supply chain, des essais cliniques et de santé.