sdecoret - stock.adobe.com

Changements climatiques : les progrès du NLP inspirent IBM et la NASA

IBM Research et la NASA annoncent un partenariat visant à développer deux modèles open source d’intelligence artificielle, dits de fondation, en vue d’analyser des dizaines et bientôt des centaines de pétaoctets de données. L’objectif ? Prévoir l’évolution du climat terrestre.

La NASA espère en premier lieu accélérer le traitement de deux types de données. D’un côté, elle entend optimiser la recherche d’informations dans les articles de recherche produits par ses équipes et la communauté scientifique. De l’autre, elle compte tirer parti des données de télédétection spatiale concernant la Terre pour observer et prévoir l’évolution du climat ainsi que propulser des applications utiles aux sauveteurs.

« Les modèles de fondation (une traduction littérale de “foundation models”, N.D.L.R) font partie d’une vaste initiative au sein d’IBM Research », déclare Priya Nagpurkar, vice-présidente Hybrid Cloud Platform & Developer Productivity chez IBM Research.

« Cette technologie émergente qui peut ingérer de larges volumes de données non labellisées, puis “apprendre” à effectuer une tâche dans un domaine et à transférer ce savoir dans un autre domaine, réduit considérablement les efforts de développement d’une IA », résume-t-elle. « Cela élimine également le besoin d’étiqueter de gros volumes de données ».

Typiquement, GPT-3, célèbre modèle NLG qui a donné naissance à ChatGPT, entre dans cette catégorie de modèle. « Chez IBM Research, nous croyons qu’il est temps de prendre ces avancées et de les appliquer à différentes modalités et domaines qui comptent particulièrement pour les entreprises et les clients d’IBM, ainsi que pour faire progresser la science », vante Prya Nagpukar.

Un équivalent de ChatGPT pour les chercheurs

Les travaux d’exploration des articles de recherche ont déjà débuté entre la NASA et IBM Research. Les deux entités développent un premier modèle de fondation entraîné sur une base de 300 000 articles publiés dans les magazines scientifiques, dont ceux des associations American Geophysical Union (AGU) et American Meteorological Society (AMS). Le modèle NLP en question est en cours « d’affinage » (fine-tuning en VO). « Nous entraînons notre modèle sur environ un dixième du volume de données utilisé pour former un modèle comme GPT-3 puisque nous nous concentrons sur les connaissances liées aux géosciences », précise Raghu Ganti, chercheur chez IBM Research.

Plus tard, il sera couplé avec le set d’outils PrimeQA open source permettant de poser des questions et d’obtenir des réponses en langage naturel. La promesse est d’obtenir un résumé sourcé des derniers éléments de recherche sur un sujet lié à l’observation de la Terre.

L’outil de benchmarking inclus dans PrimeQA a déjà permis de constater que le modèle développé conjointement par IBM Research et la NASA est plus performant sur ses données d’entraînement que BERT-E et RoBERTa, deux modèles NLP établis sur des « transformers » développés et améliorés par Google et Meta. La NASA espère commencer à utiliser ce modèle « dès le milieu de l’année en cours », anticipe Rahul Ramachandran, chercheur principal au Marshall Space Flight Center de la NASA.

« Nous pensons aussi à la façon dont le modèle peut être utilisé pour améliorer la découverte de données et d’informations », précise le chercheur de la NASA. « Parce que les représentations vectorielles (embeddings en VO) incluent la notion de contexte, vous pouvez utiliser cela pour améliorer vos résultats de recherche. Et l’autre grande opportunité potentielle pour nous est d’augmenter certaines de nos activités d’intendance de données, que ce soit pour faire la génération de méta documentation, l’annotation de mots clés, etc. », ajoute-t-il.

Observer l’évolution du climat grâce à l’IA, une tout autre affaire

Concernant le traitement des données de télédétection terrestre, les travaux sont encore à leurs prémisses.

 « Vous ne le savez peut-être pas, mais la NASA dispose de la plus grosse collection de données d’observation de la Terre », assure Rahul Ramachandran. « Nos données proviennent de différents instruments et la collection couvre toutes les sous-disciplines liées aux géosciences. Nos archives contiennent actuellement 70 pétaoctets de données, et elle devrait atteindre 250 pétaoctets d’ici à 2025 ».

La raison de cette croissance ? L’agence spatiale américaine prévoit de cartographier les océans et les surfaces étendues d’eau à partir de cette année.

« En 2020, dans le cadre d’un atelier, nous avons étudié la manière dont nous pourrions intégrer l’IA et le machine learning dans le domaine de l’observation de la Terre », indique Rahul Ramachandran. « Deux défis sont apparus : le manque de gros jeux de données d’entraînement pour ces modèles et le fait qu’ils ne généralisent pas leur apprentissage à travers le temps et l’espace. Les modèles de fondation ont le potentiel pour répondre à ces deux enjeux ».

IBM et la NASA ont déjà commencé à expérimenter sur le jeu de données HLS (Harmonized Landsat Sentinel), à savoir les images agrégées et nettoyées en provenance des satellites Landsat et Sentinel-2. Plus tard, les deux partenaires se pencheront sur le data set du projet MERRA-2 consacré à la réanalyse météorologique de données d’observation atmosphérique enregistrées à partir de 1980.

« Nous cherchons à développer un modèle de fondation permettant de développer diverses applications : mesure de l’évolution du paysage, estimation de la biomasse, détection des crues et des inondations, etc. », explique Raghu Ganti. « Nous voulons mettre au point un seul modèle qui couvre plusieurs régions et plusieurs zones temporelles ».

Ces jeux de données combinent entre autres des données time-series, des images, des mesures météorologiques, des représentations de l’atmosphère. « Traiter un large volume de données scientifiques possédant différents attributs, notamment des dimensions spatiales et temporelles, pose des défis algorithmiques importants », anticipe Rahul Ramachandran de la NASA.

« Les transformers formés sur des textes devront évoluer pour être entraînés sur de telles données », confirme Raghu Ganti. « Mais c’est quelque chose que nous explorons activement ».

« Ce partenariat nous aidera à pousser l’innovation dans chacun de ces domaines jusqu’à l’infrastructure. »
Priya NagpurkarVice-présidente Hybrid Cloud Platform & Developer Productivity, IBM Research

IBM oblige, l’architecture pour entraîner ces modèles s’appuie sur la plateforme Red Hat OpenShift, déployée sur le cloud d’AWS. Le modèle NLP développé à l’aide des frameworks PyTorch et Ray serait l’une « des plus grosses charges de travail d’IA s’exécutant sur OpenShift », avance Raghu Ganti. Parce que les chercheurs et IBM ont optimisé les phases de traitement et qu’il n’y a pas besoin de très gros volumes de données, une phase d’entraînement du modèle de la NASA prendrait 6 heures sur un cluster de 32 GPU. « Le jeu de données de notre modèle contient environ 1 milliard de tokens, contre environ 50 milliards pour les gros modèles NLP open source », justifie le chercheur chez IBM.

Entraîner un modèle de deep learning sur les données de télédétection en provenance des satellites et des instruments de la NASA représente un tout autre enjeu.

« Je pense que ce partenariat nous aidera à pousser l’innovation dans chacun de ces domaines jusqu’à l’infrastructure, sans oublier les avancées en matière d’architecture et même de techniques de gestion des données », avance Priya Nagpurkar.

L’équipe dédiée au projet chez IBM Research collabore déjà avec les météorologues de The Weather Company (la filiale météo du groupe) afin de concevoir les applications et les cas d’usage qui seront validés par la NASA.

Pour approfondir sur Intelligence Artificielle et Data Science