studiostoks - Fotolia

Comment tester des modèles d’IA générative ?

Tester efficacement des LLMs tout en limitant leur impact environnemental n’est pas forcément chose aisée. Voici des pistes, partagées par le spécialiste Ekimetrics, pour évaluer cette forme d’IA très prometteuse, mais aussi très énergivore.

Tribune d’expert –Ce qui spécifie les solutions d’Intelligence artificielle générative (GenAI) par rapport à d’autres modèles traditionnels, c’est qu’il n’y a pas de métriques quantitatives de performance. Il n’y a pas une « learning curve ». On n’optimise pas un R2 pour atteindre 100 %. Les métriques de succès sont l’usage et l’adoption.

Le seul moyen de tester différents grands modèles de langage (LLM) est donc de faire une liste de questions types, un corpus représentatif d’une centaine de sujets (chez Ekimetrics, nous appelons cela « les pain tests questions »).

L’atout RAG

Une autre bonne pratique est de séparer les documents des modèles eux-mêmes.

Il vaut mieux avoir une « sous-couche » dédiée – un RAG (Retrieval-Augmented Generation) – pour la lecture de ces documents, pour leur compréhension, pour le raisonnement, pour l’interaction. Il faut éviter de tout mettre dans un LLM comme GPT-4.

Cette sous-couche a plusieurs intérêts. D’abord elle fait appel à d’autres modèles d’Intelligence artificielle que les LLMs (NLP, etc.). Elle est donc moins énergivore. Elle va raisonner par rapport au problème, traiter la donnée et servir cette donnée dans un langage informatique qui, dans un second temps, va être reformulé dans un langage compréhensible (image ou texte) par un LLM.

En résumé : limitez le LLM là où il est le meilleur, spécialisez-le, et évitez de devoir réingérer tous les documents grâce à un RAG. Car à chaque fois que l’on teste un LLM, la recherche de l’information est toujours la même.

L’étape suivante consiste à faire tourner les modèles sur ce RAG, puis de comparer la pertinence des réponses auprès des experts du sujet – experts que l’on aura identifiés en amont.

La délicate question de la consommation des modèles

En parallèle, il faudra suivre également les temps de réponse, les coûts et l’impact en termes de Green IT.

Car une autre facette très importante de l’évaluation d’un LLM est celle de sa consommation. On le sait, l’IA générative est particulièrement énergivore. En particulier lors de l’inférence.

Or les grands fournisseurs de GenAI ne donnent pas de chiffres clairs. Une solution est donc de faire appel à un proxy : le nombre de tokens. C’est finalement une assez bonne unité de mesure de l’impact des modèles. En général, les deux vont de pair. Les coûts et l’impact écologique sont deux valeurs très corrélées… Mais à l’inverse elles ne sont pas toujours proportionnelles à la performance business !

Conclusion

En tout état de cause, l’approche qui consiste à segmenter chacun des blocs de la solution d’IA générative (LLM, RAG) permet de réduire l’impact, et les coûts, d’augmenter la disponibilité, de ne pas saturer les services clouds de GenAI (qui le sont déjà), tout en intégrant de manière plus souple la logique métier (journalistes, pharmaciens, etc.).

Pour approfondir sur Data Sciences, Machine Learning, Deep Learning, LLM