agcreativelab - stock.adobe.com
QA : ce qu’il faut savoir avant de tester des apps d’IA générative
Les applications d’IA générative étant de plus en plus populaires, les professionnels de l’assurance qualité doivent être conscients de leurs modes d’échec particuliers. Découvrez ce que les testeurs doivent prendre en compte lorsqu’ils manipulent ces outils.
Le développement d’applications d’IA générative promet de considérablement améliorer la productivité en automatisant ou en rationalisant les tâches quotidiennes. Des outils tels que ChatGPT offrent de nouvelles possibilités pour la création, la maintenance et l’amélioration des applications existantes.
Sreekanth Menon – vice-président et responsable mondial des services d’IA et de machine learning, chez Genpact, une société de conseil et de services informatiques – observe que le champ d’application des outils d’IA générative dans leur forme actuelle comprend les processus des business analysts, des développeurs et des testeurs. Les applications d’IA générative sont devenues capables de comprendre le langage naturel et même le code.
Cependant, tous les modèles d’IA générative n’offrent pas les mêmes capacités. Les différences en matière d’architecture, d’entraînement et de nombre de paramètres peuvent entraîner des performances et des risques variables.
Surtout, les outils d’IA générative ne fonctionnent pas de la même manière que les applications conventionnelles. Des problèmes tels que les hallucinations et les biais posent de nouvelles questions aux testeurs. En outre, ces outils introduisent de nouveaux modes de défaillance que les professionnels des tests doivent prendre en compte.
En clair, les professionnels de l’assurance qualité doivent élargir leur conception de l’échec afin d’appréhender la plupart des nouveaux problèmes introduits par l’IA générative.
Timothy Martin, vice-président des produits chez Yseop (une entreprise qui développe des outils d’IA générative), assure que les modèles de langage de grande taille propriétaires, tels que GPT-4 d’OpenAI et Gemini de Google, sont accessibles au public à travers des applications et des API, mais qu’ils peuvent présenter des difficultés en raison de détails techniques limités, de problèmes de confidentialité des données, de la génération de résultats inexacts et de la partialité. Les utilisateurs en entreprise ont peu de contrôle sur ces modèles et doivent généralement s’accommoder de leurs modes d’échec et de leurs limites. Les utilisateurs sollicitent le système de différentes manières pour contrôler les résultats et les optimiser.
M. Martin estime qu’il est utile d’utiliser des modèles open source, tels que Flan-UL2 de Google ou Dolly de Databricks, qui offrent davantage d’informations techniques et de contrôle et qui peuvent être personnalisés pour des tâches spécifiques grâce au fine-tuning. « L’optimisation des modèles pour des cas d’usage précis peut limiter les modes d’échec et donner des résultats exceptionnels », avance Timothy Martin.
Timothy MartinVice-président produit, Yseop
Le vice-président des produits chez Yseop recommande également l’adoption de mesures d’assurance qualité en entreprise couvrant des domaines tels que la qualité des données, l’exactitude des résultats, l’interprétabilité et la surveillance continue.
Belwadi Srikanth, vice-président responsable des produits et de la conception chez Suki AI, une plateforme vocale d’IA pour les soins de santé, a déclaré que parmi les modes d’échec les plus courants figurent les réponses de l’IA (aussi appelées résultats, sorties ou outputs) présentant les caractéristiques suivantes :
- Elles ne sont pas formatées correctement.
- Elles ne correspondent pas au ton ou à la longueur de réponse souhaités.
- Elles renvoient des données inhabituelles qui peuvent ne pas correspondre au comportement souhaité pour les cas limites.
- Elles ne comprennent pas entièrement la complexité de la tâche.
Dans la plupart des cas, les testeurs peuvent remédier à ces modes d’échec par la réécriture de prompts plus efficaces.
Considérations relatives aux tests des applications d’IA générative
Si la nouvelle frontière des applications d’IA générative ouvre des possibilités passionnantes, elle exige ainsi une certaine prudence. Les entreprises doivent comprendre les capacités et les limites des différents modèles d’IA. Les équipes doivent choisir les modèles les plus appropriés en fonction de leurs besoins et objectifs spécifiques. Elles doivent également mettre en œuvre des mesures strictes d’assurance qualité pour garantir l’efficacité, la sécurité, l’équité et la conformité réglementaire de ces outils.
Belwadi Srikanth estime qu’il est utile d’évaluer les modèles d’IA générative en fonction de ces quatre aspects :
- Capacité à répondre aux exigences réglementaires.
- Effet sur les flux de travail des utilisateurs.
- L’ampleur de la gestion du changement nécessaire.
- La manière dont les inexactitudes peuvent être identifiées et corrigées.
- Un autre défi émergent concerne le concept d’ingénierie rapide. Cela peut aider les équipes à développer un modèle de prompt efficace pour la manière dont un système d’IA se comporte face à différentes entrées.
M. Srikanth recommande de constituer un ensemble varié d’entrées de test pour évaluer l’IA. Il s’agit notamment d’un échantillon représentatif de la diversité des données d’entrée courantes et d’un ensemble de cas limites importants à couvrir, qui pourrait inclure un comportement hostile de la part de l’utilisateur.
« Le fait de disposer de ces ensembles de données permet d’itérer rapidement sur un template de prompts », explique-t-il.
L’expert estime qu’il est possible d’optimiser les performances en constituant ce template avec des instructions claires et détaillées, de nombreux exemples sur la manière de répondre à une série d’entrées et des descriptions détaillées sur la manière de traiter chaque cas particulier susceptible de se présenter. Si la tâche est particulièrement complexe, il peut être judicieux de la décomposer en éléments plus petits, chacun d’entre eux étant traité avec un template de prompt différent.
L’IA générative augmente-t-elle toujours l’efficacité ?
L’IA générative peut souvent induire la redondance qu’elle était censée atténuer en premier lieu, avertit M. Menon.
Sreekanth Menon de Genpact estime qu’il est très difficile d’utiliser ChatGPT et d’autres outils d’IA générative pour les cas d’usage existants parce qu’ils introduisent de nouvelles complexités. Dans ces scénarios, l’utilisation de l’IA générative augmente considérablement l’échelle de Fibonacci, une mesure du nombre de points d’histoire utilisée pour quantifier la complexité d’un projet.
L’IA générative peut également augmenter le nombre de cas de test que les professionnels de l’assurance qualité doivent prendre en compte. Les testeurs qui se sont traditionnellement concentrés sur les nuances du code doivent par ailleurs prendre en compte les aspects mémoriels de ces nouveaux outils génératifs.
Par exemple, de plus en plus de modèles, dont des variantes de GPT-4, peuvent prendre en compte 32 000 tokens en une seule fois. Sans mise en cache supplémentaire, cette limite inclut le nombre de tokens dans le prompt en entrée et l’ensemble des informations en mémoire de l’outil. Le nombre de tokens dans les messages combinés à la valeur du paramètre de tokens maximum doit rester en deçà de ces limites, sinon le modèle renvoie une erreur. Par conséquent, les équipes de test d’assurance qualité ne peuvent pas se fier uniquement à l’apprentissage en quelques coups, d’un système tel ChatGPT.
En outre, les testeurs doivent se méfier des hallucinations de l’IA, qui peuvent conduire à des faux positifs ou à des faux négatifs et nécessiter plus de temps pour refaire les tests.