Prazis Images - stock.adobe.com

Les ingénieurs DevOps parmi les « premiers de cordée » de l’IA générative

Des chatbots qui allègent la pression sur les services de support IT aux LLMOps à part entière. Les équipes DevOps et de plateforme sont à l’avant-garde de l’adoption de l’IA générative par les entreprises.

Depuis la fin de l’année 2022 et la commercialisation de ChatGPT, l’IA générative domine les discussions dans le secteur des technologies. Toutefois, les premières excursions en production des grands modèles de langage auront lieu en 2024, prédisent les analystes du secteur.

Cette tendance à l’adoption n’en est qu’à ses débuts, mais certaines entreprises commencent à observer les résultats des assistants propulsés par des modèles d’IA générative sur le travail quotidien des équipes DevOps. Ils font face aux problèmes de sécurité, de confidentialité, d’intégration des pipelines et de coûts liés à l’exploitation de grands modèles de langage (LLM). Dans un même temps, ils découvrent de nouvelles possibilités d’optimisation des tâches d’ingénierie de plateforme, telles que l’intégration et la formation de nouveaux développeurs.

L’éditeur d’une plateforme de Communication as-a-service, Nylas, par exemple, a lancé un chatbot d’IA générative pour ses clients en août 2023. Il utilise un service de Mendable. Depuis, la société a constaté une baisse de 25 % des tickets de support ouverts, malgré une croissance de sa clientèle de plus de 30 %.

« Nous constatons une réduction du volume des tickets d’assistance, mais notre équipe ne passe pas nécessairement moins de temps à les traiter », déclare Isaac Nassimi, vice-président senior des produits chez Nylas. « Les tickets les plus simples et les plus fréquemment envoyés sont couverts par le chatbot Nylas Assist, ce qui leur permet de consacrer leur temps aux tâches les plus ardues et les plus intéressantes ».

« Nous constatons une réduction du volume des tickets d’assistance, mais notre équipe ne passe pas nécessairement moins de temps à les traiter ».
Isaac Nassimivice-président senior des produits, Nylas.

La capture des interactions avec l’assistant a également permis à l’équipe DevOps de l’entreprise d’obtenir des données utiles pour son processus de développement, poursuit M. Nassimi.

« Vous obtenez des questions et des remarques que vous n’auriez pas pu obtenir autrement, sans faire littéralement des milliers d’entretiens avec les clients », affirme-t-il. « C’est toujours une bonne chose de trouver les aspects de votre produit qui posent problème aux utilisateurs et de les corriger ».

Par exemple, les questions fréquemment posées par les développeurs au chatbot ont permis à l’équipe DevOps de réaliser qu’elle devait donner des instructions plus claires sur la manière de gérer l’authentification avec les comptes de messagerie des utilisateurs, illustre le responsable chez Nylas.

L’IA générative est prometteuse, mais suscite beaucoup de réserves

Selon Andy Thurai, analyste chez Constellation Research, les assistants sont parmi les premiers outils d’IA générative à être adoptés jusqu’à présent, en partie parce que les chatbots constituent déjà un domaine d’intérêt relativement mûr. Toutefois, ils doivent encore être manipulés judicieusement.

« L’IA générative en est encore à la version 1.0 », image-t-il. « Et lorsqu’il s’agit d’agents d’IA conversationnelle [existants], en cas de problème, vous pouvez passer à un opérateur en direct. [Avec l’IA générative], les gens pensent qu’il s’agit d’un cerveau surhumain qui peut répondre à tout… mais il y a cette question délicate de savoir quand il faut faire appel à un agent humain ».

Sans surveillance humaine, les erreurs des chatbots en contact avec les clients peuvent avoir un impact commercial négatif, rappelle l’analyste. Et de citer l’exemple d’Air Canada, qui a été tenu pour responsable le mois dernier d’une réponse erronée que son chatbot avait donnée à un client en novembre 2022.

Au cours des 18 derniers mois, les technologies derrière l’IA générative « ont fait d’énormes progrès », constate Andy Thurai.

« Je dis à mes clients que ne pas s’intéresser aux LLM serait idiot, et qu’il faut les expérimenter », ajoute-t-il, « mais il faut trouver les bons cas d’usage ».

« Je dis à mes clients que ne pas s’intéresser aux LLM serait idiot, et qu’il faut les expérimenter ».
Andy ThuraiAnalyste, Constellation Research

Un entraînement minutieux du LLM a joué un rôle important dans l’expérience de M. Nassimi avec le chatbot de son entreprise, renseigne-t-il, et il est encore possible de l’améliorer.

« Très peu de ces choses en sont au point où l’on peut se détacher et se dire “J’espère que les clients passeront un bon moment”, parce qu’il [le LLM] leur proposera parfois des choses qui ne sont pas exactes », remarque-t-il. « Cela arrive encore aujourd’hui, lorsqu’un petit pourcentage d’utilisateurs reçoit des conseils erronés, ce qui est frustrant pour eux. Nous voulons y remédier, mais cela fait partie du jeu ».

Outre les risques de diffuser de fausses informations, les préoccupations des entreprises en matière de sécurité et de confidentialité persistent également, alors que le marché commence à adopter des outils d’IA générative et, dans certains cas, à travailler directement à la personnalisation ou à l’hébergement de leurs propres LLM. En ce sens, l’enquête Future Enterprise Resiliency & Spending d’IDC en juillet 2023 indiquait que 44 % des 890 personnes interrogées estimaient que les problèmes potentiels de sécurité posés par l’IA générative étaient le premier frein à son adoption, tandis que 38 % des répondants plaçaient les enjeux de confidentialité des données en premier.

Les problèmes de sécurité liés à l’IA générative comprennent les risques de fuite de données sensibles de l’entreprise, de sécurité et de confidentialité associés à l’utilisation des données de l’entreprise pour entraîner des LLM tiers. Entre autres, les procès en cours sur les droits d’auteur concernant les données d’entraînement pourraient conduire à des répercussions juridiques ou à un empoisonnement des licences pour le code logiciel généré par l’IA.

Par conséquent, parmi les 158 cadres supérieurs de grandes sociétés de services financiers et d’assurance interrogés par le cabinet de conseil en gestion EXL Service dans le cadre de son étude « 2024 Enterprise AI Study », 58 % se disent très préoccupés par l’IA générative et 63 % ont mis en place des règlements limitant son utilisation.

LinkedIn et Credit Karma se mettent au LLMOps

Indépendamment des risques, dans certaines grandes entreprises, la supervision des LLM – également connus sous le nom de LLMOps – et leur intégration dans le développement d’applications font déjà partie de la vie quotidienne de certaines équipes d’ingénierie de plateformes.

LinkedIn a réorganisé ses pratiques d’ingénierie au cours de l’année dernière pour soutenir les applications et les fonctionnalités d’IA générative pour les utilisateurs finaux. Les usagers LinkedIn Premium ont le droit à des fonctions de rédaction de brouillon de messages InMail, tandis que les utilisateurs de l’outil Sales Navigator peuvent obtenir un résumé des comptes intéressants. En cours de route, l’équipe d’ingénierie du réseau social a facilité l’accès des développeurs aux modèles OpenAI via Azure OpenAI Service, ainsi qu’aux modèles hébergés en interne et aux modèles open source, selon un billet de blog de LinkedIn publié le mois dernier.

L’équipe de la plateforme LinkedIn a également préconstruit des bibliothèques pour les développeurs qui transforment les réponses en requêtes API standardisées. Elle a aussi développé une passerelle qui régit les interactions avec les modèles d’IA générative hébergés dans le cloud en appliquant des limitations de requêtes sortantes et des quotas de ressources, indique le billet.

Certains des outils d’orchestration de pipeline que les ingénieurs de la plateforme LinkedIn ont créés pour intégrer le machine learning et l’IA pour les développeurs ont également été reversés à l’open source. C’est le cas de Flyte en 2019 et de FlyteInteractive publié le mois dernier. Ce dernier projet « fournit aux ingénieurs un environnement interactif à l’intérieur des pods Kubernetes pour… déboguer facilement leur modèle [de machine learning] dans l’environnement “similaire à la production” », selon un billet de blog de l’entreprise.

Alors que la plupart des efforts de LinkedIn en matière d’IA générative ont été orientés vers les usagers finaux, les ingénieurs de la plateforme ont par ailleurs commencé à utiliser l’IA générative en interne, relate Animesh Singh, directeur général de la plateforme d’IA et du ML chez LinkedIn, lors d’une interview avec SearchITOperations, une publication sœur du MagIT.

« Par exemple, nous intégrons les LLM à nos canaux Slack pour pouvoir répondre à de nombreuses questions [sur] les efforts de migration logicielle typiques qui sont devenus très courants », évoque Animesh Singh. « Ainsi, même si vous disposez d’un document, un chatbot pourrait être en mesure d’apporter une réponse précise à la question ».

Pour l’instant, ce robot n’en est qu’aux premiers stades de son développement. Les utilisateurs peuvent noter ses réponses. Certains développeurs ont déjà pu gagner du temps en l’utilisant. De même, les ingénieurs en machine learning de LinkedIn utilisent un assistant d’IA générative intégré à des notebooks Jupyter pour écrire en langage naturel des requêtes SQL.

À l’instar de LinkedIn, qui s’appuie sur sa société mère Microsoft pour accéder aux LLM, les ingénieurs de plateforme de la fintech Credit Karma se reposent sur les efforts d’Intuit en matière d’IA générative. Intuit leur met à disposition Gen Studio, un kit de développement conçu pour la plateforme d’IA GenOS de l’éditeur.

Là encore, les premiers efforts de Credit Karma en matière d’intégration de l’IA générative dans sa plateforme d’ingénierie se sont concentrés sur l’expérience des développeurs. Il fallait d’abord gérer la coordination de l’authentification des développeurs dans Gen Studio, indique Jeremy Unruh, directeur principal de l’ingénierie chez Credit Karma.

« Nous utilisons une authentification différente [de celle d’Intuit] de celle des employés [de Credit Karma], donc pour les développeurs, nous avons dû construire notre propre couche d’interaction », explique Jeremy Unruh. « Maintenant, quand [ils] exploitent Gen Studio, nous pouvons suivre et enregistrer […] qui utilise quoi ».

Délimiter les frontières du LLMOps

Ensuite, l’équipe de la plateforme Credit Karma travaille sur un outil semblable à un système de classement pour améliorer le retour d’information de l’IA sur les pull requests dans ses pipelines CI/CD, et travaillera ce trimestre sur un chatbot qui peut répondre aux questions sur la documentation accessible par les développeurs. À terme, l’IA générative pourrait également jouer un rôle dans le déploiement à la demande des ressources cloud, envisage M. Unruh.

« Nous imaginons un certain nombre de choses, comme la création de tous les échafaudages pour différents types de demandes basées sur les normes de notre plateforme », commente-t-il. « Il s’agit de répondre à des demandes telles que “J’ai besoin d’un nouveau microservice”, des choses pour lesquelles GitHub Copilot n’est pas vraiment adapté ».

Chez LinkedIn, des cas d’usage similaires sont en cours de conception. Selon Animesh Singh, il s’agit par exemple d’interfacer les outils AIOps avec des LLM et des interfaces en langage naturel, afin de remédier plus rapidement à des incidents.

« Pour une entrée similaire, les LLM peuvent donner des résultats différents à différents moments, en fonction de leur courbe d’apprentissage ».
Animesh SinghExecutive Director, AI Platform, LinkedIn

« De nombreux scénarios se dessinent, dans lesquels une combinaison de ces modèles agit comme des agents, travaillant entre eux pour coordonner l’analyse des causes profondes, créer des tickets et des alertes à envoyer aux équipes correspondantes », précise M. Singh. « Certaines de ces étapes sont très programmatiques dans le sens où l’on sait ce qu’il faut faire et que les modèles possèdent une certaine capacité de raisonnement pour mener à bien cette tâche dans ce contexte ».

Parmi les projets open source pour ce type de scénario AIOps, Animesh Singh surveille de près LangChain et AutoGen de Microsoft.

Un autre défi émergent du LLMOps est la manière d’évaluer efficacement la qualité des résultats en langage naturel, qui sont moins précis que les résultats des modèles d’IA traditionnels, rappelle-t-il.

« Pour une entrée similaire, les LLM peuvent donner des résultats différents à différents moments, en fonction de leur courbe d’apprentissage », évoque M. Singh. « S’il y a une variation dans le prompt, il devient beaucoup plus difficile de s’assurer de la cohérence de la réponse de ces modèles ».

La gestion des coûts de l’IA générative, un casse-tête

« Nous allons développer une méthodologie autour des modèles open source par rapport aux modèles hébergés, parce qu’en général, ils sont coûteux à maintenir [et] à faire fonctionner [avec suffisamment] de puissance GPU ».
Anismesh SinghExecutive Director, AI Platform, LinkedIn

Les premiers adeptes de l’IA générative ont également rencontré des problèmes de gestion des coûts. D’abord et avant tout, l’exploitation des LLM est coûteuse, selon Animesh Singh. Des outils tels que FlyteInteractive ont été développés pour réduire les coûts d’entraînement des modèles d’AI/ML et ont déjà permis d’économiser des milliers d’heures de travail pour les développeurs.

Ensuite, M. Singh envisage que son équipe peaufine la façon dont l’entreprise utilise les modèles open source hébergés sur site par rapport aux LLM dans le cloud, afin de mieux contrôler les coûts.

« Nous allons développer une méthodologie autour des modèles open source par rapport aux modèles hébergés, parce qu’en général, ils sont coûteux à maintenir [et] à faire fonctionner [avec suffisamment] de puissance GPU », signale-t-il. « Nous voulons faire en sorte que les équipes produit obtiennent les bonnes données pour prendre les bonnes décisions [sans coûts élevés] ».

Jusqu’à présent, l’IA générative n’a pas permis, à la plupart des personnes interrogées dans le cadre de l’enquête d’EXL, de réaliser des économies. L’enquête a divisé les répondants en deux groupes : les « leaders », qui utilisent l’IA de manière avancée, et les « aspirants », qui sont en train de rattraper leur retard. Moins de la moitié de chaque groupe, soit 46 % des leaders et 37 % des retardataires, a déclaré avoir réalisé des économies de coûts.

« L’IA générative rend les producteurs de code plus efficaces, mais comment mesurer cette efficacité ? »
Andy ThuraiAnalyste, Constellation Research

Selon M. Thurai de Constellation Research, il peut être particulièrement difficile pour les éditeurs de logiciels de déterminer comment répartir les coûts et les économies pour les produits propulsés par la GenAI, surtout si l’on tient compte du temps d’entraînement des LLM (quand cela est nécessaire) et de la nécessité d’une supervision humaine. 

« L’IA générative rend les producteurs de code plus efficaces, mais comment mesurer cette efficacité ? », résume l’analyste. « Plus important encore, comment déterminer la conversion en production de cette efficacité lorsqu’un autre client [entreprise] est impliqué ? ».

Pour approfondir sur Intelligence Artificielle et Data Science