ekkasit919 - stock.adobe.com
IA : Microsoft libère lui aussi un modèle de classification d’images
Après Google Big Transfer et OpenAI CLIP, voilà que Microsoft propose son modèle préentraîné et open source de classification d’images. Si ces algorithmes ne sont pas directement utilisables par les entreprises, ils restent néanmoins des portes ouvertes aux projets plus spécifiques.
Le groupe multimédia de Microsoft Bing a mis gratuitement à la disposition du public un modèle de vision par ordinateur préentraîné, le Microsoft Vision Model ResNet-50.
Le réseau de neurones a été formé sur 40 millions d’images labélisées associées à plus de 100 000 étiquettes différentes. Pour ce faire, les data scientists de Bing ont exploité quatre gros jeux de données : ImageNet-22K, Microsoft COCO et deux data sets usant uniquement des illustrations disponibles sur le web. Ces données rassemblent des photos d’animaux (chiens, chats, tigres, chevaux, vaches, etc.), d’objets (bouteilles, chaises, canapés, tournevis, haches, ordinateurs, etc.) ou encore de véhicules (bus, voitures, tanks, avions de ligne, avions de chasse, motos, etc.).
Vision Model ResNet-50 s’appuie sur un apprentissage multitâche (multi-task learning ou MTL) effectué pour chacun des datasets. Cette méthode permettrait d’optimiser les réseaux de neurones utilisés simultanément. En clair, un réseau se charge d’accueillir les images. Chaque couche ou réseau de neurones supplémentaire gère une tâche de classification spécifique. Les chercheurs ont réalisé plusieurs benchmarks (ImageNet, CIFAR-10, SVHN, CUB, Flowers-102, STL-10, CIFAR-100) afin de le positionner face aux autres algorithmes open source de classification d’images. Microsoft Vision Model obtient un score moyen de 84,97 sur 100, quelques décimales devant Google Big Transfer (84,32) et de plusieurs points de plus qu’OpenAI CLIP (76,72) et Pytorch ResNet-50 (69,14).
Bien qu’ils soient utiles pour le benchmarking, les modèles de classifications préentraînés ont peu d’intérêt pratique pour les entreprises, car les données d’entraînement sont générales, selon Mike Gualtieri, analyste chez Forrester Research.
La quête complexe des modèles spécialisés et clés en main
« Si votre entreprise a besoin de classer des photos de chats, de chiens et environ 1 000 autres catégories, alors cela peut avoir une certaine utilité », déclare-t-il. « Mais, pour des cas d’usage spécifiques, comme le dépistage de cancer à travers de l’imagerie médicale, de tels modèles ne sont pas efficaces ». Sauf que le type d’algorithme décrit par l’analyste ne court pas non plus les rues. Les scientifiques de Facebook AI Research ont développé un projet de détection des aggravations des cas COVID, à partir des radiographies de poumons. Eux-mêmes précisent qu’ils doivent utiliser des jeux de données non caractéristiques à ce problème pour le faire.
Néanmoins, cet outil Microsoft vision, disponible via Python Package Index depuis le 3 février, montre la volonté du géant de la technologie de fournir certaines de ses innovations gratuitement au public.
Les développeurs amateurs peuvent s’exercer avec ce type de modèles pour apprendre les bases de la classification d’images. Les data scientists pourraient utiliser Microsoft Vision Model ResNet-50 comme référence pour comparer leurs propres créations. Par ailleurs, les chercheurs de Microsoft Bing assurent que leur ResNet-50 dispose « d’un bon taux de transfert pour différents domaines », suggérant qu’ils pourraient aider à entraîner des algorithmes dédiés à des tâches spécifiques, telle la détection d’objets en milieu industriel. Rien que le fait que Microsoft Vision est capable d’identifier des véhicules sous divers angles de prise de vue peut servir, une fois optimisé, dans des applications réservées à la sécurité ou au renseignement militaire.
« En préentraînant un grand modèle de computer vision pour obtenir une représentation visuelle générale des images, puis en transférant l’apprentissage à travers de multiples tâches en aval, une équipe bénéficie des performances compétitives à une fraction du coût par rapport à la collecte de nouvelles données et à la formation d’un nouveau modèle pour chaque tâche. Un réglage plus fin du modèle avec des données d’entraînement spécifiques à la tâche permet souvent de maximiser son efficacité, plutôt que de recourir à des algorithmes directement spécialisés », écrit Zygmunt Lenik, ingénieur logiciel pour Microsoft Bing Multimedia Group.
Pour des cas d’usage particuliers presque clés en main, Microsoft couvre déjà certains domaines avec ses Azure Cognitives services. La catégorie Vision de son catalogue comprend de la détection de visages, de l’indexation de contenu vidéo, ou encore de l’extraction de données textuelles et chiffrées depuis des images. Là encore, il convient de personnaliser ces algorithmes pour en tirer totalement profit.
Une course entre les géants de la Tech
Alan Pelz-SharpeFondateur et analyste, Deep Analysis
Le modèle de computer vision préentraîné de Microsoft rejoint les modèles similaires de Google et OpenAI, qui sont également disponibles en téléchargement gratuit.
D’une certaine manière, les grandes firmes de technologies et d’IA sont en concurrence à la fois dans l’arène commerciale et dans le domaine des outils logiciels libres et open source accessibles au public.
Ces éditeurs collaborent souvent avec des universitaires spécialistes de la recherche en intelligence artificielle, note Mike Gualtieri. « Ces coopérations sont probablement la raison principale pour laquelle tant de projets d’IA deviennent open source ».
Les géants de la technologie choisissent également la voie de l’open source avec des projets pour que d’autres les développent pour eux, assure Alan Pelz-Sharpe, fondateur et analyste principal de Deep Analysis.
« Je pense qu’il est difficilement réaliste de monétiser beaucoup de ces projets open source, en tant que tels, mais ils peuvent constituer des éléments de base pour des projets et des contrats beaucoup plus importants », déclare-t-il.
En toute justice, selon Alan Pelz-Sharpe, il peut aussi y avoir un certain altruisme. « C’est une bonne chose à faire », considère-t-il.
Pour autant, ce type de modèles préentraînés peut rejoindre directement la boîte à outils d’une plateforme de data science. Par exemple, AWS intègre une version de Pytorch ResNet-50 et de VGG-16 au sein de sa suite SageMaker. Dans la même veine, Microsoft pourrait décider de le proposer comme une brique de conception supplémentaire de son catalogue Azure AI.
Pour approfondir sur Intelligence Artificielle et Data Science
-
Qu’est-ce que Copilot for Sales : l’IA générative de Microsoft pour les commerciaux ?
-
Gemma et ses variantes : l’essentiel sur les LLM ouverts de Google
-
Google I/O 2024 : une esquisse de feuille de route GenAI pour les développeurs
-
IA générative : le New York Times attaque OpenAI et Microsoft en justice