donvictori0 - stock.adobe.com

Customs Bridge appuie sa stratégie IA sur un cloud français

Pure player dans le domaine des formalités douanières, Customs Bridge travaille sur des services dont les algorithmes en constituent le cœur. Pour sous-tendre cette offre, la startup a fait le choix d’OVHcloud dont il est l’un des tout premiers utilisateurs de l’offre IA.

Customs Bridge est une « LegalTech ». L’éditeur veut simplifier la compréhension des réglementations douanières tant pour les importateurs que pour les entreprises exportatrices. « L’IA est au cœur de notre modèle économique, car s’ils n’apportent pas une réponse à tout, les algorithmes ont la capacité de traiter de l’information contenue dans énormément de documents », résume Loïc Poisot, co-fondateur et président de Customs Bridge.

Un premier cas d’usage des algorithmes mis au point par la startup porte sur la classification des produits. Cette tâche est bien plus complexe qu’il n’y paraît. Les produits importés dans l’Union européenne doivent être catégorisés selon une nomenclature qui compte plus de 24 000 entrées. Or, toute la complexité de ce travail pour les importateurs est de choisir la bonne catégorie à partir du descriptif délivré par le fabricant.

Dans certains domaines comme l’électronique ces descriptifs peuvent être très complets et délivrer toutes les informations pertinentes pour catégoriser correctement le produit. Dans d’autres secteurs d’activité, le texte peut être très succinct et sujet à de multiples interprétations. Loïc Poisot explique le rôle de l’IA dans cette catégorisation : « Nous utilisons l’IA pour nous appuyer sur des classements réalisés à partir de données d’entraînement. Nous combinons ces données avec celles des moteurs de recherche plus classiques qui, avec des ontologies synonymes, indexent les informations contenues dans les textes de loi ».

« Cela nous permet de fusionner toutes les sources de données de manière à proposer le meilleur classement à nos clients », avance-t-il. « Rien ne remplace l’expertise humaine, donc l’idée n’est pas de fournir un classement ferme et définitif pour un produit, mais de proposer un assistant numérique qui pourra aider les humains dans l’établissement des déclarations en douane. »

Un choix économique et souverain

Pour ce faire, Customs Bridge a rejoint le programme OVH dédié au soutien envers les startups. Il souhaitait obtenir un accès privilégié aux ressources informatiques du nordiste. Beaucoup de jeunes sociétés optent pour Microsoft Azure ou les services d’intelligence artificielle d’AWS. Les cofondateurs de Customs Bridge ont aussi choisi OVHcloud par conviction.

« Nous avons décidé de proscrire au maximum l’usage de technologies issues des GAFA et de privilégier des technologies françaises ou européennes. »
Loïc PoisotCofondateur et président de Customs Bridge

« Nous avons décidé de proscrire au maximum l’usage de technologies issues des GAFA et de privilégier des technologies françaises ou européennes », lance Loïc Poisot. « C’est notre philosophie d’entreprise, mais c’est aussi un argument vis-à-vis de nos clients ».

La startup a ainsi anticipé les usages futurs de sa solution dans des contextes bien plus sensibles.

« Pour l’instant, nous ne travaillons que sur le classement douanier. Si dans le futur nous proposons un outil de télédéclaration, les entreprises vont saisir des données d’export ultra-sensibles. Pouvoir garantir que ces données seront hébergées en France sera un plus. », anticipe notre interlocuteur.

Customs Bridge a commencé à utiliser les services d’hébergement classiques d’OVHcloud, puis s’est intéressé à l’offre IA as a Service du CSP français.

Le premier cas d’usage développé par Hamza Saouli, directeur de l’innovation de Customs Bridge portait sur la classification automatique des produits. L’expert s’est appuyé sur des données accessibles en Open Data, notamment la base de données communautaire EBTI (European Binding Tariff Information). Ce jeu de données contient 250 000 lignes qui couvrent seulement de 10 % à 15 % de la nomenclature complète.

Un pipeline de traitement a été mis en place afin de couvrir la demande d’un client. Il s’agit de soumettre cette requête au modèle. La réponse obtenue auprès du modèle est préparée, puis affichée à l’utilisateur.

En entrée, la chaîne doit traiter des fichiers contenant le descriptif du produit fourni par son fabricant. Ces fichiers de petite taille peuvent être traités en local, puis chargés sur OVHcloud Object Storage, afin d’être soumis au modèle. « Dans un avenir proche, ce pipeline va être plus complexe, car nous sommes en train de créer un augmentateur de texte », précise Hamza Saouli. « C’est un algorithme qui va enrichir un data set pour le faire passer de 200 000/300 000 lignes à 3-4 millions de lignes via des techniques de génération de texte. L’entraînement de modèles sur de tels volumes de données n’est plus possible sur des PC classiques. »

Un des tout premiers utilisateurs des offres d’IA managées d’OVHcloud

C’est donc assez naturellement qu’Hamza Saouli a poussé l’entraînement de ses modèles d’IA vers l’offre OVHcloud AI Training. « Basculer l’apprentissage des modèles d’IA d’une approche On-Premise à OVHcloud AI Training nous a apporté la flexibilité et la puissance que nous ne pouvions pas avoir en interne », assure-t-il. « La solution est très simple à utiliser : nous pouvons fixer à l’avance le nombre de GPU et la taille de la RAM dont nous allons avoir besoin à l’instant t pour mener un apprentissage. C’est très utile si on connaît à l’avance le volume de ressources nécessaires. »

C’est ainsi que Customs Bridge est devenu l’un des tout premiers à essayer l’offre AI du CSP français. « Nous sommes entrés dans une phase d’échanges beaucoup plus poussés avec l’équipe OVH, pour faire remonter les problèmes liés à cette offre alors naissante, souvent liés à notre compréhension de leur plateforme, mais aussi les guider vers nos besoins en tant qu’utilisateurs », explique Loïc Poisot

« Les échanges ont été très constructifs avec eux. », ajoute-t-il. Parmi les évolutions apportées à la solution AI Training par les équipes d’OVHcloud, la possibilité d’entraîner un modèle sur des CPU de préférence aux GPU, une idée soumise par la startup afin de limiter le coût d’apprentissage d’un modèle lorsque le volume de données est compatible avec ce mode.

Customs Bridge a pu explorer et exploiter à sa guise les capacités de l’offre AI Training. « OVHcloud nous donne la possibilité de choisir l’image Docker sur laquelle va être lancé l’apprentissage. J’ai utilisé ces conteneurs pour des modèles de Transformers et Tensorflow pour un Chatbot avec les images disponibles, et cela fonctionne parfaitement », illustre Hamza Saouli.

Pour entraîner ses premiers modèles de Transformers, l’expert s’est appuyé sur 2,5 To de données. Pour les modèles de Machine Learning, il faut de 30 à 40 Go de données en entrée.

« Avec les GPU Nvidia V100 mis à disposition par OVHcloud, l’apprentissage d’un Transformers sur 250 000 lignes ne réclame qu’une trentaine de minutes de calcul. C’est très rapide pour un coût modique, puisqu’une heure de calcul est facturée environ 1,75 euro seulement. », précise-t-il.

Ce coût très limité a permis à la startup de ne pas avoir à se brider dans l’apprentissage de ses modèles et expérimenter autant de fois que nécessaire. « C’est la liberté que nous apporte le modèle cloud » conclut Hamza Saouli qui s’intéresse à d’autres solutions As a Service d’OVH liées à l’IA. Il observe de près OVHcloud ML Serving pour exécuter les modèles en production ou encore le service Data Preparation d’OVHcloud qui pourrait être pertinent pour la startup, lorsque ses volumes de données à traiter en amont des modèles seront plus importants. L’allocation dynamique des ressources permettra à Customs Bridge de n’être facturé que sur sa consommation effective.

« Aujourd’hui, nous voulons adopter une approche réellement multicloud. »
Loïc PoisotCofondateur et président de Customs Bridge

Si Loïc Poisot veut rester fidèle à OVHcloud dans les années à venir, le chef d’entreprise souhaite évoluer vers une architecture multicloud, afin d’améliorer la résilience de son infrastructure technique.

« Nous avons en parallèle un autre hébergeur pour notre messagerie, Infomaniak. Aujourd’hui, nous voulons adopter une approche réellement multicloud. OVH restera notre fournisseur historique, mais nous allons nous appuyer sur un second fournisseur, probablement Infomaniak ou Scaleway pour mettre en place un load balancing et s’assurer que s’il y a un problème chez l’un de nos fournisseurs cloud, nous pourrons continuer à opérer pour nos clients. »

Pour approfondir sur Intelligence Artificielle et Data Science