GenAI-L : Lefebvre Sarrut lance son assistant d’IA générative en France

Lefebvre Dalloz, filiale française du groupe européen Lefebvre Sarrut, se prépare à lancer un assistant d’IA générative pour les professionnels du droit et du chiffre. Il s’appuie sur une architecture RAG capable de puiser uniquement ses réponses dans les bases documentaires de l’éditeur. GenAI-L est « agnostique » des LLM utilisés, pour l’heure, ceux d’OpenAI.

Plus connu en France pour ses livres, ses « Codes » aux couvertures rouges, le groupe européen – 2400 collaborateurs, 542 millions d’euros de chiffre d’affaires en 2022 – s’est lancé dans l’édition logicielle il y a près de dix ans. « L’activité est réellement visible depuis près de quatre ans », précise Anne Grèze, directrice marketing et membre du Comité de direction de Lefebvre Dalloz.

« Les rédacteurs qui sont des spécialistes dans leurs domaines à un certain moment ont compris qu’il était possible de modéliser des procédures : des conventions collectives, des ruptures dans un contrat de travail, etc. Des esprits curieux ou atypiques ont commencé à développer ses produits logiciels », ajoute l’ancienne rédactrice, spécialiste du droit de la procédure civile et ex-directrice du développement éditorial et numérique au sein du groupe.

Aujourd’hui, Lefebvre Dalloz propose une douzaine de logiciels qui couvrent les aspects réglementaires et de conformité au service des notaires, des conseillers patrimoniaux, des responsables RH, des comptables, des DAF, des commissaires aux comptes et des professionnels du droit (avocats, juristes, etc.). En France, environ 80 collaborateurs développent ses logiciels. Par ailleurs, l’éditeur commercialise l’accès à ses bases de données documentaires en ligne (depuis AWS).

« Nous ne développons pas de grands systèmes comme des SIRH, mais de petites briques qui sont touchées par la réglementation », indique la directrice marketing.

Outre un logiciel en cours de développement pour la mise en conformité avec la CSRD, Lefebvre Sarrut et sa filiale française s’intéresse de très près à l’IA générative.

De fait, le groupe d’éditions a numérisé plus de 3000 ouvrages réunissant des sélections textes de loi, des jurisprudences, des arrêts et leurs commentaires.

Le « search », un enjeu bien connu de Lefebvre Sarrut

« Depuis très longtemps, nous avons un enjeu qui est le “search”, c’est-à-dire d’indiquer le chemin le plus court et le plus facile à emprunter pour que nos clients trouvent l’information qu’ils cherchent dans notre masse de données », affirme Anne Grèze.

Après avoir mis en place des moteurs de recherche traditionnels, la R&D du groupe s’est penchée sur les sujets liés à la sémantique.

« Les premiers travaux que j’ai engagés avec la R&D quand j’étais responsable produit concernaient le machine learning, plus spécifiquement le plongement lexical (Word embedding en VO) afin de déterminer la proximité des décisions de justice », explique la directrice marketing.

C’est ce qui a donné naissance à l’outil « décisions similaires », intégré aux portails documentaires proposés à différentes professions, dont le module dédié aux avocats.

En 2022, Lefebvre Dalloz a lancé Ok.doc, un « moteur de recherche en langage naturel » qui doit permettre de trouver rapidement des informations synthétisées parmi une sélection de résultats issus des mémentos Francis Lefebvre, des ouvrages Dalloz et des Editions Législatives. Le plongement lexical est également utilisé dans OK.doc pour identifier des notions similaires ou des synonymes, mais également pour répondre à des questions différentes reposant sur des termes proches.

La technologie sous-jacente est utilisée dans différentes briques de recherche de Lefebvre Sarrut. L’équipe R&D s’appuie sur des modèles de reranking, chargé de calculer ce score de similarité et de trouver les documents les plus pertinents. Ceux-ci sont basés sur des transformers. De manière générale, l’équipe a déployé des « dizaines » de modèles NLP (traitement du langage naturel) en production.

Par exemple, entre 2017 et 2019, l’équipe R&D de Lefebvre Sarrut a collaboré avec la DINSIC (quand elle n’était pas encore la DINUM) et la Cour de cassation pour affiner les performances d’un modèle de reconnaissance d’entités nommées afin d’anonymiser des arrêts et des jurisprudences édités par la justice française. Les deux entités ont collaboré avec l’équipe de R&D de Zalando, à l’origine du framework de NLP FLAIR, utilisé dans ce cas présent.

Plus récemment, l’équipe R&D a travaillé sur l’accélération de l’inférence de différents modèles transformers, dont GPT-2, en développant une implémentation open source spécifique de TensorRT et de Nvidia Triton.

« La première fois que la R&D a présenté OpenAI au comité de direction du groupe, c’était il y a 18 mois ».
Anne GrèzeDirectrice Marketing, Lefebvre Dalloz

« La première fois que la R&D a présenté OpenAI au comité de direction du groupe, c’était il y a 18 mois », déclare Anne Grèze. « C’est à ce moment-là qu’ils ont ouvert le rideau sur l’IA générative afin que les métiers l’intègrent à la réflexion produit et client ».

GenAI-L, un assistant juridique propulsé par les LLM d’OpenAI et une architecture RAG

Cette présentation a abouti sur le développement de GenAI-L, un assistant d’IA générative intégré à certaines bases de données documentaires du groupe.

L’outil doit fournir des synthèses, répondre à des séries de questions sur un sujet juridique, proposer une liste détaillée des modalités juridiques, ou encore afficher des cas de figure correspondant à une demande. En outre, GenAI-L doit fournir deux types d’explications. Il y a d’abord des éléments générés pour les professionnels du droit et du chiffre « permettant d’analyser les bases légales et arguments en lien avec la question posée ». Ensuite, il est possible de générer une « réécriture de l’explication juridique en langage simple » pour des utilisateurs qui ne serait pas juristes. 

Lefebvre Sarrut a d’abord proposé GenAI-L en Espagne en 2023, puis aux Pays-Bas et prévoit de le déployer en Allemagne, en Belgique, en Italie, au Luxembourg, au Royaume-Uni et en France.

En France, le déploiement en production de GenAI-L est prévu à la fin du mois de mars 2024.

Tout l’enjeu pour le groupe et sa filiale française est de cantonner les résultats de l’IA générative aux bases documentaires… sans risquer de nourrir le LLM sous-jacent qui n’est pas directement la propriété du groupe.

Car, si la R&D a testé les capacités de Llama 2, pour des raisons de performance, Lefebvre Sarrut a choisi de s’appuyer sur les modèles d’OpenAI et la région cloud irlandaise de son hébergeur Azure.

« Nous n’avons pas vocation pour l’instant à entraîner un LLM maison. Notre objectif est d’être agnostique du LLM sous-jacent afin d’opter pour le modèle plus performant ».
Anne GrèzeDirectrice Marketing, Lefebvre Dalloz

« Nous n’avons pas vocation pour l’instant à entraîner un LLM maison », indique Anne Grèze. « Notre objectif est d’être agnostique du LLM sous-jacent afin d’opter pour le modèle plus performant ».

Si Microsoft et OpenAI promettent de ne pas utiliser les données de leurs clients entreprises pour entraîner de grands modèles de langage, Lefebvre Sarrut entend protéger ses données et celles de ses clients.

« Nous livrons au LLM des unités de recherche sans lui en indiquer l’origine. C’est comme si nous lui fournissions des dizaines de milliers de pièces de puzzle mélangées et que nous lui demandions de produire des synthèses », image Anne Grèze. « Cela nous permet d’obtenir des réponses pertinentes, car ce qu’on lui livre l’est également ».

Techniquement, Lefebvre Sarrut s’appuie sur ses briques de recherche comme fondation d’une architecture RAG (Retrieval Augmented Generation). Seuls les extraits issus des résultats de recherche et une version modifiée de la demande de l’utilisateur sont envoyés aux modèles d’OpenAI.

« Le LLM ne voit pas les requêtes de nos clients. C’est notre moteur de recherche qui les traite », clarifie la directrice marketing.

L’outil de reconnaissance d’entités nommées est utilisé pour anonymiser les questions au moteur de recherche.

Les extraits classés par pertinence et la synthèse produite par le LLM sont renvoyés au système de recherche interne de Lefebvre Sarrut afin de lier les sources à la synthèse avant de la présenter aux usagers.

Des précautions d’usage

« Il est très important pour nos clients de pouvoir consulter les sources sur lesquels s’appuient les synthèses », insiste la directrice marketing.

Lors de la présentation de l’outil dans sa version française au MagIT au début du mois de février, les temps de réponse étaient « encore assez longs ».

« Notre objectif est de réduire ce temps de réponse pratiquement de moitié d’ici la disponibilité de GenAI-L à la fin du mois de mars en France ».

Pour autant, GenAI-L était déjà capable de répondre à des réponses assez ouvertes et d’autres, bien plus précises.

Lors de sa démonstration, la directrice marketing a posé deux questions : « Peut-on faire voler un drone partout en France ? » et « Quel est le régime d’assujettissement à la TVA d’une salle municipale polyvalente ? ».

Les deux résultats étaient pertinents et sourcés correctement. Mais la veille, Anne Grèze avait posé une question autour du text mining ou (l’extraction de connaissances en français) et du plagiat auquel le système avait refusé de répondre, faute d’éléments suffisants pour le faire.

« Nous essayons de lui apprendre à ne pas halluciner », signale la directrice marketing.

Les cabinets d’avocats et les DAF ayant déjà testé GenAI-L obtiennent de bons résultats, selon elle. « Ils arrivent parfois à faire halluciner le système quand la réponse n’existe pas ». Toutefois, l’entreprise s’efforce à contraindre le modèle à répondre qu’il ne sait pas quand les résultats de recherche sont inexistants ou peu pertinents.

L’IA générative, une aubaine pour les « legal techs »

L’objectif de Lefebvre Dalloz est de faire « gagner du temps » aux professionnels du droit et du chiffre dans la recherche et la restitution d’informations à leurs clients.

En France, GenAI-L sera vendu comme une extension des bases de données ou en paquet (bundle) avec une ou des bases de données documentaires, par exemple Dalloz Avocats, sous la forme d’un abonnement annuel. Il sera possible d’obtenir les réponses en provenance de plusieurs bases documentaires.

Lefebvre Sarrut n’est pas le seul à lancer un assistant juridique propulsé à l’IA générative. La legal tech parisienne Jus Mundi a annoncé la préversion de Jus AI Assistant, un outil développé en partenariat avec Microsoft qui exploite GPT-4 et d’autres LLM pour répondre aux questions posées sur la base documentaire de jurisprudences internationales rassemblées par la startup. Jus Mundi ne se dit pas en concurrence avec Lefebvre Dalloz, mais veut également faire gagner du temps « à l’ensemble des acteurs du droit international et de l’arbitrage ».

Il faut dire que le rapport sur l’impact de l’IA générative sur les professions juridiques de l’European Legal Technology Association (ELTA), publié au début de mois de janvier en collaboration avec Lefebvre Sarrut, plaide en la faveur des initiatives de ces deux acteurs. Près de 87 % des 234 professionnels du monde juridique et du secteur public interrogés ont déjà testé l’IA générative, mais attendent des garanties de transparence sur le fonctionnement de ces assistants ainsi que sur les méthodes d’entraînement et de sélection de jeu de données.

Pour approfondir sur Intelligence Artificielle et Data Science