Guido Vrola - Fotolia
Nuclia, la startup qui retrouve l’information selon son sens
Les moteurs de Nuclia vectorisent la sémantique d’un document texte, scanné ou audio. Ils trouvent directement, là, des données sensibles, là, le passage important dans une vidéo. Ils génèrent même des résumés.
Indexer les contenus des fichiers, non pas à partir des vocables qu’ils contiennent, mais à partir de leur sens, telle est la promesse étonnante de Nuclia. Cette startup espagnole, rencontrée par LeMagIT à l’occasion d’un événement IT Press Tour plus tôt ce mois-ci, prétend avoir développé un moteur qui « vectorise » l’information, indépendamment des langues et des formats de fichiers que peut manipuler une entreprise.
« Un moteur de recherche classique va vous lister les documents en anglais qui contiennent les mots anglais de votre recherche. Le nôtre est capable de comprendre votre question et de vous montrer la réponse dans les documents en français ou en italien que vous possédez, ou même d’y répondre directement en résumant le contenu des documents qui contiennent la réponse », explique Eudald Camprubí, le PDG et co-fondateur de Nuclia.
Il donne un exemple. Une recherche « date de création de Nuclia » engendre sur un moteur classique une liste de documents qui contiennent ce bout de phrase. Le moteur de Nuclia donne la date exacte et propose des liens qui pointent directement vers l’endroit précis – le paragraphe, la phrase – des documents qui parlent de cette information.
Comprendre le sens des textes, des documents scannés et des bandes-son
L’autre point fort de Nuclia est qu’il fonctionne aussi avec des fichiers image – il dispose d’un moteur d’OCR pour en extraire les textes, par exemple sur des documents scannés en PDF – et des vidéos. Dans ce dernier cas, il extrait la bande-son et la convertit en texte avec un moteur interne de type Speech-to-Text. Mieux, le moteur de Nuclia n’est pas limité aux documents stockés localement. Il analyse tous les contenus atteignables via une adresse.
« Si vous référencez des espaces de stockage en ligne, en partage de fichiers ou en mode objet S3, ou même des vidéos YouTube publiques, dans le pool de données à indexer, alors notre moteur les analysera et les englobera dans sa base de connaissance. Ainsi, parmi les réponses qu’il vous donnera, vous obtiendrez des liens vers un paragraphe dans un document Word, vers une page dans un document PDF ou vers une séquence précise dans une vidéo » détaille Eudald Camprubí.
En revanche, il faut que le contenu corresponde à du texte. Le moteur de Nuclia n’est pas capable d’interpréter le sens d’une photo ou d’une scène filmée.
Techniquement, Nuclia se compose d’abord d’un client – Nuclia Desktop – à installer sur une machine qui accède au stockage à indexer. Outre servir ensuite de moteur de recherche local, le client aspire les données pour les livrer à un extracteur de données qui comprend tous les moteurs d’ouverture de fichiers, d’OCR, de conversion audio vers texte et de traduction des langues. Un second moteur « vectorise » l’information, classe ses découvertes, génère des résumés.
L’ensemble des résultats est stocké dans une base de données maison, Nuclia DB. Celle-ci est interrogeable par API – Nuclia propose un SDK pour développer soi-même des applications compatibles, y compris un SDK pour bâtir des interfaces à la souris – ou par requêtes en langage naturel. Accessoirement, Nuclia DB est disponible en Open source.
Tous ces modules peuvent fonctionner sur site, ou en ligne.
Des cas d’usage qui vont au-delà de la recherche de mots-clés
« Toute cette technique nous permet de servir des cas d’usage qui repoussent les limites de la recherche documentaire. Vous pouvez par exemple détecter automatiquement les données sensibles, qui tombent sous l’autorité du RGPD, et programmer un script pour les anonymiser au fil de l’eau. Vous pouvez analyser automatiquement les messages que vos clients laissent sur vos boîtes vocales ou vos réseaux sociaux et déclencher rapidement les réactions de vos services, etc. » indique Eudald Camprubí.
Le PDG raconte avoir vendu les premières versions de sa technologie à des grands comptes américains, parmi lesquels Facebook et Electronic Arts, essentiellement pour servir des besoins juridiques. Ce n’est qu’ensuite, en 2019, qu’il a décidé de fonder Nuclia et d’installer son siège social à Barcelone, sous droit européen. Depuis, ses clients comprennent plusieurs administrations européennes, des centres de recherche pharmaceutiques, des entités spécialisées dans les relations client ou encore des centres de formation.
Ces derniers, par exemple, produisent des cours en vidéo. Grâce à Nuclia, ils peuvent désormais doter leur plateforme d’un moteur de recherche qui affiche en résultat le passage exact qui concernait le sujet demandé, lors d’un cours.
L’espoir d’Eudald Camprubí est à présent d’élargir sa clientèle d’entreprises privées européennes, avec des tarifs qui vont de 5 000 à 60 000 €/an selon leur taille. « Outre vendre notre solution clé en main, nous nourrissons l’espoir que Nuclia DB devienne la base de données par défaut sur Hugging Face, le portail communautaire qui fédère tous les développements autour de l’intelligence artificielle », conclut-il.
L’événement IT Press Tour lors duquel a eu lieu cette rencontre, à Lisbonne, avait pour intention de présenter à la presse des startups exclusivement européennes qui innovent dans le domaine du stockage. Ces startups sont ainsi censées mieux répondre aux besoins de souveraineté des entreprises de l’UE.