il-fede - Fotolia

Box rachète Alphamoon pour rendre son OCR plus « intelligent »

Les nombreux documents papier qui n’ont pas encore été numérisés ont besoin d’OCR plus précise pour être intégrés dans les référentiels de connaissances des entreprises. L’IA d’Alphamoon devrait aider Box à combler l’écart entre « smart OCR » et « Intelligent Document Processing ».

Box vient de racheter la startup Alphamoon pour améliorer à la fois sa propre technologie de traitement intelligent de documents (IDP) et son intelligence artificielle dédiée à la gestion des connaissances (knowledge management) des entreprises, Box AI.

L’IDP ajoute de l’Intelligence artificielle à l’OCR classique (Optical Character Recognition), capable historiquement d’extraire des caractères des documents papier numérisés, des PDF non structurés ou d’images.

L’IA permet depuis longtemps le traitement du langage naturel (NLP), la reconnaissance de la structure des documents, ou le routage automatique d’un fichier dans un workflow documentaire. Mais Alphamoon ajoute de l’intelligence artificielle générative (GenAI) à ces fonctionnalités, souligne Box.

Rand Wacker, vice-président de la stratégie produit IA chez Box, explique que la GenAI permet non seulement de résumer les documents, mais aussi de mieux extraire le contenu. L’IA générative peut reconnaître la structure des documents, les classer par catégories et travailler de concert avec les technologies OCR et NLP pour convertir en numérique les documents papier de manière plus précise.

Techniquement, Box n’a pas racheté un LLM (grand modèle de langage), mais une boîte à outils qui améliorera sa plateforme Box AI. Box AI intègre par ailleurs déjà un RAG qui permet d’entraîner ses LLMs sur les documents particuliers d’une entreprise et de cantonner ces LLMs à ces documents pour en assurer la confidentialité. Alphamoon ajoutera de la sophistication à ce processus, vante Box. Utilisé avec d’autres fonctionnalités de Box, il devrait aussi permettre aux administrateurs de créer des outils pour accomplir ces tâches plus facilement.

« Par exemple, imaginons que Alphamoon effectue une reconnaissance optique de caractères (OCR) sur un document, mais qu’une partie de l’extraction – ou toute l’extraction – pose problème. L’outil peut automatiquement l’envoyer dans un LLM », explique Rand Wacker.

Capture d'écran de l'outil d'Alphamoon

La moitié des documents papier toujours pas numérisée

Pour l’analyste IT Alan Pelz-Sharpe, de Deep Analysis – qui a mené une étude auprès de 500 entreprises de secteurs très différents (services financiers, industrie, santé, secteur public, etc.) –, 53 % des documents seraient encore sur papier. Ce qui signifie, pour lui, que les utilisateurs de Box ont besoin d’outils plus performants pour numériser encore plus précisément ces contrats, ces lettres, ces factures, et les montagnes de papiers qui n’ont pas encore pu être numérisés.

« Pour l’IDP, Box s’appuyait sur des partenaires ; mais c’était toujours un peu un talon d’Achille pour eux. »
Alan Pelz-SharpeDeep Analysis

« L’IDP est incroyablement dur à faire. Mais l’IA a fait d’énormes progrès dans ce domaine », souligne Alan Pelz-Sharpe. « Si une feuille est froissée, s’il y a une tache de café dessus, si l’écriture manuscrite n’est pas très lisible, l’IA a progressé en précision. Je ne dis pas que tout fonctionne parfaitement, mais la technologie a évolué. Et c’était une lacune pour Box. Ils s’appuyaient sur des partenaires ; mais c’était toujours un peu un talon d’Achille pour eux. »

Les outils d’Alphamoon seront disponibles dans la plateforme de Box un peu plus tard dans l’année. L’éditeur envisage également une intégration plus poussée, l’année prochaine, avec son application no-code liée à Crooze, une autre acquisition de Box.

D’autres fonctionnalités sont également prévues pour les outils de génération de formulaires et de documents de Box Relay.

Les conditions financières de l’acquisition n’ont pas été divulguées.

Pour approfondir sur IA appliquée, GenAI, IA infusée

Close