agsandrew - Fotolia

Webhose.io : des flux de données prêts à l’emploi pour le Big Data

La société israélienne propose un service de flux de données structurées provenant de l'extraction des informations des grands sites d'information, de discussion et de vente en ligne de la planète. Ses clients, dont IBM, Salesforce et plusieurs grandes banques les utilisent pour alimenter leurs modèles Big Data.

Lors d’un récent tour de start-ups en Israel, LeMagIT a pu s’entretenir avec les dirigeants de Webhose.io, une jeune société israélienne qui met à disposition de ses clients des flux de données pour leurs applications Big Data. La firme se présente comme un fournisseur de Data as a Service (DaaS), pour les entreprises à la recherche de sources de données pour alimenter leurs modèles analytiques.

Webhose.io a développé une plate-forme qui parcourt des sources d’informations non structurées sur le web, leur ajoute de la structure et les package sous la forme de flux JSON, que les datascientists peuvent ensuite utiliser pour alimenter leurs modèles Big Data. L’idée est de transformer des sources de données à l’origine non structurées en des flux de données structurés que des algorithmes d’analyse de données puissent exploiter plus simplement.

La plate-forme de la société s’appuie sur une série de « crawleurs » intelligents qui parcourent les principaux sites d’informations mondiaux, les grands forums de discussions, les sites de e-commerce, ainsi que les sites des grandes radios et chaînes de TV afin de collecter leurs données. Une fois ces données collectées, elles sont traitées par un cluster d’environ 120 nœuds faisant tourner un ensemble de technologies open source telles  que Elastic Search et Kibana et Apache Kafka. La plate-forme permet d’analyser et les données collectées par les crawleurs afin d’en extraire des informations structurées, puis ces données sont indexées afin d’être consommables par les utilisateurs.

Par exemple, un article de presse est analysé, puis repackagé sous la forme d’un document JSON comportant des éléments de structure essentiel tels que la date de publication l’auteur, le titre, un résumé, son texte ainsi que des informations additionnelles comme un score de réputation, etc. Pour les sites de e-commerce, la plate-forme récupère les données des produits mis en vente et collecte des informations comme la référence, le prix du produit, sa description, les commentaires des acheteurs, etc.

La firme fournit ces données sous forme de flux quasi-temps réel mais dispose aussi d’une archive sur plusieurs années de ces données. Cela permet par exemple aux clients de Webhose.io d’obtenir des archives tarifaires sur un produit sur plusieurs mois ou années. Un e-commerçant peut ainsi comparer ses prix à ceux de ces concurrents ou observer l’évolution du prix d’un produit sur une longue période en le croisant avec d’autres données.

Ran Geva, CEO et cofondateur de Webhose.io,
au siège de la société à Tel-Aviv

Comme l’explique le CEO de la société, Ran Geva, Webhose.io épargne à ses clients le lourd travail de crawling, de nettoyage et de mise en forme des données et leur permet de disposer de flux de données prêts à l’emploi pour leurs applications analytiques. Elle met à leur disposition un portail permettant de réaliser des requêtes pour obtenir les flux désirés ainsi qu’une API pour extraire ces mêmes données de façon automatisée. Les flux de données sont facturés en fonction du nombre de requêtes et du volume de données consommé. Un mode freemium est disponible permettant à des utilisateurs de tester gratuitement les services de la société avant de souscrire un abonnement.

Webhose.io emploie actuellement un peu plus de 15 personnes est autofinancée et est déjà rentable. La firme revendique plus de 36000 clients enregistrés sur sa plate-forme et plusieurs centaines de clients payants dans le monde, dont des géants comme IBM ou Salesforce. Le premier consomme les flux d’actualités fournis par Webhose.io pour alimenter Watson, tandis que le second utilise les données de la start-up pour alimenter son service de monitoring des médias. D’autres clients consomment les flux de données dans le cadre de leurs applications Big Data. Rabobank, par exemple enrichit ses modèles d’analyse financière en s’appuyant sur les données d'actualité collectées par Webhose.

Un dernier type de flux émergent proposé par la société est alimenté par les données issues du « dark web ». La firme a développé une série de crawleurs spécifiques dont la mission est de collecter des données sur les principaux sites et forums du dark web dissimulés derrière le réseau TOR. Ces flux de données très spécifiques sont notamment consommés par les géants de la sécurité afin de renforcer leurs services d’analyse de menaces.

Pour Ran Geva, la révolution en cours autour de l’AI et du machine learning, nécessite que les modèles de données soit alimentées par des sources de données structurées fiables et à jour. Webhose.io entend se positionner comme l’un des fournisseurs incontournables de ces données. 

Pour approfondir sur Big Data et Data lake