Tribune : Business Intelligence et Information Management, l’option Open Source
L’Open Source a naturellement conquis des développeurs particulièrement intéressés par la notion de partage du code source. Mais, quid de l’utilisateur final au-delà du cas emblématique mais atypique de Firefox ? L’Open Source est-il armé pour convaincre les “ knowledge workers ”, ceux qui ont besoin d’accéder, d’analyser, et de partager l’information ?
Il a en tout cas marqué des points avec le succès des plates-formes open source de wikis et de blogs dans le collaboratif. L’étape suivante consiste à prendre une place dans des domaines plus profondément ancrés dans l’informatique d’entreprise, comme l’Enterprise Content Management ou la Business Intelligence.
Si la Business Intelligence en mode Open Source retient aujourd’hui notre attention, c’est aussi que le marché s’y prête. Avec les opérations de consolidation de 2007, il s’est en effet profondément reconfiguré. Du côté de l’offre, 65% du marché s’est concentré autour de cinq acteurs, dont les quatre ténors du marché du logiciel. Le marché reste pourtant ouvert à l’innovation, mais, pour les nouveaux entrants, pénétrer le marché avec un modèle de distribution traditionnel est devenu quasi-impossible ; d’où leur attrait pour de nouveaux modèles comme l’Open Source ou le software as a service.
Autre terrain fertile, celui des éditeurs de progiciels de gestion, qui ont besoin d’embarquer des outils d’aide à la décision pour ajouter une dimension analytique à leurs portefeuilles de produits. Le modèle Open Source les intéresse d’autant plus que les outils qu’ils avaient coutume de choisir il y a peu, sont passés sous le contrôle de leurs concurrents directs, du fait de l’impact des fusions/acquisitions.
Enfin, la reconfiguration du marché incite les entreprises à faire le point sur leurs stratégies BI. Qu’elles soient ou non déjà équipées d’outils de Business Intelligence, elles sont nombreuses à considérer leur schéma directeur BI. L’Open Source peut alors constituer une option à considérer pour tout ou une partie de la plate-forme technologique.
Aujourd’hui on peut dénombrer trois domaines dans lesquels les solutions Open Source se positionnent : la base de données, les outils et plates-formes de restitution, et enfin l’information management (qualité de données, master data management, ETL…)
La base de données
Il y trois options possibles pour gérer les données dans un contexte décisionnel : la base relationnelle, la base multidimensionnelle, et la base de données en partitionnement vertical.
Les bases de données relationnelles sont aujourd’hui et de loin, celles qui sont les plus utilisées dans les entreprises, y compris dans un contexte décisionnel. Les trois principales bases de données Open Source du marché, MySQL, PostgreSQL et Ingres ont déjà de beaux arguments à mettre en avant, même si elles n’ont pas encore l’expérience et les références en décisionnel des leaders du monde commercial. MySQL est la plus en retrait parmi les trois, même si le téraoctet ne lui fait plus peur et qu’il a noué des partenariats avec des solutions complémentaires comme Infobright pour accélérer les performances des environnements décisionnels. Pour quelques semaines encore, Ingres est embarquée dans les solutions de DATAllegro ce qui l’amène à gérer des data warehouses de plusieurs centaines de téraoctets (Microsoft ayant racheté DATAllegro pendant l’été 2008, Ingres devra céder sa place à Microsoft SQLServer dans un futur proche) ; sa pertinence dans un contexte décisionnel est donc largement éprouvée . De son côté, PostgreSQL est embarqué dans l’offre Greenplum, autre solution en vue pour les très grandes bases de données décisionnelles. Avec Jaspersoft et quelques autres, Greenplum a aussi donné naissance en 2005 au projet Bizgres, dont la mission est de faire de PostgreSQL la base de données décisionnelle Open Source la plus robuste du marché.
Même si elles sont moins célèbres, les bases de données multidimensionnelles ont aussi leur place dans le monde Open Source. Les bases en vue sont Mondrian (qui fait partie de la suite décisionnelle Pentaho), JasperAnalysis et Palo (de l’éditeur allemand Jedox). Enfin, il existe quelques bases de données à partitionnement vertical, technologies 100% dédiées au décisionnel dont Sybase et Harry Software s’étaient faits les pionniers et qui sont de plus en plus prisées des applications décisionnelles. Dans ce domaine, les solutions n’ont pas la notoriété ni la maturité de celles évoquées précédemment. Mais, il est intéressant de constater que ces projets sont des tremplins utilisés par des startups innovantes : le projet universitaire C-Store est aujourd’hui exploité commercialement par Vertica, la société créée par le père d’Ingres et de Postgres ; de son côté, le projet LucidDB est largement porté par la société LucidEra, un des pionniers du marché encore naissant de la BI en mode hébergé.
Les outils de restitution et la plate-forme BI
Les premières briques techniques pour la Business Intelligence sont apparues dès 2001 avec JasperReports. Puis de nombreux autres projets se sont lancés ou ont été réutilisés, venant ainsi couvrir tous les domaines de la Business Intelligence:
- pour le reporting : BIRT, la déclinaison Open Source des solutions de l’éditeur Actuate, partie intégrante de la célèbre plate-forme Open Source Eclipse ; Pentaho Reporting ; JasperReports … certains de ces outils, comme Jaspersoft, se sont vus adjoindre des couches sémantiques permettant aux utilisateurs finaux d’interroger en mode ad-hoc la base de données.
- JPivot, Jrubik ou FreeAnalysis comme outils de restitution multidimensionnels…
- FreeMetrics pour la gestion des KPIs
- Weka ou le projet « R » pour le datamining
Parmi tous ces composants, l’environnement de reporting suscite un intérêt tout particulier. En effet, le modèle Open Source convient particulièrement bien au reporting de masse : d’une part, car les rapports sont souvent réalisés non pas par les utilisateurs finaux, mais plutôt par des développeurs, eux-mêmes souvent favorables aux solutions Open Source. D’autre part, les coûts des solutions des éditeurs de BI traditionnels peuvent parfois paraître démesurés pour la diffusion de rapports sur une cible très large d’utilisateurs dans l’entreprise ou au delà.
Autre demande fréquente : celle d’une plate-forme décisionnelle complète, sous la forme d’une suite d’outils de restitution, voire même d’une suite plus large intégrant bases de données et outils d’intégration de données. Ces solutions intéressent les entreprises qui n’ont pas un existant décisionnel à considérer dans leurs nouveaux projets.
Trois acteurs se détachent dans ce domaine : Pentaho, Jaspersoft, et SpagoBI. Les deux premiers sont les projets les plus médiatiques, puisqu’avec le projet Birt cité précédemment, Pentaho et Jaspersoft font partie du cercle fermé des solutions Open Source dont le nombre de téléchargement revendiqué à dépassé le million !
A noter enfin qu’Ingres commercialise, sous le nom Ingres Icebraker BI Appliance, la suite Jaspersoft, sous la forme d’un bundle logiciel auquel il ajoute un Linux dédié et sa base de données relationnelle. L’intérêt de ce bundle (aussi appelé appliance logiciel), est qu’Ingres prend en charge le support de l’ensemble des solutions qui la compose, en s’appuyant pour ce faire sur une organisation de support importante et à échelle internationale.
Ce tableau ne pourrait être complet sans évoquer le Corporate Performance Management (élaboration budgétaire, consolidation, tableau de bord de direction générale…). Le marché du CPM a été tout particulièrement impacté par les consolidations, puisque les grands éditeurs spécialisés, de Cartesis à Applix, d’Hyperion à Outlooksoft en passant par Cognos, ont rejoint les quatre grands du marché. Il reste donc probablement une ou deux places vacantes pour un spécialiste. Et, les premières solutions Open Source arrivent sur le marché : Adaptive Planning (dont le modèle économique est surtout basé sur le mode Software as a Service, mais qui propose une version Open Source de son outil), myBIQ, ou le français BenchmarkEco avec sa solution Eiffel CPM.
L’Information Management
La Business Intelligence a été le premier domaine à considérer l’intégration de données comme une problématique en tant que telle, nécessitant des outils adaptés. Il a ainsi donné naissance aux ETL, outils d’extraction, de transformation et de transport de l’information par lots. Une fois réglés les problèmes d’interopérabilité et de transport des données d’un contenant à un autre, on s’est intéressé au contenu proprement dit et sont apparues les solutions de profiling et de gestion de la qualité des données.
On a appris par la suite que non seulement ces environnements étaient utiles, voire indispensables aux projets de Business Intelligence, mais qu’ils contribuaient plus largement à la gestion de l’information dans l’entreprise : le Master Data Management s’attache à gérer les référentiels clients, fournisseurs, employés, produits, etc. On cherche aussi à déplacer les données dans le cadre de projets de migration ou pour synchroniser les applications transactionnelles en mode juste-à-temps (ce que l’on appelle parfois Transactional Data Management). De son côté, l’Enterprise Information Integration (EII) vise à faire apparaître les données comme homogènes et fédérées dans une unique base de données homogène alors qu’elles restent en réalité physiquement éparpillées. Enfin, l’Enterprise Content Integration cherche à extraire la structure des données initialement non structurées pour mieux les gérer, les archiver ou les rendre accessibles.
L’ensemble de ces options a donné naissance à une nouvelle discipline, appelée Information Management ou Enterprise Information Management. Il s’agit finalement de gérer de manière plus rigoureuse et industrielle ce que les entreprises géraient tant bien que mal depuis plusieurs années, sans toutefois y avoir consacré des organisations, des processus et des outils dédiés.
L’Open Source a, sur le principe, une carte intéressante à jouer dans ce domaine : dans le domaine de l’intégration de données, il est en effet souvent difficile, en phase projet, de justifier l’achat de licences pour un logiciel dont le retour sur investissement viendra avec le temps, lorsqu’il s’agira de maintenir les systèmes en place et de faire en sorte que l’évolution d’une application n’en impacte pas des dizaines. Plus qu’en concurrence frontale des solutions propriétaires haut de gamme, l’Open Source a ainsi l’opportunité de se positionner en alternative au développement spécifique.
Les solutions Open Source du marché en matière d’Information Management se sont intéressées principalement au marché le plus mature, celui de l’ETL. Deux acteurs se distinguent : Pentaho, avec l’ETL Kettle, ainsi que Talend, une des jeunes pousses françaises les plus en vue, qui propose sa solution de manière indépendante mais l’intègre aussi dans les suites de Jaspersoft et de SPAGO BI. Déjà, Talend élargit sa couverture en intégrant le profiling et la qualité de données.
Il faudra sans doute aussi compter sur un nouvel arrivant de poids : en Mai, cette année, Sun a annoncé le projet Mural. Positionné sur le Master Data Management, le projet promet toutefois une couverture fonctionnelle très large sur la base de cinq sous projets : le premier vise la gestion des master data, le second l’ETL, le troisième la qualité de données, le quatrième l’EII, le cinquième la migration de données
En conclusion...
Avec des offres de plus en complètes, avec des leaders potentiels qui sortent du lot, avec des chevaux de Troyes comme le reporting de masse ou l’ETL, territoires que les éditeurs traditionnels ne sont pas encore parvenus à complètement conquérir, l’Open Source a dans ses mains quelques beaux atouts pour jouer les perturbateurs sur le marché de la Business Intelligence. Les solutions proposées ont toutefois encore une forte marge de progression et les améliorations qu'elles doivent amener au plus vite concernent la partie interface de développement qui reste assez basique (on trouve à ce niveau de grandes disparités suivant les outils).
Elles ne devront par ailleurs plus compter sur l’effet de surprise. Les éditeurs traditionnels ont bien compris la menace et leur défense est prête : gratuité de certains outils pour s’installer dans l’entreprise de manière virale (les versions d’entrée de gamme des bases de données par exemple), bundling de fonctionnalités (un moteur OLAP, un ETL et un outil de gestion et de diffusion en masse de rapports en standard dans Microsoft SQLServer par exemple), etc.
De leur côté, les entreprises ont gagné en maturité vis-à-vis de l’Open Source. Elles ont compris qu’il s’agissait d’un mode de distribution particulier, qui n’est pas synonyme de gratuité, et qu’il convient de bien étudier par rapport au besoin avant d’en tirer des conclusions en matière de coûts de possession. Au-delà des a priori personnels que chacun peut avoir vis-à-vis de l’Open Source, elles ont désormais dépassionné le débat : l’Open Source, pourquoi pas, mais pour peu qu’elle accompagne la solution BI la mieux adaptée à leurs besoins.