BI 201x : l’an 4 de la Business Intelligence ? (partie 4)
En dépit de la crise, l’intérêt pour la business intelligence ne s’est pas démenti et les demandes côté métiers se font toujours aussi pressantes. A la demande du MagIT, Jean-Michel Franco, expert de la BI chez Business & Decision, revient dans une série de quatre articles sur l'histoire, l'évolution et les enjeux des technologies BI. Quatrième partie : ces cinq tendances seront-elles les tops ou les flops des années 2010 ?
Tendance #12 : La BI Open Source : un marché mature pour devenir commodité ?
Tendance #15 : La visualisation des données : enfin du nouveau depuis le macintosh et le tableur ?
Les dix premières tendances étudiées :
1. La gestion de la performance d’entreprise rejoint la Business Intelligence.
6. Quand l’information dite non structurée enrichit les systèmes d’information de l’entreprise.
Tendance #11 : Les nouveaux modes de delivery (appliances, SaaS…) : la BI, prête pour s’engager dans une rupture ?
L’enjeu : on pensait que les bases relationnelles avaient permis de reléguer la dimension technique de la plupart des applications de gestion à l’arrière plan. Grâce à elle, des problèmes tels que le choix du système d’exploitation, du hardware, la gestion de la performance devenaient de plus en plus anecdotiques. Les considérations techniques le devenaient elles aussi lorsqu’il s’agissait de choisir la base de données proprement dite. Seul le multi-dimensionnel, avec les bases de données dites OLAP, jouait le rôle de trouble-fête, mais les grands éditeurs les ont aisément reléguées au rôle d’option autour de leur base de données relationnelle reine.
Tout irait donc bien dans le meilleur des mondes si ces bases de données, qu’elles soient OLAP ou relationnelles, ne souffraient pas d’un problème chronique, notamment lorsque utilisées dans un contexte décisionnel : la mise à l’échelle. Au-delà d’un certain volume de données et/ou d’un certain nombre d’utilisateurs, la base de données n’est plus une commodité, mais le cœur du problème. Les utilisateurs se plaignent des temps de réponses, tandis que les efforts des administrateurs de base de données pour optimiser les performances deviennent démesurés et les configurations matérielles sous jacentes trop coûteuses. Or, le volume de données en question, quelques tera-octets en général, n’est plus seulement l’affaire d’une poignée de grandes banques ou opérateurs telecoms. C’est devenu la monnaie courante de beaucoup de systèmes décisionnels d’entreprise.
On voit donc arriver tout un ensemble de solutions pour résoudre ce problème. Cela peut aller jusqu’à l’externalisation complète de l’infrastructure ou même des applications associées. On parle alors du modèle Software as a Service, dont le succès dans la Business Intelligence n’est pas démontré. On parle aussi du modèle Cloud Computing où les ressources matérielles sont virtualisées et gérées par un tiers, modèle certes émergent mais qui pourrait susciter plus d’intérêt dans l’avenir. On parle aussi de Data warehouse as a Service (DaaS), où la ressource matérielle est physiquement située dans les locaux du client tout en étant exploitée par un tiers, ce qui permet au client de garder la maitrise de ses données tout en déléguant la dimension technique.
Le second modèle est celui des appliances. Dans ce cas, un même fournisseur propose à la fois le hardware et le software et les préconfigure pour une utilisation spécifique au décisionnel. Ce modèle a provoqué des ruptures surprenantes sur le marché, le rachat de Sun par Oracle étant la plus spectaculaire ; mais il y a eu aussi l’inattendu retour de HP sur le marché des bases de données avec Neoview, le rachat de Datallegro par Microsoft ou encore co-développement entre Intel et SAP débouchant sur une appliance baptisée BW Accelerator. Le tout pour étendre un marché qui est jusque là resté un marché de niche, dominé par Teradata ou Netezza, et en ligne de mire de quelques partenaires innovants comme Greenplum ou Vertica.
Le troisième modèle est celui des bases de données dédiées au décisionnel. Comme leurs ancêtres relationnelles ou multidimensionnelles, celles sont indépendantes du matériel sous jacents. Mais elles proposent une structuration spécifique des donnés afin de pouvoir balayer d’énormes volumes de données en un temps record. Sybase, avec Sybase IQ, était le précurseur avec un modèle de stockage en colonne que d’autres ont repris depuis, le dernier en date étant Ingres. L’idée de stocker des données en mémoire suit également son chemin sous la bannière d’acteurs comme Qlickview ou Illuminate, suivis depuis par SAP, Microsoft ou IBM.
Derrière cette tendance se cache une question de fond. Le dernier carré magique des bases de données Data Warehouse du Gartner recense 18 acteurs. Or les places sont limitées : le marché de bases de données est certes énorme (15 Milliards de dollars) mais très concentré : les 3 premiers se partagent presque 85% du gâteau. La rupture évoquée suffira-t-elle à redistribuer les cartes ? Le noyau technologique des leaders est certes désormais sérieusement remis en cause (pas seulement sur l’axe décisionnel d’ailleurs, puisque le Cloud Computing pose lui aussi un challenge aux bases de données traditionnelles) mais leur base installée est énorme et ils ont perçu le danger. Il était à ce titre intéressant d’entendre le discours du PDG d’Oracle à la dernière conférence de l’éditeur à propos de la nouvelle appliance Exadata. Larry Ellison y évoquait un cas d’amélioration des performances d’un facteur 28 par rapport aux configurations Oracle précédentes. C’est certes un progrès considérable mais c’est aussi assez peu flatteur pour la solution traditionnelle sur laquelle repose une grande partie des systèmes décisionnels opérationnels à ce jour.
Les utilisateurs ont de plus en plus de mal à comprendre pourquoi il faut tant de temps pour obtenir les chiffres dont ils ont besoin dans leur entreprise alors qu’une fraction de seconde suffit pour trouver l’aiguille dans la meule de foin sur Internet. Le problème doit donc être résolu quoi qu’il arrive, que ce soit par des perturbateurs aptes à rapidement irriguer le marché avec leurs nouvelles solutions ou par les leaders du marché, par l’amélioration de leurs technologies traditionnelles
Tendance #12 : La BI Open Source : un marché mature pour devenir commodité ?
L’enjeu : Le modèle Open Source est beaucoup plus complexe qu’il n’y parait au premier abord. Les succès sont remarquables mais ne s’appliquent pas à tous les contextes. Certaines solutions se sont imposées comme des standards de faits, alors que d’autres tombent dans l’oubli, laissant les quelques utilisateurs restants avec une application sont le code source est certes disponible mais qu’ils n’ont pas les moyens de faire évoluer par eux-mêmes. D’autres solutions se sont imposées dans certains contextes, mais pas dans d’autres : les bases de données open source, par exemple, sont des standards de faits dans le monde du web mais rencontrent toutes les difficultés à gagner la confiance du monde de l’informatique de gestion, etc.
Dans la BI, les solutions Open Source ont rencontré des fortunes diverses. Les bases de données peinent à se répandre, ce qui est surprenant au vu de la pertinence de mySQL, de Posgres ou surtout d’Ingres pour des systèmes décisionnels basés sur des bases décisionnelles traditionnelles, ou encore de l’arrivée de moteur OLAP open source comme Palo. L’avenir devrait promettre des jours meilleurs pour les systèmes décisionnels qui ne se heurtent pas au mur des performances, évoqué dans la tendance précédente.
Les plates-formes décisionnelles existent, les plus connues étant Jaspersoft, Pentaho ou Spago BI, mais leur adoption est plus lente que prévue. Elles ont notamment du mal à convaincre l’utilisateur qu’elles sont en mesure de leur permettre de définir par eux-mêmes efficacement des requêtes analyses et tableaux de bord interactifs.
L’open source, par contre, est parvenu à séduire certains utilisateurs « avancés », à l’instar du projet R, pour les statistiques et le data mining. Elles séduisent aussi les développeurs, notamment pour définir des applications analytiques, des tableaux de bord ou des rapports prédéfinis. JasperReports ou Birt connaissent ainsi un certain succès.
Mais le domaine où l’Open Source devrait s’imposer le plus rapidement est l’intégration de données. C’est la face cachée d’un projet décisionnel, mais elle représente la grosse majorité des efforts de mise en œuvre. Elle est de plus à l’origine de bien des déboires dans les projets décisionnels, qui « souffrent » fréquemment de problèmes de qualité de données comme on a pu le voir précédemment. Or, beaucoup de projets décisionnels restent construits sur la base d’une couche d’intégration de données artisanale : autant les outils d’aide à la décision ont fait l’objet de toutes les attentions, autant le back office pour constituer les bases informationnelles est fragile.
Industrialiser le back office représente donc un enjeu conséquent, et le modèle Open Source est apte à y répondre de manière progressive, sur la base d’un principe « low cost » pour convaincre les entreprises qui n’étaient pas parvenues jusque-là à justifier l’investissement d’une solution « haut de gamme ». Le modèle Open Source y est par ailleurs adapté pour d’autres raisons que celui des coûts : l’intégration de données nécessite en effet de disposer de connecteurs pour extraire et alimenter les différentes sources et cibles. Or, un logiciel libre s’appuie sur une communauté ouverte de développeurs qui peuvent s’organiser pour enrichir, tester et améliorer le produit, typiquement pour enrichir un catalogue de connecteurs pour des sources et cible de tous types, y compris les plus exotiques.
Le modèle Open Source est donc en train de s’imposer sur l’intégration de données, sous l’impulsion d’un porte drapeau, la société Talend, qui fait partie des acteurs les plus en vue du mode Open Source, tous domaines confondus. En complément de son offre « ETL » pour gérer l’acquisition, la transformation, et la mise à disposition des données, Talend s’attaque désormais à des sujets connexes, comme la qualité de données et le master data management, domaine où les entreprises sont encore très peu équipées, et ont le souhait d’adopter ces principes progressivement plutôt que de s’engager dès le départ sur un projet de très grosse envergure.
Tendance #13 : La BI prédictive : La technologie pourra-t-elle un jour nous aider à prévoir l’avenir ?
L’enjeu : la BI prédictive est un sujet controversé car elle il faut bien reconnaitre qu’elle fait partie des promesses non tenues par nombre d’initiative décisionnelles. On a fait trop souvent fait rêver les métiers en leur laissant entrevoir une boule de cristal, pour un résultat final plus proche du rétroviseur.
Pourtant, dans bien des domaines domaines d’activité, l’analyse prédictive rend des services indispensables. C’est grâce à elle par exemple que les services de crédit à la consommation peuvent accepter en temps réel une demande de crédit, tout en refusant la majorité des demandes sur la base d’un scoring en temps réel du risque crédit et de fraude. Dans le secteur des produits grands publics, elle rend des services innovants au consommateur final, par exemple dans les systèmes de recommandations que l’on voit sur iTunes ou Amazon. Dans les départements R&D des laboratoires pharmaceutiques, Risque des banques ou Marketing des opérateurs telecoms, ces technologies sont aussi largement répandues. Les fondations technologiques et mathématiques, sont de leur côté largement matures : les leaders du marché comme Sas Institute ou SPSS (aujourd’hui acquis par IBM) ont d’ailleurs été créés dans les années 1970.
Alors pourquoi la BI prédictive peine-t-elle à ce point à se démocratiser ? La première raison vient de la courbe de maturité du décisionnel. Hormis pour certains cas d’usages précis, comme certains évoqués précédemment, le décisionnel s’appréhende en premier lieu par sa dimension descriptive.C’est l’image de rétroviseur déjà évoqué. Puis, il se développe sur une dimension interactive. Dans bien des entreprises disposant d’une bonne expérience en décisionnel, cette seconde dimension arrive à un bon niveau de maturité : des outils de définition de requête ad hoc ou d’analyse multidimensionnelle sont proposés à une certaine population d’utilisateurs. Des tableaux de bord interactifs, voir des outils de visualisation avancés comme nous l’évoquerons plus tard, commencent eux aussi à se répandre. L’analyse prédictive est le prolongement naturel, mais ce ne peut être que l’étape suivante, et elle ne peut s’adresser qu’à une population plus réduite encore, familière aux principes d’analyse de données.
L’erreur, du reste, a sans doute été de penser dans ce domaine que la technologie remplacerait les compétences humaines pour l’analyse de données. Or c’est un peu comme si l’on considérait que la démocratisation de l’informatique supprimerait le besoin d’informaticien. Derrière les algorithmes de recommandations des grands sites de e-commerce, il y a des années d’efforts. Netflix, le très médiatique loueur de DVD aux US, offre régulièrement 1 million de dollars à qui améliore son algorithme de recommandation. Car l’enjeu est de taille : à l’heure de l’hyperchoix, le consommateur n’a plus suffisamment de temps à consacrer à trouver l’offre la mieux adapté à son contexte et celui qui parvient à le faire pour lui développe un avantage compétitif considérable sur sa concurrence. Dans cet exemple, comme dans d’autres, l’analyse prédictive a démontré son énorme valeur ajoutée. Mais elle ne peut se mettre en place qu’au moyen d’équipes dédiées dont le métier est de créer des modèles et de les rendre exploitables par les équipes sur le terrain, voir les clients eux-mêmes.
Tendance #14 : La BI départementale (le retour) : l’entrepôt de données d’entreprise est-il un point de passage obligé
L’enjeu : D’une certaine manière, cette tendance est un paradoxe, car elle est à l’exact opposé des tendances 2 (consolidation des plates formes) et 3 (les services partagés pour donner une dimension « entreprise » aux projets décisionnels). Elle illustre par contre le grand écart qu’il est nécessaire de faire pour réussir un projet décisionnel. Il doit en effet être au plus près du besoin métier de chacun et, en même temps, être fédérateur, avoir un rôle de tour de contrôle pour analyser les usages qui sont fait de l’information et aussi permettre de créer les synergies pour que diverses organisations avancent ensemble dans une même direction.Combiner les deux objectifs n’est pas chose facile, de même que de nombreux usages du décisionnel n’ont pas vocation à permettre une amélioration à l’échelle d’une entreprise, mais plutôt à améliorer telle ou telle activité.
A côté des grands projets décisionnels d’entreprise, on voit donc se développer, pour le meilleur ou pour le pire, une autre Business Intelligence, sous la responsabilité d’une population d’analystes métier au fait des techniques d’analyse de données. Car les technologies ont progressé et permettent désormais de la faire : dans la version 2010 d’Excel, par exemple, PowerPivot permet de croiser tout un ensemble de données hétérogènes, y compris en brassant de très gros volumes de données, puis éventuellement de les partager auprès d’un groupe d’utilisateurs via le portail Sharepoint. PowerPivot ne fait du reste finalement que reprendre des idées que d’autres comme Qliktech ou Tibco/spotfire ont commencé à populariser.
Est-ce un progrès ou le début du chaos ? C’est finalement à l’entreprise d’en décider. L’avènement du web 2.0 donne une autonomie considérable aux utilisateurs et la direction informatique est de moins en moins en mesure d’imposer ses propres règles. On le voit par exemple avec l’utilisation de site d’échange de fichiers comme yousendit, que beaucoup d’utilisateurs en entreprise utilisent pour contourner les limitations que leur informatique interne leur impose, outrepassant alors les principes les plus basiques en termes de sécurité. Dans la BI, beaucoup d’utilisateurs ont d’ailleurs pris l’habitude d’assembler sous Excel des sources de données obtenues par des moyens divers puis de les diffuser sans considérer les impacts de confidentialité ou de réglementation de protection des données.
Une nouvelle gouvernance doit donc être mise en place, afin de sensibiliser les utilisateurs sur les avantages, inconvénients et risques de chaque pratique, de contrôler les usages qui sont fait de l’informatique décisionnelle, mais aussi de leur donner des solutions qui leur procurent plus d’autonomie tout en les découragent d’e outrepasser tous les contrôles en question. Sur ce dernier point, la solution passe sans doute par l’intégration des solutions départementales citées précédemment à un cadre d’entreprise permettant de gérer la sécurité, la qualité et l’unicité des données, etc. C’était l’objet de la tendance 4, évoquée précédemment. Elle constitue sans doute le meilleur chemin pour pérenniser l’utilisation de la BI départementale. Pour le reste, elle continuera à se développer pour des applications tactiques, « jetables » qui n’ont pas besoin du support de l’informatique d’entreprise pour se mettre en place puis disparaitre.
Tendance #15 : La visualisation des données : enfin du nouveau depuis le macintosh et le tableur ?
L’enjeu : faire parler les chiffres : voilà le rêve de tout un chacun devant son tableur ou ses outils de Business Intelligence. Mais, cela est devenu désormais une frustration : depuis l’invention de la métaphore du bureau par les laboratoires de Xerox, de la feuille de calcul, et des présentations graphiques de type histogrammes ou camemberts, les réelles innovations ont eu bien du mal à s’imposer. Tous les éditeurs d’outils décisionnels proposent pourtant un argumentaire très affuté pour convaincre que leur interface est infiniment plus puissante et facile d’accès que celle de leurs concurrents. Mais, ces innovations sont éphémères, et leurs outils se succèdent sans apporter la réponse finale. Pendant ce temps, les utilisateurs restent divisés : fans d’Excel, adaptes de solutions interactives de navigation dans les données au travers de leur navigateur web, ou supporters d’applications analytiques très packagées pour présenter l’information sous forme de tableau de bord ou de rapports sophistiqués créés au préalable par des spécialistes.
Les utilisateurs attendent bien plus de leurs outils d’aide à la décision en termes d’exploitation de l’information :
- Les outils sont jugés trop complexes, donc difficiles à prendre en main et ou exploiter à plus de 20% de leurs fonctionnalités. Par exemple, mettre en forme une analyse en choisissant le meilleur modèles de visualisation possible, les jeux de couleurs, la mise en forme de libellés et des commentaires et une opération qui est loin d’être à la portée de tous.
- Les modèles de présentation traditionnels sont jugés trop pauvres (présentation tabulaires, graphes et histogrammes…). Ils peinent à donner de sens aux données, par exemple en intégrant automatiquement la dimension temporelle, géographique…
- Les présentations ne sont pas suffisamment interactives. Chaque analyse s’associe à un tableau de bord spécifique. Et plus la couche de présentation est sophistiquée, moins elle laisse de liberté à l’utilisateur pour définir ses propres critères. Sélectionner un plage de valeur et l’appliquer à tout une ensemble de tableau de bord, mettre une information en contexte en l’associant à tout un ensemble d’autres données ou faire une simulation en changeant la valeur de certaines hypothèses, restent des opérations réservées aux initiés.
Une nouvelle génération d’outils est donc attendue. De nouvelles fonctionnalités prometteuses apparaissent actuellement dans certaines offres du marché telles que Advisor, Tibco Spotfire, Qlickview, Tableau Software, SAP BusinessObjects Explorer Xcelsius, IBM Cognos go! Dahsboard, Microstrategy Dynamic Enterprise Dashboards… Leur utilisation reste à ce jour limitée à un petit groupe d’utilisateurs. S’imposeront-elles un jour comme l’interface homme machine par défaut pour restituer les chiffres au même titre que les moteurs de recherche se sont imposés pour restituer les données textuelles et multimédia ?