Amir Netz, Microsoft Fellow : « Power BI est un peu le PowerPoint pour l'analyse de données »
Dans un entretien accordé à LeMagIT lors d'Ignite 2018, Amir Netz, le père de Power BI et architecte en chef des solutions de business Intelligence chez Microsoft revient sur les évolutions du marché de la BI et sur les évolutions que connait Power BI pour s'adapter au monde des « datalakes » et des données non structurées.
À l’occasion de la conférence Microsoft Ignite 2018 qui se tenait la semaine dernière à Orlando, LeMagIT a pu rencontrer Amir Netz, l’un des 20 « Technical Fellows » de Microsoft, architecte en chef des services analytiques de SQL Server et père de Power BI, Power Pivot et VertiPaq, le moteur de base de données en colonnes au cœur des services analytiques de Microsoft. L’occasion de faire le point sur Power BI et sur l’approche de l’éditeur en matière de démocratisation des outils de business intelligence.
LeMagIT : Power BI est né dans un environnement de données structurées où l’utilisateur pouvait manipuler des données extraites depuis un SGBD directement dans son tableur Excel. Pour une génération formée au tableur, c’était une interface naturelle. Aujourd’hui, les utilisateurs sont confrontés à des volumes massifs de données non structurées, stockées dans des datalake ou des référentiels Hadoop. Les langages de requêtage sont abscons et n’ont plus rien à voir avec SQL. Et pour extraire la substantifique moelle des données, il faut parfois en passer par la programmation d’algorithmes d’analyse ou de machine learning sophistiqués, hors de portée des utilisateurs métiers. Comment faites-vous face à cette évolution ?
Amir Netz : Depuis trente ans nous avons passé notre temps à optimiser les bases de données et ce travail est totalement remis en question par l’émergence des datalakes qui se concentrent sur le stockage de volumes massifs de données non structurées. La plupart ne sont ni « propres » ni raffinées. La meilleure façon de décrire un datalake pour moi est de le comparer à un disque dur géant, dans lequel on déverse des fichiers. Ce n’est en rien une base de données, c’est un espace de stockage.
Toute l’intelligence que nous avons bâtie dans les bases de données relationnelles ou dans les datawarehouse doit être redéveloppée. On ne repart pas totalement de zéro, car une partie du travail sur les datalake consiste à rebâtir ce que l’on sait déjà faire avec les SGBD, comme la possibilité de faire des requêtes SQL.
Mais vous avez raison, si je suis un utilisateur métier, et que j’ai déjà une connaissance des bases de données traditionnelles, désormais, je suis confronté à un monde nouveau. Non seulement il faut tout réapprendre, mais le type de données auquel je suis confronté n’a plus rien à voir avec les données que j’avais l’habitude de manipuler. Elles sont complexes, massives, non structurées et comprendre comment les analyser et en tirer de la valeur n’est pas chose facile.
Voilà comment nous approchons le problème : la nouvelle version de Power BI attendue en octobre arrive avec une nouvelle fonction baptisée dataflows. Dataflows a pour but de permettre d’intégrer Power BI en profondeur avec les datalakes. L’objectif est que des utilisateurs « normaux » puissent traiter des quantités considérables de données depuis une interface utilisateur incroyablement simple.
Avec Power BI, il ne faut pas connaître grand-chose de la technologie des datalake. Il n’est pas nécessaire de savoir comment marche Hadoop, ce que sont Hive ou Spark et tous ces acronymes et noms de code. Les utilisateurs métiers sont ceux qui utilisaient autrefois Excel. Ils ne veulent pas devenir des data scientists ou des ingénieurs de données. Ils veulent juste pouvoir manipuler simplement de grandes quantités de données. Et c’est ce que Dataflows et Power BI leur permettent. Ils peuvent se connecter à leur data lake et manipuler des données avec une interface web simple similaire à celle d’Excel.
Il y a dans Excel une fonction qui s’appelle Power Query qui est la même que dans Power BI. Nous avons déjà des dizaines de millions d’utilisateurs de Power Query et nous leur donnons la même interface pour travailler avec leur datalakes. Ils peuvent ingérer des données du datalake, les traiter, intégrer celles-ci avec des données tierces, collaborer avec d’autres utilisateurs sur des données et des jeux de données. Dataflows leur permet de travailler sur ces dernières, mais aussi de partager leurs travaux avec leurs pairs. Et c’est quelque chose qui va changer la façon dont la BI fonctionne.
Il y a dix ans, la BI est passée d’un monde tiré par la technologie, où l’on parlait de serveurs, de cubes multidimensionnels, d’OLAP - autant de choses qui plaisaient à l’IT, mais que les utilisateurs ne comprenaient pas - à un univers centré sur la simplicité pour les utilisateurs métiers. On veut faire la même chose pour les datalake.
LeMagIT : Lorsque l’on regarde les outils, notre génération a grandi avec les SGBD et les tableurs comme principale interface de manipulation de données. C’était sans doute bien il y a 20 ans, mais aujourd’hui l’utilisateur moyen sait à peine utiliser les fonctions de base d’un tableur. Il a grandi dans un monde où les interfaces web dominent et où l’important est la visualisation de données. Le PowerBI originel était intégré totalement à Excel. Quelle est la métaphore d’interface du PowerBI moderne ?
Amir Netz : Power BI est aujourd’hui un produit autonome. À l’origine la technologie de Power BI a été intégrée avec Excel et cette intégration existe toujours (via Power Query ou PowerPivot). Et Excel reste indispensable, il est utilisé par des millions d’utilisateurs comme interface d’accès aux données.
Mais ce que l’on a découvert est que la métaphore de grille d’Excel avec les colonnes et les lignes et les formules que certaines personnes adorent, est une métaphore très différente de celles des graphiques que le Power BI moderne propose. Power BI peut certes afficher des tableaux de résultats, mais sa principale mission est aujourd’hui de visualiser les données.
Power BI est un peu un Powerpoint pour les données, c’est ainsi que nous l’avons conçu. On peut concevoir des slides, concevoir des visualisations sophistiquées. On peut réellement créer des présentations de données. Car la notion de communiquer autour des données est au cœur de la nouvelle culture des données qui s’empare des entreprises. Tout le monde peut lire des données, comprendre des données ou les partager si elles sont bien présentées.
LeMagIT : Dans Azure, on voit aussi émerger de nouveaux outils d’interrogation de données accessibles à des utilisateurs moyens, comme Azure Data Explorer pour la manipulation de données en temps réels, de flux de données, de données en série temporelle ou de logs. Existe-t-il des passerelles entre cet outil et Power BI ou a-t-on affaire à deux produits complètement séparés ?
Amir Netz : Nous utilisons Data Explorer en permanence pour analyser nos propres logs et nos propres produits. Mais l’audience des deux produits est un peu différente. Azure Data Explorer vise plutôt les professionnels de l’IT et les développeurs. Le produit est destiné à des gens qui vivent dans les données et la technologie.
Ce qui crée sans doute la confusion est que l’ancien Data Explorer de SQL Server est la base de Power Query qui est intégré dans Power BI et qui est au cœur de Dataflows. L’ancien Data Explorer vit toujours, mais a été renommé il y a cinq ans. Le nouveau Azure Data Explorer est un outil fantastique, mais dont les buts sont différents de ceux de l’ancien Data Explorer dans SQL Server. Il est conçu pour traiter dans quantités massives de données de logs. Nous l’utilisons pas exemple au cœur de nos outils d’analytique de logs, ou pour nos outils de sécurité.
Et pour information, Power BI a un connecteur vers Azure Data Explorer, donc nous pouvons utiliser les données produites par Data Explorer afin de réaliser des visualisations ou de les croiser avec d’autres données. En interne chez Microsoft, il y a beaucoup de rapports métiers qui s’appuient sur des données générées par Azure Data Explorer, puis passées par le prisme de Power BI.
LeMagIT : Chez Microsoft l’aventure des données a commencé avec SQL Server. Mais la société propose aujourd’hui de multiples moteurs de données on-premises ou dans le cloud Azure. La plupart de vos clients utilisent aujourd’hui plusieurs de ces moteurs qu’il s’agisse de SQL Server, de CosmosDB, d’Hadoop ou Spark, ainsi que des moteurs tiers. Et ils stockent aussi des quantités massives de données non structurées dans des services de fichiers ou dans Azure Blob Storage. Comment fait Power BI pour accéder à ces sources de données ? Passez-vous par l’intermédiaire de SQL Server, qui jouerait alors le rôle de passerelle (via des mécanismes comme Polybase), ou Power BI a-t-il un accès direct à ces différentes sources de données ?
Amir Netz : PowerBI aujourd’hui n’est pas dépendant de SQL Server, même s’il est né des services analytiques et de reporting de SQL Server. C’est sur cette technologie que je travaille depuis plusieurs décennies. SQL Server reste bien sûr une source très importante de données pour nous et il reste la base de données numéro un dans le monde en matière de nombre de déploiements, et de loin.
Mais Power BI dispose aujourd’hui de 90 connecteurs à des sources de données et SQL Server n’est que l’un de ces 90. Certains connecteurs sont populaires, d’autres, moins utilisés. Mais pour nous l’important est que si vous avez des données dans un système ou une base de données, PowerBI doit pouvoir y accéder.
C’est pour cela que nous avons open-sourcé notre plate-forme de connectivité pour que chacun puisse bâtir ses propres connecteurs si nécessaire. À ma connaissance, il y a plusieurs dizaines de connecteurs - en plus des 90 que nous supportons - qui ont été conçus par des partenaires ou des intégrateurs pour se connecter à des systèmes qui ne sont parfois que peu utilisés, mais qui sont très importants pour les clients qui les utilisent.
LeMagIT : L’un des débats modernes autour de l’analytique porte sur le rôle du machine learning et de l’AI. Il me semble pour l’instant que ces technologies sont réservées à une classe d’utilisateurs rompue à l’algorithmie et aux mathématiques. Comment approchez-vous ces technologies dans Power BI ?
Amir Netz : Nous allons consacrer un grand nombre d’ateliers durant Ignite à ces sujets. Il y a un effort massif chez Microsoft pour appliquer l’intelligence machine et l’AI au domaine de la Business Intelligence. Je dirai qu’il y a deux types d’utilisation du ML et de l’AI aujourd’hui. Il y a celui dont le but est de remplacer l’humain, comme, par exemple, le ML et l’AI appliqué à la conduite des véhicules. La machine peut alors prendre la décision à la place de l’humain.
Mais il y a une autre forme d’intelligence machine dont le but est de renforcer l’intelligence humaine et de permettre aux humains de prendre des décisions plus intelligentes ou de les aider à remplir leurs tâches. Lorsque je demande à Alexa à la maison de me jouer les meilleurs morceaux des années 80, Alexa ne me remplace pas. Elle me fait gagner du temps pour jouer quelque chose que sinon j’aurais dû chercher moi-même.
Power BI ne veut pas remplacer les humains, mais les aider. Nous essayons d’aider les humains à mieux analyser les données. Si je vous montre un graphique qui montre que les ventes augmentent, c’est bien. Mais répondre à la question « pourquoi les ventes augmentent-elles » est plus difficile. L’idée est de permettre à Power BI avec du machine learning et de l’AI d’expliquer ce qu’il s’est passé pour expliquer l’augmentation. Power BI pourrait ainsi mettre en avant de façon autonome les pays qui ont le plus contribué à l’augmentation ou les produits les plus populaires.
LeMagIT : C’est une forme d’analyse en profondeur intelligente…
Amir Netz : Oui, c’est de l’intelligent drill-down. La machine comprend les sources de l’évolution des données et les met en lumière. Il y a aussi cette idée de pouvoir interroger Power BI en langage naturel. Utiliser le langage naturel pour afficher les ventes d’un produit sur les six derniers mois ou expliquer des fluctuations imprévues est un de nos axes de travail. Dans tous les cas, vous avez toujours le contrôle et vous continuez à utiliser votre intuition, mais on vous facilite la tâche.
LeMagIT : Power BI est-il massivement utilisé en interne par Microsoft afin de prendre de meilleures décisions sur la base des données collectées par l’entreprise ?
Amir Netz : Absolument, nous utilisons Power BI en interne. L’évolution au sein de Microsoft est stupéfiante depuis que nous avons introduit Power BI, il y a trois ans. Chaque employé utilise l’outil. Habituellement, on considère que si 15 à 20 % des employés utilisent la BI dans une organisation on est à un bon niveau d’adoption. Chez Microsoft, on est proche des 95 %.
Il n’y a pas d’organisation dans le monde qui utilise autant la BI que Microsoft. Il est stupéfiant de voir comment cela a transformé la culture de l’entreprise. Vous allez à une réunion et au lieu de voir des présentations PowerPoint vous voyez des tableaux de bord Power BI. Au lieu d’avoir des gens qui expriment une opinion, chacun apporte des données pour la supporter. S’ils ne le font pas, leur opinion seule n’a que peu de poids.
La question n’est plus de savoir qui vous connaissez, mais ce que vous connaissez. Et cela change tout. On a fait une étude et 97 % des Fortune 500 utilisent Power BI sous une forme ou une autre. Le chiffre date de ce Week End. Je ne connais pas de produit, qui, en trois ans, ait connu une telle pénétration.
LeMagIT : Si vous êtes parvenu à 95 % d’utilisateurs dans Microsoft, je suppose aussi que c’est parce que vous êtes parvenus à constituer des jeux de données fiables sur lesquels les utilisateurs peuvent s’appuyer. Car dans la plupart des entreprises, le principal obstacle à une large diffusion de la BI est le fait que la qualité des jeux de données est incertaine, pour ne pas dire pire. Et c’est sans parler des restrictions que mettent certaines compagnies dans l’accès à certains jeux de données.
Amir Netz : Vous avez raison. Il y a toujours un équilibre à trouver entre ce que l’on permet aux utilisateurs et ce que l’IT souhaite continuer à contrôler. Fournir les bonnes données aux bonnes personnes et s’assurer qu’ils les utilisent correctement reste la mission des services informatiques. L’une de nos initiatives consiste à permettre à l’IT de fournir aux utilisateurs ce que nous appelons des jeux de données certifiés (« Certified Datasets ») que les utilisateurs de Power BI puissent exploiter en priorité. L’une des choses intéressantes avec Power BI est qu’il met en lumière ces jeux de données certifiés et les rend accessibles via single sign-on. Les jeux de données certifiés par l’IT apparaissent en haut du classement.
LeMagIT : Les utilisateurs modernes sont des créatures sociales qui utilisent les outils collaboratifs pour échanger. Power BI embarque-t-il aussi des mécanismes permettant à des utilisateurs de promouvoir des contenus qui leurs semblent pertinents auprès de leurs pairs et de les classer en fonction de critères de pertinence ou de popularité ?
Absolument. Tout d’abord, nous avons plusieurs mécanismes de promotions. Il y a la promotion par l’IT avec le mécanisme de sources de données certifiées. Ensuite, il y a un mécanisme de promotion par les utilisateurs. Il est possible de mettre en avant un jeu de données qui sera ensuite promu par d’autres via les mécanismes de commentaire ou de collaboration intégrés dans Power BI. La nouvelle page Home de Power BI met en avant les jeux de données les plus utilisés par vos pairs.