BI : 5 fonctions de SQL Server 2012 à connaître
Modèle sémantique et Data Quality Services : ce sont 2 des 5 fonctions de BI de SQL Server 2012, mises en avant dans cette version.
SQL Server 2012 propose certaines nouvelles fonctions qui améliorent et étendent ses fonctionnalités bien au-delà de SQL Server 20008 et 2008 R2. Et cela est particulièrement vrai dans le domaine de la Business Intelligence (BI), où les améliorations en matière de reporting et de capacités analytiques sont plus marquées. Cinq de ces fonctions méritent que les entreprises s’y attardent.
Modèle sémantique BI
SQL Server 2012 embarque un modèle sémantique BI (BI Semantic Model - BISM) afin de mettre à disposition un framework de conception pour doter certaines plates-formes analytiques et de reporting de fonctions de BI. Bien que BISM ne soit finalement pas un produit à part entière, il fournit la structure pour créer des modèles physiques dans SQL Server Analysis Services (SSAS) et PowerPivot pour Excel. Dans SSAS, vous pouvez créer deux types de modèles BISM : multidimensionnel ou tabulaire. Dans PowerPivot pour Excel, vous ne pouvez créer que des modèles tabulaires.
Le modèle multidimensionnel offre une approche somme toute traditionnelle. Il est aligné sur Unified Dimensional Model (UDF) des versions précédentes de SSAS, avec les données organisées en cube et dimensions. Comme avec UDF, le modèle multidimensionnel s’appuie sur le langage Multidimensional Expressions (MDX) pour interagir avec les datastores multidimensionnels, proposant ainsi un environnement puissant pour effectuer des opérations analytiques complexes.
Dans SQL Server 2012 se distingue le modèle tabulaire, qui à l’inverse du modèle multidimensionnel, organise les données dans des tables, avec des lignes et des colonnes, comme vous pouvez le trouver dans les bases de données relationnelles. De plus, ce modèle utilise le langage Data Analysis Expressions (DAX) pour accéder aux données et peut en extraire à partir d’un grand nombre de sources, telles que les SGBD, les cubes SSAS, les fichiers texte et les workbooks PowerPivot. Le modèle tabulaire a été lancé avec SQL Server 2008 R2, lors de la sortie de PowerPivot pour Excel et PowerPivot pour SharePoint. Le modèle s’adosse au moteur xVelocity (anciennement VertiPaq) pour cacher les données en mémoire tout mettant à disposition des algorithmes de compression et de scanning pour supporter les analyses de données haute-performance.
Index columnstore
Cette technologie xVelocity nous amène à la 2e des 5 fonctions de BI de SQL Server 2012 : les index columnstore non clusterisés. Comme les technologies de ce type, un index columnestore est défini sur une ou plusieurs colonnes de tables. A l’inverse des indexes non clusterisés, la donnée existe dans un format en colonne. Autrement dit, la donnée dans chaque colonne indexée est stockée dans sa propre colonne à l’intérieur de l’index. Si une table contient plus d’un million de lignes, l’index est compartimenté en segments, mais la structure en colonne est conservée. Les index non clusterisés stockent les données en lignes.
En plus de ce stockage en colonnes, les index dits columnstore utilisent les fonctions de stockage et de compression avancées de xVelocity. Ces fonctions peuvent améliorer les performances des requêtes effectuées pour extraire ou traiter de grand volume de données , ce type de requête généralement associé à l’entrepôt de données – où les données sont souvent groupées, filtrées, agrégées puis reliées à travers plusieurs tables. Les gains de performances sont souvent attribués au fait que seules les bonnes colonnes sont montées en mémoire, les données en mémoire sont compressées plus efficacement, et les requêtes sont optimisées pour des traitements analytiques.
Data Quality Services
Pour que le reporting, l’analyse et l’entreposage soient efficaces, il faut que la donnée soit elle-même correcte. Mais extraire des données de plusieurs systèmes, dans un standard différent, est généralement source d’erreurs, de corruptions de données et d’incohérences. C’est justement là que Data Quality Services (DQS) entre en jeu. Nouveauté dans SQL Server 2012, DQS donne les outils adéquats pour résoudre les problèmes liés à l’inexactitude des données, leur incohérence et leur duplication. Les gestionnaires des données (data steward) ainsi que les professionnels de l’ IT peuvent ainsi utiliser DQS pour nettoyer les données et s’assurer qu’elles sont adaptées à leur outil de BI ainsi qu’à leurs besoins métiers.
L’environnement DQS comporte deux éléments : le Data Quality Server et le Data Quality Client. Le serveur prend en charge toutes les opérations lourdes. Il héberge le moteur DQS, stocke les informations liées au projet et gère les bases de connaissances. Une base de connaissance est un dossier au sein duquel l’information, ou la connaissance, est déposée. Elle identifie les potentielles inexactitudes des données et propose des mesures correctives. La base de connaissances comprend un ou plusieurs domaines, chacun contenant les connaissances pour un type spécifique de données. Par exemple, un domaine peut contenir les connaissances nécessaires pour s’assurer que les provinces canadiennes soient toutes référencées de la même façon et que seules les provinces correctement formées soient inclues. Le Data Quality Client propose une interface pour administrer DQS, gérer les bases de connaissances et contrôler les projets liés à la qualité des données qui font correspondre les connaissances aux données.
Power View
Autre nouvelle fonction de BI : Power View, un add-in SQL Server Reporting Services pour SharePoint Server. Power View s’appuie sur le framework Silverlight et propose aux utilisateurs des outils Web pour explorer les données et créer des rapports ad hoc à base de méthodes de visualisation de données enrichies. Créer un rapport Power View est identique à créer un tableau croisé dynamique dans Excel. Les utilisateurs travaillent toujours avec leurs données en cours et n’ont jamais à passer d’une vue à une autre, à l’inverse de Report Builder et Report Designer dans SQL Server Data Tools.
Les utilisateurs lancent Power View d’un site SharePoint configuré avec l’add-in SSRS. SharePoint Server et SQL Server doit donc tous deux être installés. Un développeur ou un administrateur doit configurer au moins un modèle de donnée. Celui-ci sert d’interface entre les rapports et les sources de données, facilitant ainsi l’accès aux données requises, sans avoir à comprendre la structure de la donnée sous-jacente. Pour créer des rapports, les utilisateurs doivent seulement s’identifier dans le site SharePoint (via un navigateur qui supporte Silverlight), localiser le bon modèle de donnée dans une bibliothèque de documents ou une gallerie PowerPivot et lancer Power View depuis ce modèle. Ils peuvent ensuite créer leurs rapports via de simples glisser-déposer.
Recherche sémantique
SQL Server a certes ses racines dans le monde des données structurées et relationnelles, mais plus que jamais, la BI comprend également des données non structurées dans ses traitements analytiques et ses rapports. SQL Server répond à cela et s’accommode du flux entrant de données non structurées en fournissant des fonctions de recherche plein texte, intégrées à la base de données. La recherche plein texte permet aux requêtes d’opérer des recherches sur les mots et non pas les données dans des colonnes, y compris les colonnes FileStream qui pointent sur les fichiers de données non structurées. Toutefois, SQL Server 2012 va plus loin avec la recherche sémantique, une fonction qui étend la recherche plein texte pour extraire et indexer de façon statistique les phrases clés des documents non structurés.
La recherche sémantique va plus loin que la recherche plein texte en s’intéressant au sens du document plutôt que seulement à ses mots. Cela rend possible des fonctions, comme l’extraction automatique de tag, la découverte de contenus associés ou la navigation hiérarchique entre des contenus sur un sujet identique. La recherche sémantique aide à trouver des documents qui sont identiques ou liés à ceux recherchés.
Une autre fonction de SQL Server 2012 rend cette recherche sémantique encore plus puissante : Filetable. Une FileTable est un type de table qui étend les fonctions de FileSteam pour supporter les API Win32. Chaque ligne représente un fichier ou un dossier et est accessible directement depuis une application Windows. Dans l’application, les fichiers et les dossiers apparaissent comme s’ils étaient stockés dans le système de fichiers, plutôt que dans la base de données. Associée à FileTable, la recherche sémantique devient un élément clé pour supporter des applications qui utilisent des données non structurées et extraire de l’information pertinente.
BI et SQL Server 2012
Ces 5 fonctions de BI de SQL Server peuvent s’avérer être des outils efficaces lorsque vous décidez de déployer une plate-forme de BI. Toutefois, ce qui est couvert ici ne représente que certaines des fonctions qui ont été mises à jour ou ajoutées dans SQL Server 2012. Par exemple, SSAS propose de nouvelles fonctions DAX et l’usage des ressources en matière de reporting pour les bases multidimensionnelles a été amélioré. SQL Server Integration Services, ou SSIS, comprend désormais un outil DQS Cleansing et a amélioré sa gestion de la mémoire des transformations Merge et Merge Join. L’intégration de SQL Server SSRS à SharePoint a été revue pour mieux exploiter certaines fonctions de SharePoint.
Il s’agit des 5 fonctions qui pourraient vous sembler les plus utiles. Elles devraient à coup sûr faire partie de votre problématique BI si vous comptez migrer vers SQL Server 2012.
A propos de l’auteur
Robert Sheldon est consultant technique et auteur de nombreux ouvrages et articles liés au monde Windows, aux différents systèmes de gestion de bases de données relationnelles et à l’implémentation d’outils de BI.