Ces nouveaux moteurs de l’analytique moderne
Introduction
Des usages s’ajuste la technologie. Dans le cas de l’analytique, on ajouterait même qu’elle se bonifie. Si depuis une décennie le Big Data occupe les DSI, quitte à leur donner des sueurs froides, le marché des outils et services analytiques a quant à lui, dû s’ajuster pour mieux se fondre dans les usages des entreprises. Et surtout, répondre à leurs exigences. Souvent complexes, demandant des compétences rarissimes – à l’image des data scientists -, les solutions d’analyses de données ont dû non seulement se rapprocher des préoccupations métiers des DSI, mais aussi composer avec des technologies qui évoluent à un rythme effréné. La difficulté a bien été de ne pas créer un fossé entre les usages métiers et les socles technologiques. Industrialisation, RoI, amélioration de l’expérience utilisateur proposée aux métiers, tous les éditeurs ont alors travaillé à suivre les entreprises et à leur fournir des applications adaptées. En ligne de mire : accélérer les cas d’usage - et donc leur RoI - et ne pas laisser les entreprises s’écarter trop vite des technologies.
Ce guide passe en revue plusieurs initiatives qui y ont contribué : des plateformes pour accélérer la data science et la rendre « consommable » par les métiers, l’intégration de nouvelles générations de hardware (GPU, RAM, SSD, …) ou encore la traduction réelle des spécificités du cloud (le dimensionnement et l’élasticité) dans les bases de données, sans compromettre la cohérence des données, voire rendre ACID les outils dont la vocation n’était pas le transactionnel.
Le marché a ainsi cherché à donner la possibilité aux entreprises d’exploiter les données accumulées dans des lacs de données surchargés – mais sans usage. Vers une quête de sens en somme.
1Industrialiser les projets-
Il est temps de faciliter la mise en place de nouveaux socles pour accélérer les cas d’usage
GPU, RAM et SSD : des turbos pour l’analytique
Les start-ups californiennes MapD, AeroSpike et GridGain ont développé une technologie de base de données ou de moteur SQL qui exploitent les caractéristiques de vélocité propre à la mémoire RAM, au SSD ou encore au GPU. Lire la suite
Big Data : bienvenue dans l’ère des plateformes pour industrialiser la data science
Parce que le démarrage de projets est fastidieux et que le RoI n'est pas souvent présent, des sociétés développent des plateformes dont l’ambition est de pré-intégrer technologie et usages pour industrialiser les projets. Saagie et ForePaas, rencontrées au salon Big Data Paris, en sont l’exemple. Lire la suite
2Structurer le déstructuré-
Faciliter l’accès auprès des métiers
Tout pour vraiment bien comprendre les catalogues de données
Les catalogues de données servent de portails de données en libre-service pour les analystes et les utilisateurs métier. Cet article s’intéresse à la façon dont les données sont sélectionnées et conservées, aux fonctions, ainsi qu’aux fournisseurs du marché. Lire la suite
Waterline Data veut cataloguer automatiquement les données cachées
La société californienne développe une solution de catalogage automatisé de données qui jusqu’à étaient perdues ou cachées et donc sous exploitées. Son idée est de redonner de la structure à ces lacs de données, souvent trop marécageux. Lire la suite
Graphe : nouveau moteur pour les outils de gestion de données
Les technologies de graphes fleurissent sur le marché, y compris dans la gestion des données de référence (MDM – Master Data Management). Et Informatica, acteur clé du monde de l’intégration de données, a rallié la cause. Lire la suite
3Au-delà de SQL et d’ACID-
Le NoSQL devient ACID, mais SQL reste le langage standard
Les bases de données deviennent géo-distribuées. Les entrepôts de données exploitent l’élasticité du cloud. Et le NoSQL devient ACID. Mais SQL reste le langage standard
AntidoteDB milite pour la juste cohérence des données en environnement géo-distribué
Stricte, forte, faible, à terme… la cohérence des données est généralement un élément qui nécessite un arbitrage dans les systèmes massivement distribués. Le projet de base de données Cloud AntidoteDB entend rapprocher cohérence et disponibilité, limitant les compromis. Pour une cohérence juste et adaptée à l’application. Lire la suite
Cloud Spanner : à son tour, Google fait changer SQL de dimension
En amont de Google I/O, Google a ouvert officiellement son service de base de données SQL massivement distribué Cloud Spanner. Son intérêt : une cohérence forte des données. Lire la suite
Cosmo DB : Microsoft dope DocumentDB aux modèles graphes et clé-valeur
L’éditeur a présenté Cosmo DB, une base NoSQL dans le Cloud qui reprend les API de DocumentDB et MongoDB pour y adjoindre les modèles de graphes et Table Storage d’Azure. Microsoft y associe un modèle de cohérence de données plus granulaire. Lire la suite
Entrepôt de données : Snowflake monte dans le Cloud français
La société américaine développe une architecture type qui sépare les données de leurs traitements, pour favoriser les capacités de dimensionnement propre au Cloud. La technologie repose sur un moteur SQL Lire la suite
Apple publie le code source de FoundationDB, sa base de données NoSQL ACID
Trois ans après avoir racheté FoundationDB, Apple a publié cette semaine le code source du coeur de la base de données. Foundation DB offre des caractéristiques assez uniques en proposant un moteur NoSQL distribué garantissant la cohérence des données (ACID). De quoi offrir une alternative séduisante aux bases comme MongoDB, Cassandra ou Redis. Lire la suite
MongoDB épingle un contrat de confiance ACID à sa base NoSQL
La base de données annonce le support de garanties ACID pour les transactions multi-documents. La société se positionne sur les terres historiques des bases relationnelles et veut devenir une base généraliste. Lire la suite
BigQuery vs Redshift : quelques critères pour les différencier
Google BigQuery et Amazon Redshift sont aujourd’hui deux technologies à considérer pour qui s’intéresse aux entrepôts de données dans le cloud. Mais, pour choisir, il convient de connaître les principales différences de chaque technologie. Les coûts et les capacités d’administration en font partie. Lire la suite
4S3, une clé de l’analytique-
Quand le service de stockage objet d’AWS se rapproche d’Hadoop et de SQL
S3 : une option de stockage de plus en plus utilisée pour Hadoop
Au cours des dernières années, le support du protocole S3 par Hadoop s’est considérablement enrichi. Au point que de nombreux utilisateurs effectuent aujourd’hui directement des requêtes sur des données stockées dans des systèmes de stockage objet, là où auparavant, ils les auraient importées dans HDFS. Lire la suite
AWS Athena : comment améliorer la performance des requêtes… et réduire ses coûts
Amazon Athena permet d’interroger plus de formats de données que son rival Google BigQuery. Toutefois, il est préférable de privilégier certains formats pour tirer pleinement parti du service AWS Lire la suite
Big Data Paris : Indexima, qui arrive sur AWS, accélère aussi les requêtes sur S3
Après les données stockées dans HDFS, la société française a adapté sa technologie Data Hub pour requêter directement les données stockées dans S3 - et avec les mêmes gains de performances. Cela marque aussi l'arrivée d'Indexima dans le Cloud. Lire la suite