Teradata améliore les performances de son offre... en attendant encore mieux
Teradata a profité de sa conférence partenaires, qui se déroulait la semaine passée à San Diego, pour lever le voile sur la cinquième génération de son appliance de data warehouse. À la clé, des performances améliorées qui devraient encore progresser avec la sortie de la version 14 de la base de données maison. Et des optimisations supplémentaires sont en cours de développement.
De bien meilleures performances. C’est la promesse de Teradata avec son appliance de data warehouse 2690, présentée la semaine dernière à San Diego. Celle-ci peut être configurée pour supporter jusqu’à 315 To de données non compressées par armoire, avec une capacité d’analyse pouvant atteindre 38 Go de données par seconde et par armoire. Le tout dans un encombrement, au sol, réduit de 50 %, et une consommation de 60 % inférieure à celle de la génération précédente - la 2650. Teradata met en avant les capacités de compression, au niveau bloc, de cette appliance, capacités activées de manière transparente pour les utilisateurs. L’appliance 2690 doit être commercialisée au premier trimestre 2012 - à un prix non communiqué. Elle devrait ainsi pouvoir profiter directement des avancées de la version 14 de la base de données de Teradata et, surtout, de son module de gestion des tables organisées en colonnes et qui doit être disponible dès le mois de décembre 2011.
Lors d’un entretien, Stephen Brobst, CTO de Teradata, a souligné les différences entre tables organisées en lignes et tables organisées en colonnes : les premières sont plus efficaces pour l’écriture - avec une seule entrée/sortie pour l’insertion d’un nouvel enregistrement - tandis que les secondes sont plus efficaces pour la lecture et offrent un meilleur taux de compression : «le stockage en colonnes est d’autant plus efficace que vos tables comportent un grand nombre de données différentes par enregistrement et que vos requêtes portent sur un petit nombre d’entre elles. [...] Typiquement, dans une grande ligne, moins de 20 % des données sont utilisées à un instant donné pour une requête en lecture.»
De nombreuses perspectives d’optimisation
D’où l’intérêt du stockage en colonnes pour les applications analytiques : «les lectures représentent environ 80 % des opérations.» Bien que ce soit bien la nature même des données de chaque table qui doive dicter l’organisation à utiliser : «nous avons un outil qui supervise l’utilisation des tables et qui peut, en fonction de ce qu’il observe, vous proposer l’organisation la plus adaptée.» Mais pourquoi ne pas pousser l’optimisation plus loin, et la rendre virtuellement dynamique, en procédant à une extraction des colonnes les plus utilisées au sein d’une table pour les placer dans une table allégée, temporaire, de manière transparente pour l’utilisateur ? «Nous travaillons à un concept comparable à cela. Mais nous ne l’avons pas encore implémenté commercialement. Toutefois, c’est assurément une piste de travail intéressante. Nous avons déjà une fonction baptisée fallback qui utilise deux copies d’une table pour permettre de s’appuyer sur l’une des deux en cas de corruption de l’autre. Actuellement, Fallback assure une réplication parfaite. Mais l’on peut imaginer que l’une des copies soit en mode lignes tandis que l’autre soit en mode colonne; ce sont les mêmes données mais organisées différemment. Ce serait une chose raisonnable à faire. Nous ne le faisons pas encore mais, clairement, nous y réfléchissons. »