Definition

Hive (Apache Hive)

Apache Hive est un système d'entrepôt de données open source. Il permet d'interroger et d'analyser des ensembles de données volumineux (Big Data) stockés dans des fichiers Hadoop.

Hadoop est une infrastructure qui permet de gérer des ensembles de données volumineux dans un environnement informatique distribué.

En matière de données, Hive présente trois fonctions principales : la synthèse, l’interrogation et l’analyse.

Il prend en charge des requêtes rédigées en langage HiveQL. Il traduit automatiquement les requêtes de type SQL en tâches MapReduce exécutées sur Hadoop. Parallèlement, HiveQL prend en charge les scripts MapReduce personnalisés qui se connectent aux requêtes. Hive autorise également la sérialisation/désérialisation des données, et accroît la flexibilité de la conception de schémas en intégrant un catalogue système appelé Hive-Metastore.

Selon le site Wiki d'Apache Hive, « Hive n'est pas conçu pour les charges de travail OLTP, et ne propose pas de requêtes en temps réel ou de mises à jour de niveau ligne. Il est optimisé pour les tâches en lots appliquées à des ensembles volumineux de données uniquement cumulatifs (comme les journaux de serveurs Web ou weblogs). »

Hive prend en charge les fichiers au format texte (appelés également fichiers plats), les fichiers SequenceFiles (fichiers plats constitués de paires clé/valeur binaires) et RCFiles (Record Columnar Files ; stockent des colonnes dans une table selon le mode d'une base de données en colonnes.)

Cette définition a été mise à jour en août 2015

Pour approfondir sur Datawarehouse