Definition

Données semi-structurées

Les données semi-structurées sont des données qui n'ont pas été organisées en référentiel spécialisé, comme c’est le cas dans une base de données, mais qui comportent néanmoins des informations associées, des métadonnées par exemple, qui les rendent plus faciles à traiter que des données brutes.

Données structurées, non structurées et semi-structurées : la différence

Les données non structurées ne sont pas organisées dans un format qui permet d'y accéder et de les traiter plus facilement. En réalité, très peu de données sont complètement non structurées. Même des éléments souvent considérés comme non structurés, tels que des documents et images, sont structurés dans une certaine mesure.

Les données structurées sont peu ou prou le contraire des données non structurées : elles ont été reformatées et leurs éléments, réorganisés, selon une structure permettant à chacun d'être traité, organisé et manipulé selon diverses combinaisons, afin de mieux exploiter les informations.

Les données semi-structurées constituent une forme intermédiaire. Elles ne sont pas organisées selon une méthode complexe rendant possible un accès et une analyse sophistiqués ; cependant, certaines informations peuvent leur être associées, telles que des balises de métadonnées, qui permettent l'adressage des éléments qu'elles renferment.

Exemple

Un document Word est généralement considéré comme un ensemble de données non structurées. Cependant, vous pouvez lui ajouter des métadonnées sous la forme de mots-clés qui représentent le contenu du document et qui permettent de le retrouver plus facilement lorsqu'une recherche est effectuée sur ces termes. Les données sont alors semi-structurées.

Cependant, le document n'est pas organisé de façon aussi complexe qu'une base de données, et ne se compose donc pas à proprement parler de données structurées.

En réalité, les limites entre les trois catégories sont extrêmement floues. Considérées dans leur ensemble, ces catégories sont parfois appelées le continuum des données.

Cette définition a été mise à jour en avril 2016

Pour approfondir sur Outils décisionnels et analytiques