Très grands stockages : les 5 alternatives à Ceph

Cet article liste les systèmes Open source envisageables pour déployer des grands clusters de stockage. Il pointe les caractéristiques qui les favorisent selon le cas d’usage.

Les entreprises publiques et privées ont largement adopté la plateforme de stockage distribué Ceph pour épauler leurs charges de travail basées sur de très grandes quantités de données. Mais certaines entreprises peuvent envisager des alternatives à Ceph pour répondre à leurs besoins.

Ceph est un système de stockage hautement élastique qui peut gérer des données à l'échelle du pétaoctet, voire de l'exaoctet. Ceph étant open source et gratuit, il permet aux entreprises de réduire leurs frais de licence. Toutefois, Ceph est complexe à mettre en œuvre. Cela signifie que les équipes IT qui ne disposent pas de l'expertise nécessaire peuvent avoir du mal à le déployer et à le contrôler. La plateforme nécessite également un réseau complet. Enfin, Ceph peut ne pas être adapté à certaines applications.

Les sections suivantes donnent un aperçu de cinq solutions Open source alternatives à Ceph, classées par ordre alphabétique. Pour choisir, les entreprises doivent tenir compte d'une série de facteurs, tels que la quantité de données, le type de charges de travail, l'infrastructure disponible et l'expertise interne.

Gluster

Le système de fichiers réseau élastique Gluster est gratuit et Open source. Il peut se contenter de fonctionner sur du matériel basique pour bâtir des solutions de stockage distribué de grande taille. La plateforme regroupe les ressources de stockage dans un seul domaine global de noms, qui peut atteindre des Po de capacité.

Lustre est compatible avec l'interface POSIX, prend en charge les protocoles standard (NFS, SMB...), et peut utiliser n'importe quel système de fichiers sur disque qui prend en charge les attributs étendus. Il peut également gérer plusieurs types de volumes, tels que le volume Glusterfs distribué, ou le volume Glusterfs répliqué. Il comprend d'importantes fonctions de protection des données, notamment les instantanés, les quotas, la géoréplication.

Gluster est souvent comparé à Ceph, car ils offrent tous deux un puissant système de stockage distribué. Cependant, Gluster est une plateforme de stockage basée sur des blocs, alors que Ceph est basé sur des objets. Ceph comprend également un support natif pour le stockage de fichiers et de blocs. Cependant, Gluster a la réputation d'être plus facile à déployer, à gérer et à utiliser que Ceph.

Quant aux performances, elles dépendent en grande partie du type de stockage, des volumes de données, de la taille des fichiers, des exigences de la charge de travail et d'autres facteurs. Les équipes IT qui évaluent Ceph et ses alternatives doivent tenir compte des circonstances et des environnements dans lesquels elles prévoient de mettre en œuvre leurs systèmes de fichiers.

HDFS

Le système de fichiers distribués d’Hadoop, HDFS, est le principal système de gestion du stockage utilisé dans les clusters Apache Hadoop. Le système de fichiers distribués est écrit en Java et conçu pour fonctionner sur du matériel de base. L'architecture HDFS permet le transfert rapide de données entre les nœuds de calcul et fournit aux applications un accès à haut débit à leurs données.

HDFS peut gérer des ensembles de données et des fichiers de grande taille. Il prend en charge des données structurées, semi-structurées et non structurées. Le système est hautement évolutif, configurable et tolérant aux pannes, avec des fonctionnalités telles que la détection des pannes et la récupération automatique. Il est également portable sur toutes les plateformes matérielles et tous les systèmes d'exploitation.

HDFS peut être rentable pour travailler avec de grands ensembles de données. Les entreprises peuvent le déployer sur du matériel peu coûteux et faire évoluer sa capacité de quelques Mo à plusieurs Po, tout en assurant un débit élevé pour l'accès aux données en continu. Cependant, HDFS est principalement adapté à un modèle d'accès de type « write-once, read-many » (écriture unique, lecture multiple). Une fois qu'un fichier est écrit et fermé, il ne peut être modifié que par des ajouts et des troncatures.

Cette approche permet de simplifier la cohérence des données et d'accélérer le débit, ce qui la rend bien adaptée aux applications MapReduce ou aux robots d'exploration du web. En revanche, elle n'est pas adaptée aux charges de travail nécessitant des lectures/écritures continues, que Ceph est mieux à même de prendre en charge. En tant qu'alternative à Ceph, HDFS présente l'avantage de traiter les données à proximité de l'endroit où elles sont stockées et d'offrir une grande portabilité et des capacités de restauration rapide.

Lustre

L'architecture de stockage en cluster Lustre comprend un système de fichiers parallèle basé sur les objets. Le système de fichiers prend en charge une série de distributions Linux et fournit une interface de système de fichiers Unix conforme à POSIX. Lustre est souvent utilisé dans les supercalculateurs et les clusters de calcul à haute performance. Il peut prendre en charge des dizaines de milliers de clients et s'étendre jusqu'à des Po de capacité. Il supporte des centaines de Go par seconde pour ses débits, en entrée comme en sortie.

Lustre a pour lui la capacité de stockage et le débit ; ils peuvent tous deux être facilement augmentés par l'ajout de serveurs. La plateforme supporte une variété de réseaux très performants et peut fonctionner sur différentes architectures de processeurs, y compris sur des clusters mixtes.

Les entreprises qui prévoient des déploiements à grande échelle devraient envisager Lustre. Cette plate-forme offre de bonnes performances et des fonctions d'entreprise importantes, telles que la haute disponibilité, la reprise après sinistre, les protections de sécurité et la surveillance des performances.

Lustre est un système de fichiers parallèle, contrairement à Ceph, qui est un système de fichiers distribué standard. Un système de fichiers parallèle s'accompagne souvent d'une complexité accrue et d'une surcharge administrative, ce qui rend sa maintenance difficile, en particulier lorsqu'il s'agit de mises à niveau. Lustre est également orienté vers les déploiements à grande échelle et peut ne pas être adapté aux efforts plus modestes. Ceph offre plus de flexibilité, notamment grâce à sa prise en charge du stockage d'objets, de blocs et de fichiers.

MinIO

La plateforme de stockage en mode objet MinIO peut fonctionner sur n'importe quel cloud public ou privé, ainsi que dans des environnements périphériques. Elle est basée sur une conception cloud-native compatible avec l'API S3. Elle offre également une prise en charge native de Kubernetes et peut fonctionner sur plusieurs architectures matérielles, allant des systèmes embarqués basés sur des puces ARM aux serveurs x64 haut de gamme.

MinIO offre l'évolutivité et les performances nécessaires pour les charges de travail de l'IA, promettant jusqu'à 325 Go/s en lecture et 165 Go/s en écriture lorsqu'il fonctionne sur 32 nœuds de disques NVMe et un réseau Ethernet 100 Gbit/s. Selon l'éditeur. MinIO inclut également une variété de protections de données, dont la réplication, le chiffrement, le versionnage, l'immuabilité des objets et la gestion des identités et des accès.

MinIO se concentre uniquement sur le stockage d'objets dans le cloud. Il est orienté vers les applications modernes, comme en témoigne son intégration avec Kubernetes. En revanche, Ceph prend en charge le stockage d'objets, de blocs et de fichiers, offrant ainsi aux entreprises une plus grande flexibilité. MinIO pourrait être mieux adapté aux entreprises qui exécutent uniquement des charges de travail S3 basées sur des objets.

En tant qu'alternative à Ceph, MinIO est généralement considéré comme plus simple à déployer et à maintenir, bien que certains utilisateurs aient signalé des difficultés avec leurs installations initiales et leurs déploiements Kubernetes. Certains ont également noté que la documentation pourrait être améliorée.

ZFS

Le système de fichiers ZFS et le gestionnaire de fichiers logiques utilisent des pools de stockage pour gérer le stockage physique dans les systèmes informatiques d'entreprise. ZFS a été créé par Sun Microsystems, racheté par Oracle en 2010. ZFS est conçu pour fonctionner sur un seul serveur qui peut prendre en charge des centaines ou des milliers de disques de stockage connectés.

La plateforme ZFS est connue pour son intégrité des données et son évolutivité, ainsi que pour ses fonctionnalités telles que la réplication, la déduplication, la compression, le clonage et d'autres protections des données. La version open source de ZFS, OpenZFS, est basée sur le même code source que ZFS. OpenZFS est disponible gratuitement, tandis que ZFS est intégré au système d'exploitation Oracle Solaris.

ZFS fonctionne sur un seul serveur, contrairement à un système de fichiers distribué. Par conséquent, le serveur a besoin de beaucoup de mémoire pour la mise en cache et la gestion des métadonnées. ZFS peut être compliqué à utiliser et à gérer, bien qu'il soit généralement considéré comme plus facile à utiliser que Ceph.

L'utilisation de ZFS avec Linux fait l'objet d'un débat en raison de problèmes de licence. Heureusement, des distributions OpenZFS sont disponibles pour plusieurs systèmes Linux, ainsi que pour des systèmes d'exploitation tels que macOS, FreeBSD, NetBSD et Windows. Ceph est généralement considéré comme plus flexible, plus évolutif et plus riche en fonctionnalités que ZFS.

Pour approfondir sur SAN et NAS

Close