Archivage : le CINES met en place une solution de conservation de documents mutualisée

Le Centre informatique national de l'enseignement supérieur de Montpellier, notamment connu pour ses activités dans le monde du calcul scientifique, vient de mettre en oeuvre une nouvelle plate-forme d'archivage pérenne destinée à la conservation des documents numériques produits par le milieu de l'enseignement supérieur et de la recherche. La plate-forme, fournie par Sun et Infotel, accueille notamment les archives des thèses, mais aussi les archives numériques des revues en sciences humaines et sociales et a vocation à élargir son parc d'utilisateurs. Elle se conforme au modèle OAIS.

Le CINES en bref 

cines

Le centre informatique national de l'enseignement supérieur, basé à Montpellier est l'un des principaux centres de calcul français et héberge notamment le supercalculateur Jade, figurant au 14e rang du classement Top500 des supercalculateurs mondiaux.

Outre son rôle de centre de centre de ressources techniques, il a pour mission de fournir des services d'archivage pérenne pour l'enseignement supérieur et la recherche avec sa plate-forme PAC.

Basé à Montpellier, Le centre informatique national de l'enseignement supérieur est notamment connu pour ses activité en matière de calcul scientifique. Il héberge notamment le plus puissant des supercalculateurs français, le super-calculateur Jade (147 Tflops), un cluster assemblé à base de serveurs lames Xeon E5472 SGI Altix ICE 8200 classé au 14e rang mondial au classement Top500. 

Le CINES a toutefois une seconde mission moins connue, celle de la conservation et de l'archivage à long terme sous forme numérique de l’information et des documents générés par la communauté de l'enseignement supérieure et de la recherche. Dans le cadre du décret d'août 2006 relatif aux modalités de dépôt, de signalement, de reproduction, de diffusion et de conservation des thèses, le CINES travaille par exemple avec l'Agence bibliographique de l'enseignement supérieur pour fournir un service d'archivage pérenne des thèses au format électronique. Le CINES fournit aussi des services d'archivage pérenne pour les revues de sciences humaines et sociales numérisées par l'Université Louis Lumière de Lyon (Lyon 2), dans le cadre du programme Persée. C'est dans ce cadre, que le centre a récemment investi dans la mise en oeuvre d'une nouvelle plate-forme d'archivage fournie par Sun et Infotel.

20 To pour l'archivage pérenne de documents électroniques

Comme l'explique Olivier Rouchon, en charge du projet au CINES, le centre avait dans un premier temps bâti sa propre plate-forme avec des serveurs Dell et des logiciels développés sur la base de composants libres. Cette plate-forme de première génération, baptisée PAC 1.0 ( Plate-forme d’Archivage au CINES v1.0), dont la capacité de stockage était limitée, a largement servi de prototype et de validateur pour les concepts d'archivage pérenne au CINES. C'est en effet sur cette base que le centre a lancé en 2007 un appel d'offre pour la mise en oeuvre d'une plate-forme d'archivage plus industrielle susceptible d'être mutualisée entre ses différents utilisateurs. Cette seconde mouture de la plate-forme d'archivage du CINES est entrée en production en 2008.

pac techno 
La plate-forme technique PAC v2.0 du CINES

Côté serveurs et stockage, le coeur de cette PAC v2.0 s'appuie sur deux serveurs applicatifs Sun Fire X4150 sous Linux, dont un serveur de production et un second serveur dédié aux tests, mais pouvant aussi faire office de serveur de production secondaire en cas de chute du serveur principal. Le tout est relié à deux baies de stockage Fibre Channel StorageTek 6140 d'une capacité de 20 To – avec la capacité d'évoluer à 40 To. La première baie héberge une copie en miroir des documents stockés sur la seconde. Les données sont également sauvegardées sur bandothèque. La partie logicielle de la plate-forme est fournie par Infotel avec son logiciel d'archivage Arcsys, un logiciel auquel se sont ajoutés des développements sur mesure afin d'ingérer les données à archiver selon les spécifications du CINES.

Comme l'explique Olivier Rouchon, le projet a été mené rapidement. L'appel d'offre a été lancé en juillet 2007 et les vainqueurs notifiés en décembre 2007, pour une mise en production en mai 2008. La période de développement et de tests a été concentrées sur 3 mois, une période relativement courte qui s'explique notamment par le fait que la v1.0 de la plate-forme, développée en interne, a permis de fournir les jeux de données d'essais et les outils de test et de validation. L'ensemble logiciel plus matériel a coûté environ 300 000 € au CINES (hors les redevances de licences annuelle et support matériel au dela de la 3e année).

Une plate-forme conforme au modèle OAIS (ISO 14721)

Sun et Infotel l'ont emporté face à Hitachi - et son système HCAP - Everteam, et Atempo. Pour Olivier Rouchon, c'est le rapport qualité/prix et la maturité de la solution proposée par Sun qui ont permis au constructeur de l'emporter. “ Aucune des 4 offres ne remplissait 100% du cahier des charges sans développement spécifique. Il nous fallait notamment un module d'ingestion des archives cohérent avec le modele OAIS. C'est sur cette partie que les équipes d'Infotel ont été les meilleures.

OAIS (Open Archival Information System) est un modèle conceptuel pour l'archivage et la préservation à long terme de documents numériques. Développé à l'origne pour le monde de l'aéronautique et du spatial il a été approuvé comme standard par l'ISA sous la référence 14721:2003. C'est aujourd'hui le modèle qui fait référence pour la conservation à long terme de documents. Très tôt OAIS a intéressé les acteurs de l'archivage public, sous l'impulsion d'ailleurs du CNES (Centre national d'Etude Spatial) qui a agit comme un aiguillon pour l'adoption du modèle au sein de l'administration française.

Au CINES l'usage d'OAIS était incontournable : Le centre se conforme en effet aux préconisations de la P2A (Politique et pratiques d'archivages) définie en juillet 2006 par le SGDN (Secrétariat général de la défense nationale) et par la DCSSI (Direction Centrale de la sécurité des Systèmes d'information), des préconisations qui reprennent les concepts du modèle OAIS pour définir la politique d'archivage publique.

Un processus scrupuleux d'ingestion et de validation des documents à archiver

Comme l'explique Olivier Rouchon, chaque document entrant doit se composer de deux parties. La première est un fichier sip.xml – pour Submission Information Package -, décrivant le document dans son projet d’archives, le document proprement dit et les fichiers qui le composent (le tout au format Dublin Core). La seconde est le dossier comprenant les différents documents à archiver. Chacun de ces documents doit se conformer à l'un des formats acceptés par la plate-forme (HTML, PDF, TXT, XML; GIF, JPEG, TIFF, PNG, SVG, WAV, AIFF, AAC, Vorbis, MJPEG2000, MPEG4, Theora) et est vérifié avant son entrée, afin de valider sa conformité.

Une fois cette opération effectuée, le fichier de métadonnées sip.xml se voit enrichi de données internes à la plate-forme. Il se voit ainsi attribuer une date d'archivage, un identifiant unique et accueille l'ensemble des empreintes numériques calculées pour chaque fichier à l'aide d'un algorithme de Hash (SHA-256). Il devient alors un fichier aip.xml – pour Archival Information Package. C'est ce couple dossier et aip.xml qui constitue l'archive conservée par la plate-forme.

pac archi

En l'état, la plate-forme PAC v2.0 est interfacée avec l'outil STAR des bibliothèques universitaires, ce qui permet le versement transparent des thèses reccueillies par les universités et grandes écoles dans le système. Elle sert aussi à fournir l'archivage pérenne des revues de sciences humaines et sociales. Au cours de ses trois premiers mois d'exploitation, la plate-forme a accueilli près de  150 000 archives et le CINES estime que près de 10 To de données devraient être archivées d'ici la fin 2009. Le rythme de stockage des données pourrait toutefois s'accélérer car la vocation de la plate-forme est d'être mutualisée plus largement. Elle devrait ainsi rapidement accueillir de nouveaux supports, notamment les documents sonores provenant du CRDO (Centre de ressources pour la description de l'oral) - une entité du CNRS dont la mission est de numériser des fonds documentaires sonores – et les cours universitaires de Canal-U (documents en provenance du centre de ressources et d'information sur les multimédias pour l'enseignement supérieur).

En savoir plus

Le site du CINES

Le groupe de travail PIN (pérennisation de l'information numérique)

Le projet Persée

Le document de référence P2A

Le CINES travaille aussi en relation étroite avec d'autres acteurs de l'archivage public notamment à des fins de partage d'expérience mais aussi de collaboration (notamment en matière de réplication distante des archives). L'un des intérêts de la plate-forme PAC est d'ailleurs que le CINES est propriétaire du code développé et qu'il a repris la main sur le code en interne. Le code des applications de la plate-forme est ainsi disponible en ligne et réutilisable par d'autres acteurs de l'archivage de documents. La mutualisation ne s'arrête ainsi pas à la seule plate-forme PAC.

Pour approfondir sur Formats et Archivage