Formats de fichier recommandés pour que vos archives numériques restent lisibles
Pour que vos archives numériques restent lisibles à long terme, il est important de stocker vos fichiers dans un format durable. En effet, certains formats de fichiers peuvent, avec le temps, rendre vos documents illisibles.
Grâce à cet outil, vous apprendrez :
- Qu'est-ce que l'obsolescence numérique et comment l'éviter ?
- Qu'est-ce qu'un format de fichier ?
- Pourquoi utiliser un format de fichier durable pour vos documents numériques ?
- Quels sont les formats de fichier les plus durables ?
Vos archives numériques ont de bons back-ups. Ou elles sont dans le cloud ? Bien, vous avez encore tous vos fichiers numériques. Pourrez-vous encore les ouvrir ? Nous espérons que votre affiche peut également être trouvée dans un format différent de ce fichier PageMaker de 1994, pour lequel il n'y a plus de logiciel disponible. Vous l'aurez compris, une archive numérique ne se conserve pas sans rien faire.
Le problème de l'obsolescence numérique
L'obsolescence numérique se produit lorsqu'un fichier est si ancien que le logiciel permettant de l'ouvrir n'est plus disponible, à moins que vous ne procédiez à un travail d'archéologie numérique (qui demande beaucoup de temps). Même si le logiciel existe toujours, il y a de fortes chances que des versions plus récentes du logiciel affichent différemment les anciennes versions de fichiers.
La durabilité d'un logiciel est déterminée par :
- Le degré de rétrocompatibilité : dans quelle mesure une nouvelle version du logiciel peut-elle encore lire des versions antérieures de fichiers ?
- La complexité du logiciel : plus le logiciel est complexe, plus il est difficile d'en garantir la rétrocompatibilité.
- Sa distribution sur le marché ou dans la communauté : un marché important garantit qu'il y a plus de logiciels pour lire les fichiers.
- Sa documentation ouverte : si son code source est consultable, les programmeurs peuvent continuer à développer des logiciels pour lire le format de fichier. En utilisant des formats de fichiers ouverts, vous réduisez le risque de devenir dépendant de certaines technologies ou de certains fournisseurs.
Le format de fichier définit la manière dont les informations contenues dans un fichier informatique sont codées. Il est souvent indiqué par une extension dans le nom du fichier. Un codec est un logiciel ou un matériel informatique qui permet d'encoder et de décoder des données, ou de les compresser et de les décompresser. Pour obtenir un aperçu des formats de fichiers présents dans vos archives numériques, vous pouvez utiliser DROID.
Les autres menaces
Pour les fichiers image et vidéo, la compression peut éventuellement devenir un problème. Par exemple, les photos sont massivement stockées en JPEG alors que ce format fonctionne avec un algorithme de compression intensif. Vous ne pouvez pas le voir à l'œil nu, mais cela pose des problèmes lorsque vous migrez la photo vers un nouveau format. Vous le faites par exemple lorsque vous importez la photo dans un logiciel de traitement d'images tel que Photoshop.
N'oubliez pas le problème des fichiers qui se réfèrent les uns aux autres. Par exemple, un fichier InDesign ne contient pas les images, mais renvoie à des images situées ailleurs sur votre disque. Lorsque les fichiers sont déplacés, le lien est perdu.
Comment choisir le bon format de fichier ?
Maintenir des archives numériques lisibles consiste essentiellement en une migration continue des anciens fichiers vers les formats de fichiers actuels (ce qu'on appelle une "stratégie de migration"), ou en la copie/émulation d'un ancien environnement informatique sur l'environnement informatique actuel, de sorte que les anciens logiciels puissent encore fonctionner (ce qu'on appelle une "stratégie d'émulation").
Ces deux stratégies sont très complexes à long terme et sont souvent l'affaire de spécialistes. En tant qu'artiste ou organisation artistique, il est préférable de se concentrer d'abord sur le choix d'un format de fichier ouvert et bien documenté lors de la création de votre document. C'est la meilleure garantie pour que vos archives numériques restent lisibles à long terme. Vous pouvez également miser sur plusieurs chevaux en sauvegardant également des images ou des PDF de modèles 3D complexes, par exemple. Deuxièmement, vous pouvez vérifier s'il existe des fichiers potentiellement "en danger" parmi le matériel numérique existant. Si c'est le cas, n'hésitez pas à contacter (en néerlandais ou en anglais) l'un des partenaires du réseau TRACKS pour obtenir des conseils plus personnalisés.
Vous trouverez ci-dessous un aperçu de conseils par type de fichier.
Documents de traitement de texte
Exemples : DOC, DOCX, ODT, TXT, RTF
Il est préférable d'enregistrer les documents de traitement de texte en format ODT ou, lorsque le document ne doit plus être modifié, en format PDF. Depuis Word, il est facile d'enregistrer des fichiers en ODT ou en PDF. Dans ce dernier cas, ne choisissez pas la fonction "print-to-pdf". Elle est de moins bonne qualité que la fonction "publier" ou "exporter". Choisissez également toujours le profil d'archivage PDF/A. Il peut être choisi dans Word, dans les paramètres de stockage des fichiers PDF. L'enregistrement des fichiers dans la dernière version de Word (fichiers DOCX) dans le format d'origine n'est pas une solution idéale, bien que les risques soient actuellement très faibles.
ODT
ODT (Open Document Text) est la variante open source de DOC et DOCX. Il s'agit d'un format ouvert pour le texte formaté et il est donc préférable.
Les fichiers PDF peuvent (à moyen terme) être simplement conservés au format PDF. Dans la mesure du possible, veillez à ce que tout PDF créé au sein du bureau soit sauvegardé dans un profil d'archivage PDF (de préférence PDF/A ou, dans le cas des plans de construction, PDF/E).
Images matricielles
Exemples : TIFF, JPEG, GIF, PNG, PSD, BMP
Une image matricielle, ou bitmap, est une image sous forme numérique, où la couleur de chaque pixel est enregistrée. L'inconvénient d'une image matricielle est que, lorsqu'elle est agrandie, les pixels individuels deviennent visibles. Pour éditer les images matricielles, il existe des programmes bitmap. L'homologue d'une image matricielle est l'image vectorielle.
Un exemple d'image matricielle est une prise de vue avec un appareil photo numérique qui enregistre l'image avec un capteur, qui contient une grille de pixels.
TIFF
En général, le format TIFF est recommandé comme format de stockage durable pour les images matricielles. Il est préférable de ne pas compresser les images. En effet, l'utilisation de la compression (à perte) entraîne une perte de qualité lors de l'édition de l'image. Par conséquent, veillez à ce que les photographies ayant une valeur artistique, utilisées pour la communication et la présentation, soient livrées et sauvegardées dans un format TIFF non compressé.
Il existe plusieurs profils TIFF. L'Uncompressed baseline IBM TIFF v6.0 est considéré comme le plus durable. Veillez à utiliser un profil RGB comme espace colorimétrique, si possible AdobeRGB ou ecirgb-v2. Il est également préférable de donner aux fichiers Photoshop un équivalent au format TIFF, mais de conserver le fichier original avec les informations sur les couches si vous souhaitez le modifier ultérieurement.
JPEG
Pour les photos prises pour documenter un spectacle ou un événement public, il n'y a aucun problème à utiliser le format JPEG. N'utilisez pas de formats exotiques ou obsolètes, tels que BMP (Bitmap).
PNG
PNG est un format d'image ouvert qui utilise la compression sans perte (ce qui signifie qu'aucune information sur l'image n'est perdue). Le format PNG est utilisé pour les publications et les présentations en ligne de haute qualité, ou pour les logos et les graphiques.
Images vectorielles en 2D
Exemples : AI, SVG, EPS
Une image vectorielle est une représentation graphique composée d'objets géométriques simples, tels que des points, des lignes, des courbes, des polygones, etc. Les formes complexes sont créées par des combinaisons de ces formes de base. L'image est décrite par les formules des objets. Par conséquent, contrairement à une image matricielle ou bitmap, où chaque pixel de la toile numérique est coloré séparément, les images vectorielles peuvent être agrandies à n'importe quelle taille sans perte de qualité. La résolution pour l'échelle choisie est alors fixe, ce qui rend l'image floue ou en bloc lorsqu'elle est agrandie.
Par exemple, la description d'une image vectorielle peut indiquer qu'un cercle d'une certaine couleur et d'une certaine taille doit être dessiné au-dessus d'un texte. La taille absolue du texte et du cercle ne sera pas fixée, seule la relation entre eux le sera. Grâce à cette flexibilité, les images vectorielles peuvent être affichées à n'importe quelle taille tout en conservant la même résolution (densité de l'information).
SVG
En général, le format SVG est recommandé comme format de fichier durable pour les dessins vectoriels. Par conséquent, il convient de toujours fournir un équivalent SVG des images vectorielles finales.
Fichiers texte
Exemple : TXT
Les fichiers texte peuvent simplement être enregistrés en tant que fichiers texte. Notez que le texte peut être codé de différentes manières (ex. ANSI, ASCII et UTF-8). Dans la mesure du possible, essayez de vous assurer que les fichiers texte sont encodés en UTF-8.
Fichiers de présentation
Exemples : PPT, PPTX
Ces fichiers peuvent être conservés dans leur format d'origine à moyen terme. Le format PDF est un format plus durable, c'est pourquoi il convient de migrer les présentations terminées vers ce format. Le format PPT, quant à lui, est obsolète. Veillez donc à ce que les fichiers PPT aient également un équivalent en PPTX ou PDF. Choisissez PDF/A.
Spreadsheets ou fichiers tableurs
Exemples : XLS, XLSX, ODS
Il n'existe pas de solution définitive au sein de la communauté des archivistes pour les fichiers tableurs. XLSX et ODS sont toutefois considérés comme suffisamment durables. XLS est obsolète. Il est recommandé d'identifier les fichiers tableurs XLS importants dans les archives et de créer un équivalent en ODS et XLSX.
Fichiers vidéo
Exemples : AVI, FLV, MOV, MPEG-1, MPEG-2, MPEG-4, SWF, WMV
La conservation durable des vidéos est une affaire de spécialistes. Toutefois, lorsque vous commandez des vidéos, vous pouvez exiger des fournisseurs qu'ils livrent leurs vidéos dans des formats durables. MKV est, en principe, le format le plus durable pour le stockage de vidéos. MXF, AVI et MOV sont également des formats durables. Les formats de fichiers audio et vidéo ne sont que des contenants pour les vidéos et les audios. Il est également important de déterminer comment la vidéo et l'audio doivent être encodés. Dans le secteur des archives et du patrimoine, le codage FFV1 est couramment choisi. Pour les audios, il est recommandé de les encoder en LPCM. Veillez à ce que le format de fichier et les vidéos et audios ne soient pas compressés. Cela conduit souvent à des fichiers volumineux (pour FFV1 : 45-50 Go par heure de vidéo !!!), donc appliquez-le surtout aux vidéos de valeur, dans lesquelles beaucoup d'argent a été investi.
Des normes de qualité inférieures peuvent être observées pour des vidéos moins importantes. Par exemple, les codecs vidéo h.262 et h.264 sont largement utilisés dans le format MP4. Un bon aperçu du stockage à long terme des fichiers vidéo est disponible ici
Fichiers audio
Exemples : AC3, AIFF, MP3, WAV, WMA
Il est préférable d'enregistrer les fichiers audio importants au format WAV. Les formats FLAC et AIFF sont également considérés comme des formats durables. Utilisez LPCM pour encoder des signaux sonores. Le format MP3 peut être utilisé comme format de consultation ou pour des fichiers audio mineurs, par exemple lorsque vous souhaitez rendre des fichiers audio accessibles via votre site web.
E-mails
Exemples : PST, MBOX, MSG
Les e-mails peuvent être stockés de différentes manières. Si des boîtes de réception entières sont conservées, il est préférable d'opter pour le format MBOX. Cependant, il est conseillé de stocker séparément, dans le fichier de projet, les e-mails importants ayant une grande valeur informative pour le projet. Le format EML est le plus approprié à cet effet. Enregistrez toujours les pièces jointes séparément de l'e-mail. Gmail dispose de fonctions permettant d'exporter ou d'enregistrer les e-mails au format EML et MBOX. Outlook utilise des formats dépendants de l'application, tels que PST et MSG, qui ne sont pas durables. Pour stocker des boîtes de réception Outlook, il est donc préférable d'utiliser un client d'e-mails comme Thunderbird (voir l'outil Archiver des e-mails : comment et pourquoi ?).
Sites web
Les sites web sont essentiellement des éléments d'informations dynamiques, en constante évolution. La capture de toutes les informations ne peut donc se faire qu'en prenant des instantanés de votre site web à intervalles réguliers, comme le fait Internet Archive (archive.org). Remarque : il ne faut pas se fier uniquement à Internet Archive. Les instantanés de ce service sont rarement complets. De plus, il est relativement facile de les créer soi-même. Un instantané de site web est une "copie statique" de toutes les pages HTML qui composent le site web, ainsi que de toutes les images, feuilles de style, etc. Le système sur lequel fonctionne le site web (souvent un système de gestion de contenu tel que Drupal ou Wordpress) n'est, dans ce cas, pas archivé avec lui. Le format d'archivage pour les sites web est WARC. Dans l'outil Archiver des sites web : comment et pourquoi ?, vous trouverez des stratégies d'archivage de sites web.
L'efficacité de l'archivage des sites web dépend souvent de la technologie utilisée. Le Flashcode, par exemple, est très difficile à archiver. Le degré d'archivage de votre site web peut être mesuré sur archiveready.com (disponible en anglais). Si vous développez de nouveaux sites web, essayez autant que possible de faire en sorte qu'ils soient facilement archivables par la suite.
Bases de données
Les bases de données se présentent sous différentes formes et fonctions. L'archivage d'une base de données consiste essentiellement à exporter les informations contenues dans cette dernière sous une forme permettant de les importer dans une nouvelle base de données. Il s'agit souvent de tableaux Excel, de fichiers CSV ou de fichiers XML, mais d'autres fichiers de données sont également possibles. Il est important de documenter correctement la manière dont la base de données a été constituée. La même remarque que pour les sites web s'applique ici : construisez les bases de données de manière à ce que les informations puissent en être facilement extraites, sous des formes qui peuvent être facilement importées dans d'autres bases de données.
CAO 2D
Exemples : DWG, DXF, VWX, DGN
Il est préférable d'enregistrer les fichiers CAO 2D dans un format couramment utilisé et facile à ouvrir. Pour les dessins CAO 2D, il s'agit généralement des formats DWG ou DXF. Pour les architectes qui n'utilisent pas les produits Autodesk, il est recommandé d'enregistrer les dessins échangés et publiés au format DWG ou DXF. Veillez à ce que les fichiers se référant les uns aux autres (ex. les XREF ou les fichiers plotsyle) soient réunis (ex. via AutoCAD, cela peut être réalisé par le biais de la fonction etransmit). Dans de nombreux cas, les dessins en CAO 2D sont également convertis en PDF. Conservez ces PDF. Non seulement ils ont une valeur juridique, mais la durabilité des PDF est actuellement bien plus grande que celle de n'importe quel fichier CAO. À l'heure actuelle, les PDF sont principalement créés à l'aide de la fonction de traçage ou d'impression. Toutefois, des programmes tels qu'AutoCAD et Vectorworks permettent d'exporter des dessins directement au format PDF. Dans ce cas, les PDF peuvent contenir plus d'informations, le risque d'erreurs lors de la création du PDF est réduit et le dessinateur a plus de contrôle sur les éléments qui doivent figurer dans le dessin. Choisissez PDF/A ou PDF/E.
CAO 3D
Exemples : DWG, DXF, VWX, DGN, SKP, 3DM
Il est préférable d'enregistrer les fichiers CAO dans un format couramment utilisé et facile à ouvrir. Pour les dessins de CAO en 3D, cependant, un tel format n'est pas disponible. Par conséquent, sauvegardez les modèles 3D dans leur format d'origine, mais documentez le logiciel et la version du logiciel utilisé pour créer le fichier, ainsi que les exigences de son système. En effet, il arrive qu'un fichier CAO 3D soit affiché différemment après une mise à jour de la version d'un logiciel. Pour l'échange et la publication de modèles techniques en 3D, la norme IFC s'impose de plus en plus comme le standard de l'industrie. L'IFC est ouvertement documenté et durable, mais il faut garder à l'esprit que la traduction d'un modèle 3D en IFC implique toujours une certaine perte.
Fichiers de modélisation 3D
Exemples : 3DS, VRML, X3D, U3D, BLEND
La diversité des fichiers de modélisation 3D est trop grande pour que l'on puisse faire des déclarations générales sur leur conservation. X3D et U3D sont des formats de fichiers durables, mais ils ne conviennent pas comme format durable pour tous les modèles 3D. Par conséquent, comme pour la CAO 3D, conservez les fichiers dans leur format d'origine, avec la documentation du logiciel d'origine. Les modèles 3D sont souvent créés pour produire d'autres documents, tels que des rapports en 2D. Pour ces documents, les mêmes recommandations que pour les fichiers images s'appliquent. Dans certains cas, un modèle 3D n'est pas un fichier mais un exécutable, comme dans le cas des modèles dans Unity. Dans ce cas, documentez la configuration requise pour l'exécutable. Il est conseillé de documenter les scènes 3D au moyen d'instantanés ou de vidéos (par exemple, des captures d'écran).
Partitions
Les formats recommandés pour la conservation de partitions numériques sont PDF/A, TIFF ou MusicXML. Le format choisi dépend de l'utilisation prévue.
PDF/A et TIFF sont de bons formats pour la conservation et la lecture de documents. Vous les traitez comme vous le feriez pour n'importe quel autre document au format PDF ou image au format TIFF. MusicXML est un format ouvert qui permet d'annoter et d'éditer des partitions. Cela signifie que vous conservez les informations notées derrière les notes et que vous pouvez facilement les modifier. Ce format est cependant moins utile pour la lecture et l'interprétation de la musique. Dans ce cas, il est préférable d'enregistrer la partition au format PDF/A ou TIFF.