Bestanden identificeren
De eerste stap om je digitale archief op lange termijn leesbaar te houden, is om na te gaan in welke bestandsformaten je digitale documenten zijn opgeslagen. Op basis hiervan kan je verdere acties ondernemen.
In deze tool leer je het volgende:
- Wat is bestandsidentificatie?
- Waarom is het belangrijk om te weten in welk formaat je bestanden zijn opgeslagen?
- Hoe kan je bestandsformaten in je digitaal archief identificeren en wanneer doe je dit?
Bestandsidentificatie is het exact vaststellen van het type en de versie van het bestandsformaat van een digitaal bestand. Hierdoor kan je tijdig verouderde bestandsformaten opsporen en indien nodig omzetten naar een duurzaam formaat. Door regelmatig de integriteit van je bestanden te bewaken via checksums kan je ervan uitgaan dat de bestanden zelf niet gewijzigd zijn: de enen en nullen waaruit het bestand bestaat zijn namelijk hetzelfde gebleven.
Je hebt echter geen garantie dat je de bestanden binnen een aantal jaar nog kan openen omdat de juiste software mogelijk niet meer beschikbaar zal zijn. Een voorbeeld hiervan zijn WordPerfect-bestanden die niet meer geopend kunnen worden door de huidige kantoorsoftware. Daarom is het belangrijk in kaart te brengen welke formaten in je digitale collectie zitten en na te gaan of er nog software bestaat die deze bestanden kan openen.
Hoe weet je over welke bestandsformaten je beschikt?
Een eerste stap is de extensie bekijken. De extensie van een bestand is de tekenreeks die na het punt komt in de bestandsnaam. Een bestand met de bestandsnaam document.doc, heeft als extensie '.doc' en geeft aan dat het bestand waarschijnlijk geopend kan worden met een tekstverwerker. De extensie is slechts een deel van de informatie. Dat '.doc-bestand' kan een bestand zijn in het Microsoft Word formaat, maar het kan evengoed om een heel ander formaat gaan.[1]
Bovendien kan iemand het bestand handmatig hernoemd hebben en het een andere extensie gegeven hebben. De extensie geeft dus geen absolute zekerheid over het bestandsformaat. Vaak is het belangrijk te weten om welke versie van een bestandsformaat het gaat, zodat je het bestand met de overeenkomstige softwareversie opent. Ook daarover geeft een extensie geen duidelijk antwoord.
Het formaat en de gebruikte versie worden aangegeven via onzichtbare meta-informatie in de broncode van het bestand. Door die meta-informatie weet het besturingssysteem hoe het het bestandsformaat moet openen. DROID is software die gespecialiseerd is in het lezen van deze informatie. Met dit programma kan je het bestandsformaat en de juiste versie identificeren.
Wanneer identificeer je bestanden?
Er zijn een aantal momenten in de levensloop van je digitale objecten waarop het nuttig kan zijn bestandsidentificatie uit te voeren. Bijvoorbeeld wanneer je foto’s laat digitaliseren bij een extern bedrijf. Na de digitalisering krijg je de bestanden terug met de extensie .tif. Je wil echter weten of deze bestanden werkelijk TIFF-bestanden zijn. Hiervoor kan je dan DROID gebruiken.
Ook wanneer je geen idee hebt uit welke soorten bestanden je digitaal archief bestaat, kan het interessant zijn om DROID je archief te laten analyseren. Zo krijg je een lijst van alle bestanden en bestandsformaten waaruit je digitaal archief bestaat en kan je de risico’s beter inschatten.
Auteur: Nastasia Vanderperren (meemoo) m.m.v. Joris Janssens
- ↑ Zie voor een lijst van alle software die .doc als extensie gebruikt, maar een ander bestandsformaat hanteert: http://filext.com/file-extension/DOC