Capteren van data van 3,5-inch diskettes van House for Electronics Arts (HeK)/en: verschil tussen versies
(Nieuwe pagina aangemaakt met 'thumb|800px|center|Image 6: The disk image is ready and has been checked.') |
(Nieuwe pagina aangemaakt met 'This enabled us to make identical copies of the nine diskettes.') |
||
Regel 59: | Regel 59: | ||
[[Bestand:GUYMAGER 088 011.png|thumb|800px|center|Image 6: The disk image is ready and has been checked.]] | [[Bestand:GUYMAGER 088 011.png|thumb|800px|center|Image 6: The disk image is ready and has been checked.]] | ||
− | + | This enabled us to make identical copies of the nine diskettes. | |
=== Bestanden van disk images exporteren === | === Bestanden van disk images exporteren === |
Versie van 21 sep 2020 12:53
In May 2018, HeK (House for Electronic Arts)[1] asked PACKED vzw to capture data from its 3.5-inch diskettes. This data was the digital art works Raoul A. Pictor cherche son style (1993)[2] by Hervé Graumann and Über Sehen (1993)[3] by Studer / Van den berg. There were nine high-density diskettes in total, some of which were made for Mac and the others for Windows. HeK didn’t have the right reading equipment to capture the data, so PACKED vzw developed a workflow to retrieve it from the diskettes. Diskettes are fragile carriers. If they become too damaged, there’s a very real chance the reading equipment won’t be able to read the carriers and the art works will be lost.
Issue
Diskettes are data carriers with a capacity of 80 KB (first generation) to 2.88 MB (latest generation), which use magnetism to store data. They were ubiquitous in the 1980s until the emergence of the CD-R and USB sticks at the end of the 1990s/early 2000s.
There are various types of diskettes and some variants are not compatible. Many require their own specific reading device, which cannot write or read other types.[4] Diskettes can differ, for example, in:
- size: the first diskettes, invented in the late 1960s by IBM, had an 8-inch diameter. The 5.25-inch diskette was introduced for home computers in the mid 1970s. The 3.5-inch diskette became the most popular data storage medium in 1988. Diskettes were also available in 2, 2.5, 3, 3.25 and 4-inch formats, but they never fully broke through.
- the number of tracks and sectors: data is organised in tracks and sectors on diskettes. Tracks are concentric circles around the centre of the diskette with spaces left in between. Nothing is written in these spaces. Sectors are blocks that are a constant size (expressed in bytes), each with their own identification number so the operating system can find the data on the diskette. Diskettes can also differ in the number of tracks they have per side[5], per sector and per inch, and the number of bytes they have per track.
- the number of writeable sides: there are single-sided and double-sided diskettes. A diskette reader that can read single-sided diskettes can’t necessarily read double-sided diskettes, and vice versa.
- density: this is the efficiency with which data can be stored on a magnetic carrier. The higher the density, the more data a diskette can store. A greater density is achieved for example by coding improvements for data storage, the magnetic strength at which the data can be written and the material used. There are single-density (SD or 1D), double-density (DD or 2D), quad-density (QD or 4D), high-density (HD), extra-high density (ED) and triple-density (TD) diskettes.
- logical format: the logical format is the file system that determines how the data is written to the carrier. The most common formats are FM (for DOS-formatted, single-density diskettes), MFM (for double-density diskettes that are DOS-formatted and high-density diskettes) and GCR, which has an Apple variant and a Commodore variant. There are also separate formats for Atari and Amiga, among others.
The consequence of all these differences is, for example, that a 3.5-inch diskette station cannot read every 3.5-inch diskette.
The many variants mean that capturing data from diskettes can be a challenge. Diskette readers with a USB connection, which you can still buy today, can usually only read high-density 1.44 MB diskettes, which was the most popular format after the mid 1990s. Diskettes are also fragile carriers. They’re sensitive to dust, condensation and temperature fluctuations, and can’t be stored near magnets or magnetic devices. Any damage can render them unreadable, making it very difficult or even impossible to retrieve data from them.
Status
We captured the content from the nine 3.5-inch diskettes. The files were retrieved from the disk image, identified and saved to a contemporary data carrier.
Method
We decided to create disk images to capture the data. Disk images are bit-for-bit copies of the diskettes. This doesn’t just store the files, but also all the system information, on the carrier. So the information on the carrier is copied as completely as possible, and remains as close to the original as possible. Then you can retrieve the files from the disk image and identify them. Disk images can be created with software that performs a checksum control on the source (the original disk content) and the disk image (the copy).[6] This ensures that there haven’t been any errors when creating the disk image, and that the disk image is an identical copy of the original.
The copied carriers were listed in a spreadsheet with the following columns:
- UI (unique identifier): to create the unique identifier, we used the code assigned to the art work by the institution, and then added a consecutive 3-figure number for each carrier, starting with 001. For example, the unique identifier 2008_199_001 refers to the first carrier processed for the art work with number 2008/199.
- Institution: the name of the museum, i.e. HeK.
- Carrier type: the type of diskette. For HeK, these were 3.5-inch DS HD diskettes[7].
- Carrier format: the logical format on the diskette. In the case of the high-density diskettes from HeK, this was MFM.
- Information on the carrier: all the information from the label on the diskette.
- Functional? If the disk image could be opened and the files retrieved from it, then the diskette was considered to be functional.
- Copied with no errors? This field indicates if a disk image could be created without the software encountering any errors while reading the carrier.
- MD5 checksum: an MD5 checksum was created for every disk image. These checksums are used to check the file integrity.
- Notes: this column includes relevant information about the carrier, e.g. it was an empty diskette, not all files could be retrieved from the diskette, or the error messages that we received when we tried to open the disk image.
In order to prevent our computer files being written to the external carriers, we used write blockers. 3.5-inch diskettes have a write blocker on the carrier which makes the diskette read-only. This is the slider in the bottom left corner. We also used a hardware write blocker. This equipment prevents a computer from being able to write data on the connected carrier.
Create disk images
When testing a reading device with a USB connection, we established that it could read the HeK 3.5-inch high-density diskettes. We used Guymager[8] software to create a disk image from the diskettes. Guymager is open source software that’s used to create disk images of evidence in forensic examinations. It’s extremely important that data is captured unchanged for forensic examinations, and Guymager makes this possible. It has various features to check that the copy is the same as the original. It’s also important that data is saved unchanged for digital preservation. Another of Guymager’s advantages is that it automatically creates metadata in the capturing process and writes it to a text file, such as the checksums for both the carrier and the disk image, for example.
The software is designed so that that an MD5-checksum can be created, and the MD5-checksum for the disk image and the original carrier can be compared to ensure that the disk image and carrier are identical. We opted for Linux dd raw image as the file format because it’s an open format supported by all operating systems. Expert Witness Format is a proprietary format and can only be opened with a limited number of applications.
This enabled us to make identical copies of the nine diskettes.
Bestanden van disk images exporteren
Een disk image is geen bestand dat je zomaar kan openen om gegevens te raadplegen. Het verschilt van het kopiëren van bestanden van één locatie omdat in een disk image niet enkel de bestanden van de drager, maar ook alle systeeminformatie bewaard wordt. Een disk image is voor een computer dan ook gelijk aan een externe schijf of drager die ingelezen moet worden. Om de bestanden en de mappen van een disk image te lezen of te gebruiken, moet je de disk image aansluiten of mounten op je computer. Dat kan risicovol zijn omdat sommige besturingssystemen (onzichtbare) bestanden wegschrijven op de aangesloten opslagmedia. Ook is het soms niet mogelijk om een disk image te mounten omwille van zijn bestandssysteem. Bestandssystemen zijn softwarematige indelingen van een opslagmedium (bv. een harde schijf of een externe drager) dat het besturingssysteem gebruikt om de data op het medium weer te geven als bestanden en om ze te kunnen gebruiken in applicaties. Er bestaan zowel bestandssystemen die enkel op een bepaald besturingssysteem gebruikt kunnen worden als bestandssystemen die op meerdere besturingssystemen toegankelijk zijn.[9] Zo kan het bijvoorbeeld gebeuren dat een disk image van een (externe) schijf die geformatteerd werd voor Windows niet geopend kan worden op een Mac-computer, of omgekeerd.
Om ervoor te zorgen dat HeK toegang had tot de bestanden op de disk image, werden de bestanden geëxporteerd en geïdentificeerd. Om ons te verzekeren dat we de disk images niet wijzigden en dat we alle bestanden - ook verborgen bestanden - zouden kunnen exporteren, maakten we gebruik van software. Vooraleer we met de software aan de slag konden gaan om bestanden van de disk images te exporteren, dienden we te weten welk bestandssysteem de disk images hadden. De keuze voor een tool is namelijk afhankelijk van het bestandssysteem. Die informatie is ook nodig in het geval je de bestanden zou willen openen in een emulatieomgeving. Op basis van het bestandssysteem kan de geschikte emulatieomgeving gekozen worden.
Bij het exporteren werden steeds volgende acties uitgevoerd:
- Het bestandssysteem werd bepaald
- Een indexbestand werd gemaakt met een overzicht van alle bestanden op de disk image
- De bestanden werden van de disk image gehaald
- De bestandsformaten van de bestanden werden geïdentificeerd. Deze stap is noodzakelijk om te weten met welke software je de bestanden moet openen (indien de computer dit zelf niet automatisch vindt).
Bestandssysteem bepalen
Voor diskettes die gebruikt zijn in MS-DOS/Windows en Classical Macintosh zijn de meest gebruikte bestandssystemen FAT12[10] en HFS[11]. FAT is een bestandssysteem dat ontwikkeld werd voor MS-DOS en Windows, waarvan FAT12 specifiek voor diskettes gebruikt werd. Het wordt breed ondersteund, o.a. door bijna alle moderne besturingssystemen (Windows, Mac en Linux). HFS is een obsoleet bestandssysteem dat ontwikkeld werd door Apple en gebruikt werd voor diskettes en harde schijven. HFS disk images kunnen enkel gelezen worden op Mac (zowel klassieke Macintosh als de moderne OS X/macOS).
Om het bestandssysteem te bepalen, gebruikten we Disktype. Dat is een command line tool die gebruikt kan worden in UNIX-omgevingen zoals Linux of Mac, of via Cygwin[12] op Windows, om bestandssystemen van een disk of disk image vast te stellen. Met het commando disktype image.img > disktype.txt schreven we de info weg in het tekstbestand disktype.txt voor de disk image met naam image.img (zie screenshot).
We stelden op deze wijze vast dat zeven disk images FAT12 als bestandssysteem hadden. De andere twee hadden HFS als bestandssysteem.
Om bestanden van disk images met het FAT12 bestandssysteem te halen, gebruikten we Bitcurator Disk Image Access Tool. Bitcurator[13] is een gespecialiseerde versie van Ubuntu die bestaat uit een verzameling van forensische tools om te helpen bij het preserveren van data op externe dragers. Bitcurator Disk Image Access Tool is software waarmee je alle bestanden op een disk image kunt zien en exporteren, inclusief verwijderde bestanden.
Bitcurator Disk Imge Access Tool kan geen disk images met het bestandssysteem HFS gebruiken. Voor HFS bestaat er een gelijkaardige software, HFSExplorer. Ook hiermee je alle bestanden (inclusief verborgen) kunt exporteren met behoud van de originele metadata zoals laatste bewerkingsdatum.
Met deze software konden we van alle diskettes de bestanden van de disk images exporteren.
Bestanden identificeren
Nadat alle bestanden van de disk images gehaald werden, konden ze geïdentificeerd worden. Hiervoor werd DROID gebruikt. DROID identificeert bestanden op twee manieren. Enerzijds door de bestandsextensie, anderzijds door een code die opgeslagen is in de bitstream van een bestand. Het gebruikt hiervoor de PRONOM-databank. DROID slaagde er niet in om alle bestanden te identificeren. Dit komt doordat in het HFS-bestandssysteem (de klassieke Mac-omgeving) bestanden geen extensie hadden of omdat bestanden verkeerde extensies hadden. Als DROID de interne code van een bestand niet kent, en enkel een bestand kan identificeren op basis van de extensie, dan is het voor DROID onmogelijk om deze bestanden te herkennen.
Besluit
Gegevens op obsolete dragers zijn fragiel en dreigen te verdwijnen, o.m. doordat de leesapparatuur zeldzaam wordt, maar ook omdat de dragers verouderen waardoor ze niet goed meer gelezen kunnen worden. Daarom moeten ze zo snel mogelijk naar een hedendaagse gegevensdrager overgebracht worden. Met behulp van een diskettelezer met USB-aansluiting, een write blocker en software zoals disktype, Guymager, HFSExplorer en Bitcurator konden we alle negen diskettes overzetten naar een hedendaagse gegevensdrager.
Wanneer je zelf in je archief een diskette vind, contacteer ons dan vooraleer je zelf pogingen doet om de drager te lezen. Bezorg ons alle informatie die je hebt over de drager, zoals de periode waarin ze gebruikt werd, de computer waarop de drager gebruikt werd (Mac of Widows/MS-DOS) en een foto van de drager. Dit maakt het voor ons makkelijker om de drager te identificeren en te bepalen welke strategie we moeten gebruiken om de gegevens van de drager af te halen.
Auteur: Nastasia Vanderperren (PACKED vzw)
- ↑ For more information, see http://www.hek.ch/en.html
- ↑ for more information, see http://www.hek.ch/en/collection/collection-single/collection/raoul-a-pictor-cherche-son-style.html
- ↑ Über Sehen is a screensaver. See http://www.studervandenberg.ch/works.html
- ↑ An non-exhaustive list of diskette types: https://en.wikipedia.org/wiki/List_of_floppy_disk_formats
- ↑ the most common number of tracks is 40 or 80.
- ↑ Such as Guymager, Isobuster, FTK imager and Disk Utility
- ↑ DS stands for double-sided, HD for high-density.
- ↑ http://guymager.sourceforge.net/
- ↑ Voor meer informatie, zie https://nl.wikipedia.org/wiki/Bestandssysteem.
- ↑ Voor meer informatie, zie https://en.wikipedia.org/wiki/File_Allocation_Table#FAT12.
- ↑ Voor meer informatie, zie https://en.wikipedia.org/wiki/Hierarchical_File_System.
- ↑ Cygwin is een verzameling van vrije hulpprogramma's bedoeld om Unix-programma's op de meeste versies van Microsoft Windows te draaien, https://nl.wikipedia.org/wiki/Cygwin.
- ↑ Voor meer informatie, zie https://bitcurator.net/bitcurator