Maak een offline kopie met een crawler

From Tracks
Jump to navigation Jump to search

Dit is de vaakst toegepaste vorm van websitearchivering. Een crawler of offline browser maakt een snapshot van je website en slaat alle bestanden op als HTML-bestand. Dit is mogelijk doordat de crawler zich als een browser voordoet die iedere pagina van de website bezoekt. In een browser wordt iedere webpagina als een HTML-pagina weergegeven, en daarom wordt iedere pagina als een HTML-bestand opgeslagen. Absolute padaanduidingen worden hierbij omgezet naar relatieve padaanduidingen[1], zodat de website offline geopend kan worden zoals de oorspronkelijke website.

Deze methode kan je toepassen wanneer je alle pagina’s en bestanden waaruit je website bestaat, wil bewaren. Het houdt de oorspronkelijke structuur van je website relatief intact en maakt het mogelijk om je website offline te openen en erin te navigeren zoals bij de oorspronkelijke website. Er bestaan eenvoudige tools om een snapshot van je website te maken. Hou er rekening mee dat crawlers beperkingen hebben. Dynamische webpagina’s waarbij de inhoud gevormd wordt op basis van gegevens die een gebruiker invoert, kunnen niet altijd gearchiveerd worden, net zoals informatie die via een paswoord beveiligd is, bepaalde interactieve elementen en informatie van externe diensten. Ook websites met animaties die een plug-in vereisen om af te spelen, zoals Flash-toepassingen, zullen niet goed gearchiveerd worden.[2]

Enkele crawlers waarmee je aan de slag kan om je website te archiveren:

HTTrack

Een eenvoudige crawler met grafische gebruikersinterface is HTTrack.[3]

  • Geef een naam aan het webarchief en kies waar je de gearchiveerde website wil opslaan. Klik vervolgens op ‘next’.

Geef een naam aan het webarchief en kies waar je de gearchiveerde website wil opslaan

  • Selecteer een actie. Kies voor ‘download web site(s)’.

Selecteer een actie. Kies voor ‘download web site(s)’.

  • Vul de URL van je website in. Je kan meerdere URL’s downloaden. Kies in dat geval voor ‘add URL’ en vul de extra URL in. Klik vervolgens op ‘next’.

Vul de URL van je website in

  • Klik op ‘finish’
  • De crawler is je website aan het downloaden. Laat het venster open zolang de crawler bezig is.

De crawler is je website aan het downloaden

  • De crawler is klaar.

De crawler is klaar.

Gearchiveerde website via HTTrack

ArchiveWeb

ArchiveWeb.page is een Chrome-extensie waarmee je de browser kan ombouwen tot een webarchiveringssysteem. De aanpak van ArchiveWeb.page is anders dan die van HTTrack. Terwijl HTTrack als een bot[4] je volledige website afgaat en alle pagina’s en bestanden downloadt die publiek beschikbaar zijn, kan je met ArchiveWeb.page een opname maken van een surfsessie. Tijdens de surfsessie downloadt ArchiveWeb.page alle content die je tegenkomt door het netwerkverkeer en de processen in je browser op te nemen. Dit heeft als voordeel dat dynamische inhoud en gebruikersspecifieke content en interacties wél gearchiveerd kunnen worden, wat met HTTrack bijvoorbeeld onmogelijk is. ArchiveWeb.page kan daarom ook gebruikt worden voor het archiveren van sociale media.

Het is belangrijk om goed te documenteren welke interacties je aangegaan bent met de website tijdens het archiveren. Als je bijvoorbeeld de zoekfunctie van een website wil bewaren, dan is het belangrijk te documenteren op wat en hoe je gezocht hebt. ArchiveWeb.page zal namelijk enkel bewaren wat jij gedaan hebt. Als je gezocht hebt op de woorden de mol, dan zal je in de gearchiveerde website niet kunnen zoeken op mol of raaf.

Enkele andere voordelen van ArchiveWeb.page ten opzichte van andere software:

  • De software beschikt over een autopilot-functie die het gedrag van een menselijke gebruiker imiteert, zoals scrollen, een video afspelen, op een foto klikken,... Deze functie is vooral nuttig voor sociale media. Er zijn gespecialiseerde autopilots voor Twitter, Facebook, YouTube, SlideShare, Soundcloud en Instagram. Lees er meer over in de Webrecorder-handleiding.
  • Tot slot bewaart Archiveweb.page de gearchiveerde websites in het WARC-formaat, de internationale standaard voor webarchieven.

Archiveweb.page is minder geschikt voor het volledig archiveren van een grote website. Je zal namelijk iedere pagina moeten gaan bezoeken. Als aanvulling op een andere strategie, of voor kleine websites, kan dit een goede strategie zijn voor het bewaren van websites met dynamische of moeilijk te archiveren inhoud. Om grote websites op te slaan in het WARC-formaat, gebruik je beter de Wget-strategie. Deze is wel iets complexer.

Volg onderstaande stappen om een website te archiveren met Archiveweb.page.

Stap 1: installeer de software

ArchiveWeb.page is een Chrome-extensie die je installeert via de chrome web store.

  • Open Chrome.
  • Ga via deze link naar de extensie-pagina van ArchiveWeb.page en klik op Toev. aan Chrome.

align-center

  • Er verschijnt een venster dat je vraagt om te bevestigen dat je de extensie wil toevoegen. Klik op Extensie toevoegen.

align-center

  • Zet vervolgens de extensie vast door linksboven op het puzzelstukje te klikken en op het punaise-icoontje naast ArchiveWeb.page te klikken.

align-center

  • De extensie staat nu in je browser naast de adresbalk.

align-center

Stap 2: capteer de website

Na de installatie van ArchiveWeb.page kan je Chrome gebruiken als een webarchiveringstool. In de voorbeelden van de screenshots wordt sociale media gebruikt, maar je kan de tool gebruiken voor elke soort website

  • Maak een collectie voor het account dat je wil capteren.
  • Klik hiervoor op het ArchiveWeb-icoon en klik op het dropdown-menu onder Record To. Kies voor Create New Archive…

align-center

  • En geef een naam aan de collectie.

align-center

align-center

  • Ga vervolgens naar de website die je wil archiveren. Log je in, indien het om een website gaat waarvoor je je moet inloggen.

align-center

  • Ga naar de pagina die je wil archiveren en start de opname. Klik hiervoor weer op het ArchiveWeb-icoon in de browser. Vink de optie Start With Autopilot aan en druk op Start.

align-center

  • Nadat je op start gedrukt hebt, zal ArchiveWeb de pagina opnieuw laden en de content beginnen downloaden. De autopilotfunctie zorgt ervoor dat de browser automatisch naar beneden scrolt.

align-center

  • Om ervoor te zorgen dat alle content bewaard wordt, moet je iedere pagina bezoeken die je wenst te archiveren en alle video’s afspelen die je later in het webarchief wil kunnen afspelen. Tijdens het uitvoeren van deze acties zal ArchiveWeb steeds meer content opslaan.
  • Als je de sessie wil beëindigen, klik dan terug op het ArchiveWeb.page-icoon en druk op Stop.

align-center

Stap 3: Exporteer het webarchief als WARC-bestand

Nadat ArchiveWeb.page de website gearchiveerd heeft, kan je het webarchief exporteren in WARC-formaat

  • Klik hiervoor weer op het ArchiveWeb-icoon en selecteer in het keuzemenu onder Record To de collectie die je in 2. Capteer de website aangemaakt hebt.

align-center

  • Druk vervolgens op Browse Archive. Je zal een lijst van pagina’s zien die je gearchiveerd hebt.

align-center

  • Kies links voor Download en klik op Download All as WARC Only.

align-center

  • Sla het bestand op. Let op: ArchiveWeb.page wil het bestand opslaan als een .warc-bestand, maar het gaat om een gecomprimeerd WARC-bestand. Voeg daarom .gz toe als extensie.

align-center

  • De website is gearchiveerd en het webarchief opgeslagen!

Stap 4: Controleer het webarchief

ReplayWeb.page is een zeer eenvoudige open source tool waarmee webarchieven bekeken kunnen worden in de browser zonder dat je software moet installeren. Je kan er WARC-bestanden mee openen die lokaal op je computer, Google Drive, Amazon S3 of een webserver (via HTTP of HTTPS) staan.

align-center

  • Klik vervolgens op Load.

align-center

  • Het WARC-bestand zal nu geladen worden.

align-center

  • Via een lijst van URL’s kan je kiezen welke pagina je wil openen.

align-center

  • En dan de gearchiveerde pagina in de browser bekijken.

align-center

Wget

Wget is een computerprogramma dat, net zoals een webcrawler, content ophaalt van webservers. Het is een command line tool en heeft dus geen grafische gebruikersomgeving (GUI) zoals HTTrack of Archiveweb.page. Deze tool kan je enkel bedienen met behulp van een terminal (MacOs en Linux) of opdrachtprompt (Windows). Wget is sneller dan alle voorgaande tools en kan websites archiveren in het WARC-formaat. Het is ontworpen om robuust te zijn en kan ook webcontent downloaden als je internetconnectie zwak, traag of instabiel is.

Wget is net zoals HTTrack een soort crawler. Dynamische of interactieve elementen zullen verloren raken tijdens het archiveren. Het is daarom niet geschikt voor sociale media.

De software is standaard ingebouwd in Linux-computers. Mac-gebruikers kunnen op deze website bekijken hoe Wget gedownload en geïnstalleerd wordt; Windows-gebruikers kunnen zich tot deze handleiding wenden.

  • Open de terminal.
    • Op Windows kan je de opdrachtprompt starten door op de Windows-knop te drukken, cmd.exe te typen in het zoekveld en op ‘Enter’ te drukken;
    • Op Mac vind je terminal onder Programma’s > Hulpprogramma’s > Terminal;
    • Op Linux kan je zoeken op ‘Terminal’.
  • In de terminal typ je vervolgens één commando in waarmee je de volledige website kan downloaden: wget --recursive --no-clobber --convert-links --domain domeinnaam --warc-file=bestandsnaam website
    • wget: de naam van de tool.
    • --recursive: deze term houdt in dat je volledige website gedownload wordt, i.p.v. één webpagina.
    • --no-clobber: overschrijf geen bestaande files, bv. in het geval de download zou stilvallen en (automatisch) weer opgestart wordt.
    • --convert-links: zet absolute links om naar relatieve links zodat je ook offline kan browsen.
    • --domain domeinnaam: ipv domeinnaam zet je hier de domeinnaam van je website. Dit is het gedeelte in de URL na de www, bv. in het geval van http://www.packed.be is dit packed.be
    • --warc-file=bestandsnaam: ipv bestandsnaam zet je hier de bestandsnaam die je aan het WARC-bestand wil geven
    • website: vul hier de URL van je website in.
    • voorbeeld van een volledig ingevuld commando: wget --recursive --no-clobber --convert-links --domain packed.be --warc-file=20180327_website_packed www.packed.be

Wget 1.png

  • Wget zal vervolgens alle bestanden van je webserver halen.

Wget 2.png

  • Wanneer wget klaar is (dit kan enkele uren duren - afhankelijk van de grootte van je website), vind je een WARC-file in de thuismap van je computer.
    • Op Windows is dit \Users\gebruikersnaam.
    • Op Mac vind je deze map door in Finder voor Ga > Thuismap te kiezen.
    • Op Linux is dit /home/<gebruikersnaam>.

Wget 3.png

  • Om het WARC-bestand te openen, kan je Replayweb.page gebruiken. Je kan nu doorheen de volledige website offline navigeren zoals oorspronkelijk.

Webrecorder 12.jpg


Auteur: Nastasia Vanderperren (meemoo)

  1. Een absoluut pad is een volwaardige verwijzing naar een bestandslocatie en is het volledige adres van de locatie van een bestand, zoals ‘http://www.heemkunde-vlaanderen.be/contact/’. Een relatief pad gaat uit van de locatie waar een gebruiker of applicatie zich bevindt. Met een relatief pad kan je verwijzen naar een bestand in een hoger of lager gelegen map zonder het volledige pad te hoeven herhalen. Als je je als gebruiker in de map ‘http://www.heemkunde-vlaanderen.be’ bevindt, dan volstaat in HTML een relatieve link naar ‘contact’ om op het volledige adres ‘http://www.heemkunde-vlaanderen.be/contact/’ terecht te komen.
  2. M. Pennock, Web-archiving, p.11
  3. HTTrack is beschikbaar voor Windows, Mac en Linux. Een andere veelgebruikte webcrawler, die ontwikkeld werd door The Internet Archive en een aantal nationale bibliotheken, is Heritrix. Deze kan websites opslaan in het WARC-formaat.
  4. Een bot (komt van robot) is een computerprogramma dat op een autonome manier taken kan uitvoeren die normaal door mensen uitgevoerd worden. De bot kan bijvoorbeeld een computerspel spelen, een webpagina raadplegen, chatten, of een bericht op een site (bijvoorbeeld een forum of wiki) plaatsen.