Kernconcept

Wat is WARC?

WARC (Web ARChive) is de internationale open standaard om websites volledig en herleidbaar te bewaren — vastgelegd als ISO 28500.

Eén bestand, de hele website

Een WARC-bestand bundelt alle HTTP-requests en -responses van een crawl — HTML, afbeeldingen, stylesheets en scripts — inclusief de originele headers. Niet een plaatje van hoe een pagina eruitzag, maar exact wát de server verstuurde.

Waarom geen screenshot of PDF?

Een screenshot bevriest het uiterlijk; WARC bewaart de bron. Dat maakt het verschil voor archivering:

  • Authentiek — de échte bytes, met kloppende checksums.
  • Doorzoekbaar — full-text door alle historische versies.
  • Open standaard — geen vendor lock-in, leesbaar door elke WARC-viewer.
  • Herafspeelbaar — de pagina komt opnieuw tot leven, links en al.

WACZ — gebundeld en deelbaar

WACZ verpakt een of meer WARC-bestanden met een index tot één pakket dat je makkelijk deelt en direct in de browser afspeelt — handig voor publieke toegang en overdracht.

Wat InnoARCHIVE ermee doet

We crawlen met Browsertrix (zodat de originele gecomprimeerde bytes behouden blijven), schrijven WARC 1.1, indexeren voor full-text search, en ondertekenen elk archief. Daarna landt het in je S3-opslag.

Bekijk websitearchivering

Klaar om grip te krijgen op je websites?

Plan een demo — we laten zien hoe InnoARCHIVE voor jouw websites werkt.