WARC (Web ARChive) is de internationale open standaard om websites volledig en herleidbaar te bewaren — vastgelegd als ISO 28500.
Een WARC-bestand bundelt alle HTTP-requests en -responses van een crawl — HTML, afbeeldingen, stylesheets en scripts — inclusief de originele headers. Niet een plaatje van hoe een pagina eruitzag, maar exact wát de server verstuurde.
Een screenshot bevriest het uiterlijk; WARC bewaart de bron. Dat maakt het verschil voor archivering:
WACZ verpakt een of meer WARC-bestanden met een index tot één pakket dat je makkelijk deelt en direct in de browser afspeelt — handig voor publieke toegang en overdracht.
We crawlen met Browsertrix (zodat de originele gecomprimeerde bytes behouden blijven), schrijven WARC 1.1, indexeren voor full-text search, en ondertekenen elk archief. Daarna landt het in je S3-opslag.