Websitearchivering — automatisch, juridisch geldig, open standaard.

Wij crawlen je websites én social media (Facebook, Instagram, Mastodon, Bluesky) volgens schema, slaan op in WARC, genereren digitale handtekeningen en bewaren ze in S3 — standaard onze EU-opslag, of je eigen bucket. Voldoe aan archiverings- en retentie-eisen — of het nu de Archiefwet, sectorale regels of interne governance betreft.

Archieven · gemeente-voorbeeld.nl
52 archieven · 60,2 GB
Volgende: vrijdag 04:00
Wekelijks · Browsertrix · max diepte 3 · JavaScript aan
DatumPagina'sGrootteStatus
14 mei 20264871.42 GBklaar
07 mei 20264821.39 GBklaar
30 apr 20264791.38 GBklaar
23 apr 20264711.35 GBklaar
Hoe het werkt

Van eerste crawl tot juridisch bewijs in vier stappen.

01

Configureer

Stel een workflow in: frequentie, scope, diepte, JavaScript-ondersteuning.

02

Crawl

Onze multi-worker crawler bezoekt elke pagina en bewaart in WARC.

03

Signeer

Elk archief krijgt een digitale handtekening — juridisch bewijs.

04

Bewaar

Opslag in je eigen S3-bucket, incrementeel en doorzoekbaar.

Social media archivering

Niet alleen je website — ook je social media.

Berichten verdwijnen, accounts wijzigen en platforms komen en gaan. Daarom archiveren we ook je social-mediakanalen — in hetzelfde WARC-formaat, ondertekend en volledig doorzoekbaar.

Facebook

Pagina's, posts, reacties en gedeelde media.

Instagram

Posts, reels, stories en bijschriften.

Mastodon

Toots, threads en media uit de fediverse.

Bluesky

Posts, threads en media van je AT-protocol-feed.

Op schema of na elke post
Leg kanalen periodiek vast of trigger een archivering on-demand — via dezelfde workflows als je websites.
Ondertekend & onweerlegbaar
Elk social-archief krijgt dezelfde digitale handtekening en RFC 3161-tijdstempel als je website-archieven.
Doorzoekbaar bewaard
Posts, reacties en media worden geïndexeerd en blijven herleidbaar — ook als het origineel verdwijnt.
Crawl-workflows

Eén workflow per website, volledig naar jouw hand.

Je stelt per website precies in wát er wordt gearchiveerd en wanneer. InnoARCHIVE draait de crawl daarna automatisch volgens schema — geen handwerk.

  • Periodiek per uur, dag, week, maand of jaar — of automatisch via een API-call ná elke wijziging.
  • Bepaal scope, maximale diepte en include-/exclude-paden.
  • Twee crawlers per workflow: snel-statisch of volledige JavaScript.
  • Na de crawl: tekst wordt geïndexeerd voor volledige zoek, daarna naar S3.
Workflow-configuratie
FrequentieUur · dag · week · maand · jaar
Of triggerAPI-call na wijziging
ScopeHele site · diepte 10
Uitsluiten/zoeken/*
CrawlerBrowsertrix
JS-renderingAan

Statische crawler

Razendsnel voor reguliere sites (HTML, WordPress, Drupal). Crawlt de HTML en detecteert resources.

~5 sec / 6 pagina's · lichte belasting

Browsertrix

Aanbevolen

Headless Chromium met volledige JavaScript-uitvoering, voor SPA's en dynamische sites. De professionele standaard, ook gebruikt door bibliotheken.

Originele compressie behouden · WARC 1.1

Authentiek vastgelegd — de originele bytes

Webserver
levert gzip/brotli
warcprox-proxy
vangt rauwe bytes → WARC
Headless Chromium
rendert JavaScript

Browsers decomprimeren responses vóórdat code ze ziet. Onze HTTP-proxy onderschept het verkeer dáárvoor, zodat de WARC de échte gecomprimeerde bytes en de originele Content-Encoding bevat — met kloppende checksums. Precies zoals het Internet Archive en nationale bibliotheken archiveren.

manifest.json GPG-ondertekend
crawl#1284 · 682 pagina's
watsha256 · sha512
wanneerRFC 3161-tijdstempel
gesigneerdGPG · OpenTimestamps
Digitale ondertekening

Een verzegeld manifest — met tijd-codesleutels.

Na elke crawl genereren we automatisch een manifest met cryptografische vingerafdrukken van álle bestanden, ondertekend en voorzien van een tijdstempel.

  • SHA-256 én SHA-512 checksum over het WARC-bestand en de zoekdata.
  • GPG/PGP-handtekening (manifest.json.sig), te verifiëren met je public key.
  • Tijd-codesleutels koppelen wanneer (RFC 3161-tijdstempel), wat (checksums) en wie (handtekening) onlosmakelijk vast.
  • Extern verankerd via OpenTimestamps — niemand kan het verleden ongemerkt herschrijven.
Authenticiteitscontrole

Op elk moment bewijzen dat niets is gewijzigd.

Een validatie herberekent de checksums van het opgeslagen archief en vergelijkt ze met het verzegelde manifest. Eén afwijkende byte en je weet het.

  • WARC 1.1-conformiteit gecontroleerd (warcio, ISO 28500:2017).
  • Checksums herberekend en vergeleken met het manifest.
  • GPG-handtekening geverifieerd tegen je public key.
  • RFC 3161-tijdstempel en OpenTimestamps-verankering gecontroleerd.
Integriteitscontrole Ongewijzigd
WARC 1.1-conformiteit
Manifest aanwezig & geverifieerd
Checksums (SHA-256/512)
GPG-handtekening
Tijdstempel & verankering
Standaard · Scaleway (EU)automatisch
Per organisatie maken én configureren we automatisch een S3-opslag via onze huisleverancier.
Extra · jouw eigen S3
Koppel een tweede bestemming — ook je eigen bucket — zodat je altijd zelf een back-up hebt.
Scaleway (EU)AWS S3MinIOeigen bucket
Opslag

Opslag die we standaard voor je regelen.

Je hoeft niets te regelen: standaard maken we per organisatie automatisch een S3-opslag aan in de EU. Wil je een eigen kopie? Koppel je eigen S3 erbij.

  • Standaard automatisch een S3-bucket per organisatie via onze huisleverancier — nu Scaleway (EU).
  • Volledig door ons ingesteld; geen configuratie aan jouw kant.
  • Koppel extra S3-opslag, inclusief je eigen bucket — altijd je eigen back-up.
  • Incrementeel: alleen wijzigingen tellen mee; originele compressie blijft behouden.
Overdracht & e-depot

Co-ondertekend overdragen aan je e-depot.

Bij overdracht naar een e-depot tekent jouw organisatie zélf mee. Naast onze handtekening (bewaarder) staat die van jou (eigenaar) over hetzelfde manifest — wij kunnen niets eenzijdig wijzigen of overdragen.

  • Dual-control: jij genereert een eigen sleutelpaar en houdt de private sleutel — wij krijgen alleen de publieke.
  • Co-ondertekening verplicht vóór overdracht: zonder jouw handtekening geen overdracht (een veto).
  • Onweerlegbaar: onze handtekening + jouw co-handtekening + RFC 3161-tijdstempel + OpenTimestamps.
  • MDTO-metadata meegeleverd: het overdrachtspakket bevat metagegevens volgens de MDTO-standaard (Metagegevens voor Duurzaam Toegankelijke Overheidsinformatie) — de opvolger van TMLO.
  • Verwijderen blijft mogelijk: AVG-wissing of takedown is een apart, gelogd en getekend feit (governed deletion).
Overdracht naar e-depot Vrijgegeven
Bewaarder · InnoARCHIVE — getekend
Eigenaar · jouw organisatie — co-getekend
RFC 3161-tijdstempel + OpenTimestamps
MDTO-metadata meegeleverd
Verwijderen blijft mogelijk en wordt apart gelogd en getekend (AVG-wissing).
Alles wat je nodig hebt

Voor archivarissen, communicatie-teams én IT.

Niet één feature van compromis. Volledige controle over crawls, opslag, toegang en rapportage.

Crawlworkflows
Configureer elke website apart: cron-expressies, max diepte, includes/excludes, JavaScript-rendering met Browsertrix.
WARC + WACZ export
Open archief-standaarden. Download bestanden of integreer met externe systemen via REST API.
Volledige tekstzoek
Doorzoek alle historische versies van al je websites in seconden.
Digitale handtekening
Elk archief wordt automatisch ondertekend voor juridisch bewijs.
Incrementele opslag
Alleen wijzigingen tellen mee voor opslagkosten — efficiënt en betaalbaar.
Importeren
Bestaande WARC-bestanden uit andere systemen importeren? Geen probleem.
Standaard EU-opslag + eigen S3
Standaard maken we per organisatie automatisch een S3-opslag aan (Scaleway, EU). Koppel daarnaast je eigen bucket als extra back-up.
Publieke archief-URL's
Deel een specifiek archief met een publieke URL — met of zonder wachtwoord.
Technisch

Voor je technische team.

STACK
pywb · Browsertrix · WARC 1.1
METADATA
MDTO · Nationaal Archief
OPSLAG
Scaleway (EU) standaard · eigen S3 mogelijk
INTEGRATIE
REST API + Webhooks
CMS-PLUGINS
WordPress · Drupal · TYPO3
AUTHENTICATIE
SAML · OIDC · 2FA optioneel
HOSTING
EU (NL) · on-premise (Enterprise)

Klaar om grip te krijgen op je websites?

Plan een demo — we laten zien hoe InnoARCHIVE voor jouw websites werkt.