Werking pre-depot

Werking pre-depot

Het pre-depotplatform voert op elke SIP die wordt opgeladen een validatie uit op basis van vooraf ingestelde parameters. Op deze pagina kan je een algemeen overzicht terugvinden over de werking van het pre-depot en hoe SIPs aangeleverd kunnen worden.

Aanleveren van SIPs

SIPs dienen aangeleverd te worden via de toegewezen S3-wachtfolder. In tegenstelling tot het standaard SIP-formaat van Digitaal Archief Vlaanderen dienen SIPs voor het pre-depot opgesteld te worden via een apart formaat met een METS-xml. Alle SIPs moeten aangeleverd worden met de bijhorende MD5 sidecar-xml. Hoe je deze SIP kan maken is te vinden op https://vo-hfb.atlassian.net/wiki/spaces/GDAV/pages/931987498

Alle scanleveranciers krijgen een eigen S3-watchfolder toegewezen waar ze de SIPs voor verschillende klanten en verschillende projecten kunnen aanleveren.

Het pre-depot verwijdert de bestanden op de S3-watchfolder onmiddellijk na een gefaalde of succesvolle validatie. Hou zelf altijd nog een kopie bij.

Validatiestappen pre-depot

Het pre-depot kijkt periodiek de watchfolders na of er SIPS zijn aangeleverd met bijhorende MD5 Sidecar-XML. Indien de sidecar niet aanwezig is, zal het pre-depot de SIP niet behandelen.

Hieronder zijn alle validatiestappen die het pre-depot uitvoert in volgorde beschreven. Gezien het pre-depot na een gefaalde validatie de SIP niet verder behandelt, kan het zijn dat er nog andere fouten aanwezig zijn.

Voor elke fout wordt de betrokken file en de reden vermeld. Voor validaties met verdere informatie zoals de XSD-validatie wordt ook de exacte error getoond.

 

  • File name format incorrect: De SIP of sidecar voldoen niet aan de vereiste naamstructuur.

    • Verwacht: <Serie ID>-<Titel>.zip & <Serie ID>-<Titel>.xml

  • Illegal file type: Een niet toegestaan bestandstype is gevonden in de S3-watchfolder

    • Verwacht: .zip & .xml

  • Malformed checksum file: De structuur van de MD5-sidecar is niet valide

  • Malformed metadata file: De structuur van de METS.xml is niet valide

  • Invalid checksum metadata file: De checksum in de MD5-sidecar komt niet overeen met de berekende checksum van de SIP

  • Invalid checksum content file: De checksum van een van de bestanden in de SIP komt niet overeen met de checksum in de METS-xml.  

  • File reference not included in SIP: Er wordt een bestand vernoemd in de METS-xml dat niet aanwezig is in de SIP.

  • Unreferenced files found: Er is een file in de SIP aanwezig dat niet wordt vernoemd in de METS-xml.

  • Multiple or no xml in SIP: er zijn geen of meerdere XML-bestanden gevonden in de SIP.

    • Verwacht: 1 xml per SIP.

  • XSD checks failed: De structuur van de METS-xml voldoet niet aan het bijhorende xsd bestand.

    • De specifieke fouten in de xml worden gelogd

  • Invalid Client data: De klantengegevens zijn niet correct. Dit kan zijn doordat de klant niet gekend is in de database, of doordat de gegevens niet met elkaar overeenkomen. Bijvoorbeeld een verkeerde OVO-code

  • Invalid Project data: De data over het scanproject is niet volledig of niet correct.

    • Verwacht:

      • ScanprojectID = een UUIDv4

      • Scanprojectdata is aanwezig

  • Multiple Dossiers in Mets: Er zijn meerdere dossiers beschreven in de METS-xml

Indien alle validaties succesvol zijn, wordt de SIP opgeladen naar het e-depot.

Validatiestappen e-depot

Na een succesvolle validatie door het pre-depot, voert het e-depot ook nog enkele validaties uit. Nadien wordt het ter manuele controle voorgelegd aan de informatiebeheerder die nog een visuele validatie uitvoert.

Indien 1 van de bestanden de validatie faalt, wordt heel het dossier geweigerd en dien je het dossier in zijn volledigheid opnieuw op te laden.

Bestandsformaatvalidatie

Het e-depot voert op TIFF en PDF-bestanden nog validaties uit om te controleren of deze bestanden conform zijn met de voorgeschreven specificaties tot op bitniveau.

TIFF - JHOVE

TIFF-bestanden worden gevalideerd aan de hand van JHOVE tegenover de specificaties van een Baseline TIFF 6.0. Indien een opgeladen TIFF afwijkt van deze specificaties zal het bestand - en bijgevolg heel het dossier - geweigerd worden.

Meer informatie over JHOVE is te vinden op https://jhove.openpreservation.org/

PDF - VeraPDF

PDF-bestanden worden gevalideerd aan de hand van VeraPDF tegenover de specificaties van PDF/A-1a. Indien een opgeladen PDF afwijkt van deze specificaties zal het bestand - en bijgevolg heel het dossier - geweigerd worden.

Meer informatie over VeraPDF is te vinden op VeraPDF

Visuele validatie door de informatiebeheerder

In het e-depot kan de informatiebeheerder er voor kiezen om nog een visuele validatie van de aangeleverde scans uit te voeren. De informatiebeheerder heeft na het beoordelen 2 opties:

  • Goedkeuren: de inhoud van de SIP wordt opgenomen in het e-depot en verder verwerkt voor langetermijnbewaring.

  • Afkeuren: de SIP wordt verwijderd en een melding wordt verstuuurd vanuit het pre-depot met de reden van weigering die de informatiebeheerder heeft opgegegeven.