09 januari 2014

Van scan naar rijk informatie object

imageVeel archiefinstellingen bieden via hun website scans aan van akten. Aan de aflevering van deze gratis of betaalde scans wordt helaas geen aandacht besteed. Terwijl dit zo eenvoudig is te realiseren en zo waardevol is voor de ontvanger.

Mijn droom

Laat ik u meenemen in mijn droom hoe scans afgeleverd zouden kunnen worden.

De downloadlink op de archiefwebsite levert mij een gecomprimeerd (ZIP) bestand op. Als ik dubbelklik op dit bestand om de inhoud te bekijken wordt ik blij verrast.

Het ZIP bestand bevat een drietal bestanden, een JPG (de scan), een HTML bestand website en een GEDCOM bestand, allen met dezelfde naam. Spannend!

image

De scan

De naam van de bestanden is niet zo belangrijk, want in één oogopslag zie ik de document eigenschappen van de scan (ook wel meta-data genoemd, oftewel informatie over het bestand).

Ik zie gelijk dat het de scan betreft van de huwelijksakte van Joannes Coret en Adriana Catharina de Hoogh, afkomstig van het Regionaal Archief Tilburg. Deze informatie zit in de scan (het JPG bestand) verwerkt. Als ik het bestand dus deel met iemand anders, of zelf later het bestand wil terugzoeken, dan is de informatie nog steeds beschikbaar.

Het HTML bestand

Als ik op het 2e bestand klik, het HTML bestand, dan wordt mijn browser geopend en zie ik alle informatie van de akte, zoals dat ook op de website van het Regionaal Archief Tilburg stond bij deze akte.

De meeste onderzoekers zullen de informatie verwerken in het stamboomprogramma of publicatie in tekstverwerker. Het HTML bestand bevat ook een bronvermelding van de akte die zo gebruikt kan worden en een link naar archiefwebsite.

Het GEDCOM bestand

Het derde bestand bevat alle informatie die ook is te lezen in het HTML bestand, maar dan in het GEDCOM formaat dat door mijn stamboom- programma wordt begrepen. In één keer heb ik de informatie uit de akte in mijn stamboom-programma, inclusief nette bronvermelding!

Scan

Wat een mooi cadeau!

We zijn de gegaan van een ‘kale’ scan (die je moet inzien om te kijken wat het ook al weer was, en dan maar hopen dat je je aantekeningen hiervan nog kunt vinden of de originele website, en die je later nooit goed kunt terug vinden), naar een rijk informatie object.

Doordat de meta-data in de scan is verwerkt kan ik heel makkelijk de scan identificeren en zoeken. Ik hoef bestanden niet meer te hernoemen of te rubriceren in mapjes. Wil ik bijvoorbeeld de BS Huwelijksakten vinden dan kan ik deze via de Windows Verkenner met de zoekopdracht “labels:BSH” eenvoudig terugvinden.

Alle informatie staat in het HTML bestand, die heb ik dus ook later nog (zonder dat ik weer naar de archiefwebsite hoef te gaan) ter beschikking. Het verwerken van (een deel) van de informatie in mijn stamboomprogramma is door het valide GEDCOM bestand een fluitje van een cent.

Een technische uitdaging?

Techniek staat bovenstaande droom niet in de weg. Documenteigenschappen zijn een standaard functie van Windows. Niet alle bestanden kunnen extra informatie in zich bergen, maar bestanden als JPG (in EXIF formaat) en PDF bijvoorbeeld wel. De zoekfunctie van Windows kijkt ook in de documenteigenschappen.

Qua documenteigenschappen van scans stel ik het volgende voor:

  • Titel: type akte, datum en plaatsnaam
  • Onderwerp: hoofdpersonen in akte
  • Auteurs: naam van de archiefinstelling
  • Opmerkingen: (p)url van de akte
  • Labels: afkorting type akte, plaatsnaam

image

Alle informatie die wordt geboden is beschikbaar in het archiefsysteem (want wordt op de website getoond). De ‘download scan’ functie hoeft alleen maar de extra informatie in het JPG bestand erbij te zetten, de akte informatie in een HTML bestand te plaatsen, de akte informatie te vertalen naar GEDCOM en deze drie bestanden te comprimeren tot één ZIP bestand dat ‘met een strik’ afgeleverd kan worden.

Als ik dan om één ding mag vragen…

Bovenstaande droom hoeft niet gelijk volgende week volledig gerealiseerd te worden door de (leveranciers van de) archiefinstellingen. Maar ik hoop dat de archiefinstellingen de waarde van meta-data inzien en de meta-data in JPG (en PDF) bestanden gaan verwerken!