19 maart 2012

Wat zou jij doen met de genealogische data van een heel archief?

Stel je eens voor: je krijgt een groot deel van de genealogische data van het Brabant Historisch Informatie Centrum (BHIC) ter beschikking. Wat zou je er dan mee doen? Wat voor toepassing kan er gemaakt worden? Welke type vragen zie je graag beantwoord?

opendata

Open data

Het vrijelijk beschikbaar stellen van data voor hergebruik, bij voorkeur in een standaard formaat, wordt ook wel open data genoemd. Het zet de deur open naar nieuwe toepassingen, die de instelling (die de open data biedt) niet zelf hoeft te verzinnen, te realiseren en te bekostigen, maar waar de open data “hergebruiker” mee aan de slag kan om leuke, innovatieve en/of nuttige toepassingen van te maken.

Archiefdata achter betaalmuur of open?

De inventarissen van archieven en indexen op bronmateriaal zijn goede kandidaten om beschikbaar te stellen als open data. Veel van deze data is tot stand gekomen door archivarissen en vrijwilligers, op basis van geld van de overheid. Geld vragen voor deze overheidsinformatie is niet gepast. Maar geld vragen voor de scans is daarentegen wel redelijk. Zo kun je je voorstellen dat websites of mobiele apps die gebruik maken van deze open index data voor extra bezoekers aan de website van het archief zorgen die daar dan scans kopen. Dit extra geld kan weer in digitalisering gestopt worden!

Alhoewel er een frisse open data wind door Nederland waait, zie ook http://data.overheid.nl/, is de archiefsector nog wat huiverig. Er wordt wellicht meer in bedreigingen gedacht dan kansen. Ik zeg: mouwen opstropen en gewoon doen!

BHIC en ik aan het experimenteren

Als experiment heeft het BHIC mij toegang gegeven tot de data van de DTB, Burgerlijke Stand en Memories van Successie. Het is voor het BHIC een experiment om te kijken wat er bij open data komt kijken en wat het op zou kunnen leveren.

Christian van der Ven (BHIC) heeft hier vandaag ook op zijn blog De Digitale Archivaris.

Het verkrijgen van de data duurde een uur of vijf en leverde mij zo’n 1,7 GB aan XML data op. Ik heb nu dan ook de genealogische data van het BHIC! Tja, en wat moet je daar nu mee…?

Op zich zou ik nu dezelfde zoek/presentatie functionaliteit kunnen bieden als het BHIC doet. Maar daar schieten we niets mee op. De toepassingen van deze open data liggen elders.

Statistieken en visualisatie

Een eerste toepassingsgebied is om de data op diverse manieren te visualiseren. In een tweetal Proof-of-Concepts heb ik de BHIC data op verschillende manieren gepresenteerd.

treemapBij de eerste visualisatie wordt er inzichtelijk gemaakt wat voor type data van welke plaats en jaar er beschikbaar is. De treemap biedt de mogelijkheid om in te zoomen op een lager detail niveau.

Bij een tweede set van visualisaties is de data van dopen en geboorten bij de kop gepakt. Hier kun je dan een top 10 lijstje maken van familienamen of voornamen, per plaats (op Google Maps) of jaar. Of je kunt in grafiekvorm zetten hoeveel voornamen men in de loop van de tijd aan hun kinderen gaf (ik wist niet dat meerdere voornamen iets was dat pas tussen 1850 en 1900 een vlucht nam). Het aantal geboorten/dopen per maand door de jaren is in een bewegende grafiek weer te gaven (vooral leuk, maar nuttig?). De informatie in de dataset omtrent beroepen was niet heel uitgebreid, maar toch genoeg om er een tagcloud van te maken zodat je de belangrijkste beroepen in Brabant in één oogopslag ziet.

map

Het visualiseren van open data kan nieuwe inzichten opleveren, trends signaleren of vragen oproepen (waarom zijn er die maand zo veel mensen overleden?).

    Combineren

    Je kunt de open data ook combineren met andere (open) data. Denk dan bijvoorbeeld aan de genealogische gegevens op Genealogie Online, als je die “matched” met de data van een archief dan kan ik de stamboomonderzoeker direct verwijzen naar akten (en scans) die het archief ter beschikking stelt. Dit borduurt dus verder op de Scans zoeken service van Genealogie Online.

    Een andere leuke dataset om mee te combineren zijn de “Antieke reeksen” van het KNMI. Hiermee zou je kunnen bekijken of er een samenhang is tussen de gemiddelde temperatuur of luchtdruk en het aantal geboorten of begrafenissen.

    Functionaliteit

    Het bedenken van innovatieve toepassingen op basis van open data is uitdagend. Vanuit mijn achtergrond denk ik dan snel aan Monitor functionaliteit (een seintje als het BHIC nieuwe data heeft betreffende een bepaalde familienaam) of “vertaal” functionaliteit (de data in GEDCOM, Excel of PDF).

    Inspiratie

    Wat zou jij doen met de data van een archief? Heb je bepaalde zoekvragen die op dit moment niet beantwoord kunnen worden via de zoekmogelijkheden van een archiefinstelling? Of ben je benieuwd welke trends er uit de genealogische data te halen is? Zou je de data wel eens willen combineren met andere data sets die openbaar beschikbaar zijn?

    Graag hoor ik via reacties op deze blogposting jullie ideeën hoe we open archiefdata zouden kunnen hergebruiken!