24 juni 2013

Informatie verbinden en verrijken, voorbeelden van open data gebruik

Stamboomonderzoek draait om personen, de familierelaties en familiegeschiedenis. Het doel van Genealogie Online is om deze informatie op Internet te publiceren. Genealogen kunnen op een eenvoudige manier het resultaat van hun (lopende) onderzoek laten zien aan anderen. Ook krijgen ze op deze manier feedback en meer inzicht. Voor dit laatste wordt de genealogische informatie verbonden met andere databronnen. Dit artikel beschrijft het gebruik van open data om de genealogische gegevens in context te plaatsen.

Open linked data

Open data is volgens het Open Data Handboek:

…data die vrij gebruikt kan worden, hergebruikt kan worden en opnieuw verspreid kan worden door iedereen - onderworpen enkel, in het uiterste geval, aan de eis tot het toeschrijven en gelijk delen.

Steeds meer organisaties maken de informatie die zij hebben beschikbaar als open data. Organisaties als Wikipedia en KNMI deden dit al, maar steeds meer organisaties volgen. Zelfs de Europese Unie heeft open data geadopteerd! Door dit initiatief ontstaan er ook veel nieuwe kansen, zoals mogelijkheden om nieuwe websites of mobiele apps te maken.

Met “linked data” wordt de eigenschap beschreven dat de data aan elkaar gerelateerd kan worden. Als je data aan elkaar kan linken wordt het helemaal leuk! Op Genealogie Online wordt er op basis van drie elementen informatie aan elkaar geknoopt:

  • de familienaam
  • de datum
  • de plaats

Over de familienaam

Bij stamboomonderzoek komen verschillende familienamen voor. Genealogie Online ondersteunt de genealoog hierin met de Over de familienaam pagina, zie bijvoorbeeld de Over de familie Hollestelle pagina.

Deels bestaat deze pagina uit informatie die Genealogie Online put uit alle gepubliceerde gegevensverzamelingen. Deels zijn het links naar websites met meer informatie over de betreffende naam, zoals genealogen die de betreffende familienaam (onder)zoeken.

Familienamen kunnen op verschillende manieren geschreven worden, vooral als je dit over de eeuwen heen bekijkt. De open data bron die hierbij kan helpen is afkomstig van het Zeeuws Archief (in de persoon van Leo Hollestelle): een lijst met schrijfvarianten per familienaam. Ik heb deze bron ook opgenomen in de presentatie Geef mij uw data – alstublieft die ik voor archivarissen gaf, om aan te geven dat ook dit soort ogenschijnlijke eenvoudige lijstjes voor andere van grote waarden kan zijn! Genealogie Online gebruikt die op de Over de familienaam pagina’s en in de zoekmachine.

Over de dag

Een ander element waar informatie over verzameld kan worden is een datum/jaartal. Genealogie Online toonde al langer - op basis van datum van geboorte, huwelijk of overlijden – informatie uit Wikipedia. Zoals informatie over de regering, het koningshuis en andere historische gebeurtenissen. Deze informatie wordt nu ook op de Over de dag pagina’s getoond.

Het KNMI levert via haar website historische daggevens die terug gaan tot terug gaan tot 1701. Zo kan er bijvoorbeeld bij een huwelijk van voorouders worden aangegeven wat voor weer het was!

Onlangs zijn er twee nieuwe bronnen toegevoegd om een beeld te geven van het tijdsgewricht: kunst uit het Rijksmuseum en het Polygoon journaal.

Het Rijksmuseum stelt informatie over hun kunst als open data beschikbaar. Naast veel meta-informatie kun je ook de beelden bekijken. Zo kan er bijvoorbeeld getoond worden welke kunst werd gemaakt in 1880.

image Bron: Rijksmuseum, schilderij Willem Roelofs gemaakt in 1880

Open Beelden is een open mediaplatform die toegang biedt tot audiovisuele collectie die hergebruikt mogen worden. Zo biedt Open Beelden ook de Polygoon journaals aan. Op basis van een datum kan er nu (ongeveer) het bijbehorende Polygoon journaal getoond worden, zie bijvoorbeeld Over de dag dinsdag 4 maart 1941.

Over de plaats

Een derde element dat voorkomt in genealogische data zijn plaatsnamen. Genealogie Online maakt gebruikt van een open data set van internationale geografische informatie die wordt geleverd door Geonames.

Zoals beschreven in Genealogie en plaatsnamen wordt deze dataset onder andere gebruikt om de plaatsnamen te controleren: zijn de plaatsnamen door de stamboomonderzoeker goed (en uniek genoeg) geschreven? Als de plaatsnaam uniek is geïdentificeerd dan biedt Geonames ook gegevens als lengte- en breedtegraad en links naar Wikipedia.

Deze informatie wordt gebruikt op de Over de plaats pagina’s, zie bijvoorbeeld de Over de plaats Gouda pagina. Op basis van de identificerende Geonames ID kan er (via DBpedia) een beschrijvende tekst en foto opgehaald worden die gepresenteerd kan worden.

File:Gouda vanuit de lucht.jpg Bron: Wikipedia Commons, pagina Gouda

Genealogie Online probeert, met hulp van haar gebruikers, ook links te leggen naar archieven. Een andere mooie open data bron is de Archief Wiki. Door de plaatsnamen die vallen onder het werkgebied van een bepaald archief te koppelen (op basis van de Geonames ID’s) kan de stamboomonderzoeker bij een plaatsnaam verteld worden bij welke archiefinstelling hij/zij moet zijn voor broninformatie.

Een andere mooie bron die op de Over de plaats pagina’s wordt getoond is afkomstig van rijksmonumenten.info die op hun beurt weer informatie aggregeert van de Rijksdienst voor het Cultureel Erfgoed, Wikipedia en Flickr. Deze dataset is onder andere doorzoekbaar op breedte- en lengtegraad. Het resultaat: afbeeldingen van rijksmonumenten uit die buurt!

Open data, nieuwe mogelijkheden en inzichten

Dit artikel geeft enkele voorbeelden van hoe Genealogie Online gebruik maakt van open data om context te bieden aan stamboomonderzoekers.

Het mooie is, dat we pas aan het begin staan van de open data beweging. Hoe meer organisaties, waaronder archieven (zoals trendsetter Archief Leiden), hun data open beschikbaar stellen, hoe meer mogelijkheden er ontstaan. Dit alles moet passen binnen kaders als auteursrecht en privacy en ook ondersteund worden door de gebruikte IT systemen, maar dat zijn maar kleine drempels.

Open data kan leiden tot meer inzicht, nieuwe functionaliteiten, meer bedrijvigheid!