03 januari 2009

Genlias doorspitten om automatisch verbanden te leggen tussen voorouders

In genealogische databases als Genlias zit een heleboel losse brokken informatie (ruwweg 32 miljoen akten). Het is aan de stamboomonderzoekers om deze (en andere) losse brokken (uit diverse bronnen) tot één geheel te brengen en hier voor bewijzen te verzamelen om zodoende een stamboom samen te stellen. Software om grote datasets door te spitten om hier kennis uit te halen wordt data-mining genoemd. De komende 4 jaar zal er een promotieonderzoek lopen omtrent "ancestor-mining"!

Het Internationaal Instituut voor Sociale Geschiedenis (IISG) is één van de grootste documentatie- en onderzoekscentra ter wereld op het terrein van de sociale geschiedenis in het algemeen en de geschiedenis van de arbeidersbeweging in het bijzonder.  Tot 2012 zal het onderzoeksprogramma LINKS (dat subsidie toegekend heeft gekregen van het NWO programma Continuous Access to Cultural Heritage) onder leiding van Prof. dr Kees Mandemakers lopen:

LINKS beoogt een reconstructie van alle negentiende en vroeg-twintigste eeuwse families in Nederland. De basis voor deze reconstructie wordt gevormd door GENLIAS, de index op de akten van de burgerlijke stand zoals die in de openbare archieven van Nederland worden bewaard. Gedurende de laatste vijftien jaar werkten talrijke vrijwilligers aan de totstandkoming van deze index. Deze bevat niet alleen de namen van geborenen, overledenen en gehuwden maar ook die van de ouders, geboorteplaatsen, leeftijden en veelal het beroep. De beschikbaarheid van deze dataset biedt een enorm potentieel voor wetenschappelijk onderzoek, mits de individuen aan elkaar worden gelinkt tot families. Hierbij moet niet alleen gedacht worden aan de historische demografie en de sociale en economische geschiedenis maar ook aan naamkunde, epidemiologie, antropologie, historische sociologie en genetica. Vanwege de hoge mate van fuzzyness van de voor- en achternamen (als gevolg van fouten, verkeerde opgaven en inconsistenties tijdens de registratie, regionale afwijkingen, fouten bij het indexeren, etc.) is dit linken niet vanzelfsprekend. Het informatiseringdoel van LINKS is drieledig: a) de bouw van een dynamische parser die de input van GENLIAS omzet naar gestandaardiseerde eenheden, b) de bouw van nominal record linkage procedures met zelflerende capaciteiten en c) de bouw van een retrieval systeem inclusief GIS-referenties en visualisering waarmee de wetenschapper zijn benodigde data kan selecteren. Omdat de database van GENLIAS continu wordt vernieuwd en uitgebreid, voorzien we jaarlijks een nieuwe release van LINKS met familiereconstructies, niet alleen voor wetenschappers, maar ook voor de GENLIAS gemeenschap. Het project is een samenwerking tussen het IISG, het LIACS (Leiden Institute of Advanced Computer Science), het Meertens Instituut, de VKS (Virtual Knowledge Studio). Voor meer informatie zie de oorspronkelijke aanvraag.

Een zeer mooi onderzoeksprogramma! En dan gaat het niet alleen om het eindresultaat, puur het feit dat er op het vlak van informatica en genealogie/sociale geschiedenis (promotie)onderzoek plaatsvindt acht ik van grote waarde! Persoonlijk hoop ik van dit onderzoek te kunnen leren om zodoende bijvoorbeeld de matching te verbeteren die ik op Genealogie Online biedt.

Wat ik nog wel in de onderzoeksaanvraag mis:

  • open source - komt het ontwikkelde onder GPL licentie beschikbaar?;
  • API's - kunnen anderen gebruik maken van de dienst of wordt er gebruik gemaakt van API's?;
  • widgets - kan het resultaat op andere websites geplaatst worden of worden er op de LINKS site widgets mogelijk gemaakt?;
  • wisdom of crowds - maak gebruik van de kennis van het publiek om de gevonden links te valideren of zelfs aan te geven!

En ook al komt het woord evidence twee keer voor in de aanvraag, dit onderwerp (Genealogical Proof Standard) is van groot belang om het vertrouwen te winnen van stamboomonderzoekers in de lerende algoritmen.

Reacties vanuit stamboomonderzoekers zijn in ieder geval al opgetekend in het Stamboom Forum en ook Archiefforum!