11 januari 2010

Inzicht halen uit een bak met genealogische gegevens

Als je veel gegevens hebt kun je door middel van data-mining en statistische programmatuur nieuw inzicht krijgen. Een goed voorbeeld op het genealogische vlak is het LINKS project van het IISG waar ik vorig jaar al over schreef.

LINKS beoogt een reconstructie van alle negentiende en vroeg-twintigste eeuwse families in Nederland. De basis voor deze reconstructie wordt gevormd door GENLIAS.

Voornaam distributie grafiek

Deze week presenteerde het Franse Geneanet een nieuwe functionaliteit De verspreiding van mijn voornaam ! Op basis van een voornaam wordt een grafiek getoond met het (procentuele) voorkomen van de betreffende naam per jaar in de door stamboomonderzoekers aangedragen (geboorte)gegevens. Hieronder ziet u een voorbeeld van de naam Maria:

voornaam-maria

Bij het zien van deze grafiek viel bij mij het kwartje: met (op dit moment) ruimt 8,6 miljoen voorouders op Genealogie Online heb ik ook de beschikking over een grote bak met gegevens waar je nieuwe inzichten uit kunt halen!

Hoe tellen?!

Een voornaam distributie grafiek van de (geboorte)data van Genealogie Online was redelijk snel gemaakt. De data hierop voorbereiden duurde iets langer, zeker omdat het om veel gegevens gaat waarvan de kwaliteit niet altijd 100% is...

voornaam-maria-go

Dat de opzet en interpretatie van statistiek erg lastig is laten de bovenstaande twee grafieken wel zien. Waar bij de gegevens van Geneanet de naam Maria rond 1900 op 3% zat van alle geborenen komt deze bij Genealogie Online richting de 10%.

Zijn beide berekeningsmethodieken gelijk? De cijfers betreffende het voorkomen van Maria in de 5 miljoen personen waarvan een geboortejaar bekend is op Genealogie Online heb ik ook handmatig gecontroleerd. Wat zou het verschil verklaren? Bij Genealogie Online wordt bijvoorbeeld ook meneer Franciscus Gerardus Maria Boekel meegeteld als een persoon met de naam Maria, is dit ook zo bij Geneanet (die ook nog aangeeft dat het een vrouwelijke naam is, hetgeen dus niet geheel correct is)? Op de hulppagina geeft Geneanet aan dat

de meest voorkomende vrouwelijke voornaam Maria 15% aanwezig in alle voornamen half de XVIIIde eeuw
Volgens het Meertens Instituut komt de naam Maria in Nederland (Geneanet en Genealogie Online beperken zich niet tot Nederland) zo’n 388.608 keer voor (van de 16 miljoen ingezeten, zo’n 2,5%).

meertens Lastige materie dus…

Welk inzicht?

Toch ben ik geïntrigeerd geraakt! Een grote bak met gegevens… welk inzicht zou hieruit te halen zijn?

Heeft u ideeën?