Als je veel gegevens hebt kun je door middel van data-mining en statistische programmatuur nieuw inzicht krijgen. Een goed voorbeeld op het genealogische vlak is het LINKS project van het IISG waar ik vorig jaar al over schreef.
LINKS beoogt een reconstructie van alle negentiende en vroeg-twintigste eeuwse families in Nederland. De basis voor deze reconstructie wordt gevormd door GENLIAS.
Voornaam distributie grafiek Deze week presenteerde het Franse Geneanet een nieuwe functionaliteit De verspreiding van mijn voornaam ! Op basis van een voornaam wordt een grafiek getoond met het (procentuele) voorkomen van de betreffende naam per jaar in de door stamboomonderzoekers aangedragen (geboorte)gegevens. Hieronder ziet u een voorbeeld van de naam Maria: Bij het zien van deze grafiek viel bij mij het kwartje: met (op dit moment) ruimt 8,6 miljoen voorouders op Genealogie Online heb ik ook de beschikking over een grote bak met gegevens waar je nieuwe inzichten uit kunt halen! Hoe tellen?! Een voornaam distributie grafiek van de (geboorte)data van Genealogie Online was redelijk snel gemaakt. De data hierop voorbereiden duurde iets langer, zeker omdat het om veel gegevens gaat waarvan de kwaliteit niet altijd 100% is… Dat de opzet en interpretatie van statistiek erg lastig is laten de bovenstaande twee grafieken wel zien. Waar bij de gegevens van Geneanet de naam Maria rond 1900 op 3% zat van alle geborenen komt deze bij Genealogie Online richting de 10%. Zijn beide berekeningsmethodieken gelijk? De cijfers betreffende het voorkomen van Maria in de 5 miljoen personen waarvan een geboortejaar bekend is op Genealogie Online heb ik ook handmatig gecontroleerd. Wat zou het verschil verklaren? Bij Genealogie Online wordt bijvoorbeeld ook meneer Franciscus Gerardus Maria Boekel meegeteld als een persoon met de naam Maria, is dit ook zo bij Geneanet (die ook nog aangeeft dat het een vrouwelijke naam is, hetgeen dus niet geheel correct is)? Op de hulppagina geeft Geneanet aan dat
de meest voorkomende vrouwelijke voornaam Maria 15% aanwezig in alle voornamen half de XVIIIde eeuw
Volgens het Meertens Instituut komt de naam Maria in Nederland (Geneanet en Genealogie Online beperken zich niet tot Nederland) zo’n 388.608 keer voor (van de 16 miljoen ingezeten, zo’n 2,5%). Lastige materie dus… Welk inzicht? Toch ben ik geïntrigeerd geraakt! Een grote bak met gegevens… welk inzicht zou hieruit te halen zijn? Heeft u ideeën?
Bob,
wat dacht je van migratiestromen op basis van geboorteplaats-huwelijksplaats-overlijdensplaats en dat uitgezet als verbindingslijnen tussen de plaatsen met de breedte van de lijn als indicator voor het aantal aangetroffen migraties ?
Jules Lauwerier
Is het verschil tussen de 3% en de 10% niet te verklaren door het feit dat Genealogie Online vooral nederlandse gebruikers heeft en Geneanet gebruikers heeft uit meerdere landen, waarschijnlijk vooral Frankrijk?
Vergelijk de percentages voor Marie en Maria, of Jean en Jan maar eens op Geneanet.
Genealogie Online beperkt zich dan misschien niet actief tot Nederland, maar de site is alleen beschikbaar in het Nederlands!