31 maart 2013

Genealogie en plaatsnamen

Bron: http://upload.wikimedia.org/wikipedia/commons/thumb/f/f3/Emblem-earth.svg/220px-Emblem-earth.svg.pngGenealogische gegevens bevatten veel plaatsnamen. In deze plaatsnamen kunnen fouten sluipen of onvolledig worden genoteerd waardoor de juiste plaats niet meer eenduidig bepaald kan worden. Tijd om aandacht te geven aan de kwaliteit van de plaatsnamen in genealogische publicaties!

Eenduidig bepalen van de plaatsnaam

Stel, één van uw voorouders is overleden in Heikant. Naar welk archief moet u dan voor meer gegevens over deze persoon?

U zult eerst opzoeken waar Heikant ligt en verrast zijn, want er zijn in Nederland zo’n 25 plaatsen die Heikant heten (of hebben geheten) en nog eens 20 plaatsen in België. Het is dus van groot belang om bij plaatsnamen ook de provincie te vermelden. Dus Heikant in Limburg, Gelderland, Zeeland of Noord-Brabant? In dit voorbeeld weet u met de toevoeging van Noord-Brabant nog niet eenduidig welke plaats er wordt bedoeld, want er zijn 22 Heikants in Noord-Brabant ...

image

Het vermelden van de provincie, (huidige) gemeentenaam en wellicht de geografische coördinaten helpen om de plaatsnaam eenduidig te bepalen. Hierdoor weet u zelf precies om welke plaats het gaat, maar ook diegenen die uw genealogische publicatie bekijken of waarmee u gegevens uitwisselt!

Naast het vermelden van provincie en gemeentenaam is ook het vermelden van het land aan te raden. Want bij Delft denken we bijvoorbeeld al snel aan de plaats in Zuid-Holland, maar er is ook een Delft in Cottonwood County, Minnesota, USA!

Fouten in de plaatsnaam

Natuurlijk kunnen er in het stamboomonderzoek ook gewoon spelfouten sluipen in de plaatsnamen. sGravenhage in plaats van ‘s-Gravenhage, of Ryswyk in plaats van Rijswijk. Of topografische fouten, zoals een foutieve provincienaam als “Woerden, Zuid-Holland” in plaats van “Woerden, Utrecht”. Deze fouten zijn wat eenvoudiger te corrigeren, als je erop gewezen wordt.

Een andere type fout bij de plaatsnamen die veel voorkomt is dat er locatie informatie in het stamboomprogramma wordt ingevuld die niet tot de plaatsnaam behoort zoals “Hooglandse Kerk in Leiden”. Vul de juridische plaatsnamen in het veld plaatsnaam en eventuele nadere detaillering (kerk, naam boerderij, adres) in het notitieveld.

Bron van geografische namen

Geonames logoGeonames is een geografische database, die vrij doorzoekbaar is en veel informatie geeft over plaatsen. Deze database bevat op dit moment ruim 8 miljoen unieke plaatsnamen van over heel de wereld, inclusief synoniemen, geografische coördinaten en links naar meer informatie op Wikipedia.

Kwaliteitscontrole op Genealogie Online

Genealogie Online probeert als grootste stambomenwebsite in Nederland ook suggesties te geven om de kwaliteit van de gepubliceerde genealogische gegevens te verbeteren.

Er worden al diverse kwaliteitscontroles uitgevoerd op basis van de datums van de genealogische gebeurtenissen. Nu controleert Genealogie Online ook de plaatsnamen in de genealogische gebeurtenissen!

Wanneer er een GEDCOM wordt geupload naar Genealogie Online dan worden alle plaatsnamen automatisch tegen de geografische database van Geonames gehouden. Wanneer een plaatsnaam wordt herkend, dan wordt er een link gelegd naar een informatieve “Over de plaatsnaam” pagina.

Op zo’n pagina - zie bijvoorbeeld de Over de plaatsnaam Volendam pagina - wordt een kaart getoond van de plaats, een link naar Wikipedia en, als bekend, een link naar de archiefinstelling op de ArchiefWiki waar de plaats onder valt.

Ook worden de meeste voorkomende familienamen in de betreffende plaats getoond op basis van de op Genealogie Online gepubliceerde gegevens.

Enkele statistieken

Van de in totaal 30 miljoen plaatsnamen die voorkomen in publicaties op Genealogie Online is 80% herkend. Van de 20% die niet herkend kon worden is er:

  • bij 1/3 sprake van een niet uniek identificeerbare plaatsnaam, dus bijvoorbeeld Rijswijk (i.p.v. Rijswijk, Zuid-Holland)
  • bij 2/3 sprake van plaatsnamen die niet geïdentificeerd worden (typfouten, topografische fouten, enz.)

image

Kennis over plaatsnamen gebruiken

Wanneer de plaatsnaam herkend is dan zijn daarmee ook de lengte- en breedtegraad beschikbaar. Op basis hiervan kan Genealogie Online een exactere afbeelding maken van de geografische spreiding van de genealogische gebeurtenissen binnen een publicatie.

Spreiding binnen de Benelux

Doordat plaatsnamen nu door Genealogie Online worden herkend zijn het meer dan platte stukken tekst in een publicatie, ze krijgen betekenis! Dit betekent dat Genealogie Online stamboomonderzoekers kan helpen de kwaliteit te verbeteren.

De plaatsnamen die Genealogie Online niet herkend worden aan de auteur gepresenteerd zodat zij deze in het geval van een fout kunnen verbeteren. Het kan natuurlijk voorkomen dat de plaatsnaam goed is maar niet meer bestaat, toevoegen aan Geonames is dan het devies, zodat deze op een wiki gebaseerde database weer beter gevuld wordt.

20 maart 2013

De meest voorkomende fout in stambomen

Genealogie OnlineGenealogie Online voert bij het publiceren van genealogische gegevens meerdere controles uit. Gevonden inconsistenties worden aan de auteur gemeld maar ook weergegeven in de publicatie zelf, zodat bezoekers extra kritisch kijken naar de gegevens. Deze week is een nieuwe controle toegevoegd en deze controle lijkt de meeste voorkomen genealogische fout bloot te leggen.

Kinderen met dezelfde naam in één gezin
In 2009 schreef Tamura Jones het artikel Same Name Children Consistency Check. Dit artikel beschrijft een controle van genealogische gegevens die nog geen enkel stamboomprogramma of website had gerealiseerd.

Deze controle gaat uit van de wetmatigheid dat kinderen in één gezin allemaal een unieke naam heeft. Als er in een gezin twee kinderen zijn met dezelfde naam dan betekent dit in de praktijk dat er een kind jong is overleden. In andere woorden, de levensduur van broers/zussen met dezelfde naam in één gezin kan niet overlappen. Deze controle wordt nu ook automatisch op publicaties op Genealogie Online uitgevoerd.

Twee voorbeelden van deze fout
Een voorbeeld om het probleem inzichtelijk te maken. Antonius Willem Dekker en Grietje Willems Schaaik kregen 5 kinderen:

  • Nicolaa Dekker (1799-????)
  • Wilhelmus Dekker (1800-1848) *1
  • Jacobus Dekker (1803-????)
  • Catharina Dekker (1805-????)
  • Wilhelmus Dekker (1808-????) *2

In dit gezin komt twee maal een Wilhelmus voor. De eerste Wilhelmus leefde van 1800 tot en met 1848. De tweede Wilhelmus werd geboren in 1808. Dat kan natuurlijk niet kloppen! Genealogie Online geeft dit als volgt weer:

image

Bovenstaand voorbeeld kun je nog ´in één oogopslag´ zien, maar dat is niet altijd het geval. De door Genealogie Online uitgevoerde controle kijkt niet alleen naar datum van geboorte en overlijden. De door Tamura Jones beschreven methode minimal lifetime approach wordt gehanteerd. Er wordt geprobeerd om de minimale levensduur te bepalen van een persoon door te kijken naar andere gebeurtenissen in het leven van de persoon, zoals een huwelijk of geboorte van kinderen.

Het volgende voorbeeld toont een overlap die minder snel aan het licht komt. Martinus Maas en Maria van den Dungen kregen 9 kinderen:

  • Hendrica Maas (1839-1866)
  • Johanna Maas (1837-1840) *1
  • Christina Maas (1841-????)
  • Johanna Maas (1844-????) *2
  • Hendrina Maas (1848-????)
  • Johanna Maas (1853-????) *3
  • Martinus Maas (1856-1932)
  • Engelbertus Maas (1843-1903)
  • Johannes Maas (1850-1852)

We zien hier 3 maal een Johanna. De eerste Johanna is overleden in 1840, dus vóór Johanna *2 en Johanna *3.

Van Johanna *2 en Johanna *3 is echter geen datum van overlijden bekend. De tweede Johanna zal zijn overleden voor 1853, want er kan geen overlap zijn in de levensduur. Gaan we echter de minimale levensduur van de beide Johanna´s bepalen dan zien we het volgende: Johanna *2 blijkt getrouwd in 1872 en Johanna *3 blijkt getrouwd in 1879. De minimale levensduur van deze twee Johanna´s is dus resp. 1844-1872 en 1853-1879. Er is overlap, dat klopt dus niet! Is eigenlijk één Johanna twee keer getrouwd?

Genealogie Online geeft dit als volgt weer:

image

Meest voorkomende fouten/waarschuwingen

Met de uitbreiding van de lijst van controles werd het ook eens tijd om te kijken naar aantallen: welke inconsistenties komen er vaak voor?

image

De aantallen geven het aantal keer dat de inconsistentie is gevonden bij de bijna 20 miljoen personen op Genealogie Online. Hierbij dient opgemerkt te worden dat een deel zeker gaat om fouten (het rode icoontje), het andere deel zijn waarschuwingen (het gele icoontje), deze kunnen een fout betreffen maar kunnen ook goed zijn.

Met stip op nummer 1 is de Same Name Children Consistency Check binnengekomen! Door de grote omvang van geanalyseerde stambomen (>5600)kun je gerust zeggen dat dit de meest voorkomende fout in stambomen is.

Dit valt wellicht te verklaren door het feit dat onderzoekers niet direct opkijken van kinderen met dezelfde naam in één gezin. Dat komt gewoon voor. Maar, dit opent echter wel de deur voor fouten: gebeurtenissen worden aan de verkeerde persoon gekoppeld. Doordat stamboomprogramma´s niet controleren op de overlappende levensduur van kinderen met dezelfde naam in een gezin, wordt het ook niet snel opgemerkt.

Komt deze fout ook voor in uw genealogische gegevens?

Bent u benieuwd of deze fout ook in uw genealogische gegevens voorkomt? U kunt eenvoudig in 4 stappen uw genealogische gegevens publiceren op Genealogie Online. De controles worden automatisch uitgevoerd en maken deel uit van het gratis Basis abonnement.

08 maart 2013

A2A open: goed nieuws voor archiefinstellingen!

Gisteren is de standaard voor het ontsluiten van historische persoonsgegevens openbaar gemaakt. Deze standaard, die al in 2011 is ontwikkeld binnen het WieWasWie project, zorgt er voor dat archiefinstellingen hun gegevens op een eenduidige wijze kunnen aanbieden aan alle partijen die deze willen presenteren of willen gebruiken voor toepassingen. De drempel voor archiefinstellingen om hun data als open data beschikbaar te stellen is hiermee weer een stuk lager geworden!

Archive 2 All (A2A) model

Het ontwerp van WieWasWie is er op gebaseerd dat de historische persoonsgegevens die de archiefinstellingen beheren naar één centraal punt worden ‘gekopieerd’ en daar doorzoekbaar is. Omdat archiefinstellingen hun data in verschillende systemen bewaren moesten er afspraken worden gemaakt over hoe deze data op een eenduidige wijze uit de archiefsystemen kon worden verkregen en gecommuniceerd naar andere systemen. Het resultaat hiervan (dat in wezen los staat van WieWasWie) is het door Mindbus ontwikkelde A2A model.

image

Eigenlijk staat A2A voor Archive 2 Archive, wat natuurlijk een verkeerde naam is. Het model is bedoeld om historische persoonsinformatie die archiefinstellingen beheren te ontsluiten. Maar het ene archief gaat toch niet de data van een ander archief binnenhalen? Vandaar dat ik het model hernoem tot Archive 2 All model.

De leveranciers van archiefsystemen zoals Picturae en DE REE archiefsystemen hebben hun systemen aangepast zodat de gegevens er volgens het Archive 2 All model (en OAI-PMH) zijn uit te halen. Dit wordt nu toegepast bij WieWasWie, maar waarom stoppen bij WieWasWie? Waarom geef je als archiefinstelling niet meer partijen toegang tot de historische persoonsgegevens. Een goed moment voor archiefinstellingen om hier over na de denken!

Data op basis van het Archive 2 All verwerken

In maart 2012 schreef ik het artikel Wat zou jij doen met de genealogische data van een heel archief? Wat het artikel niet vermeldde was dat deze data van het Brabants Historisch Informatie Centrum op basis het Archive 2 All model was beschreven (en ‘geharvest’ via OAI-PMH). Ik had de beschrijving van het Archive 2 All model toen al in handen, maar anderen nog niet, wat natuurlijk voor de archiefinstellingen en uiteindelijk (stamboom)onderzoekers jammer was omdat gebruik en doorontwikkeling van het model werd belemmerd.

In oktober 2012 stelde het Regionaal Archief Leiden haar genealogische gegevens beschikbaar als open data. Een ieder kan dus alle genealogische data, onder een vrije CC0 licentie, downloaden (of beter ‘harvesten’) en er mooie, creatieve, innovatieve dingen mee doen. Een voorwaarde voor open data is echter dat deze ook goed is beschreven, het liefst op basis van een (open) standaard. Met het openbaren van het Archive 2 All model (op basis waarvan ook de genoemde dataset is beschreven) mag het Regionaal Archief Leiden hun dataset vanaf nu dus met recht open data noemen!

Doorontwikkeling van een open standaard

Het Archive 2 All model (versie 1.7) beschrijft aktes uit bevolkingsregisters, DTB-registers, notariële archieven, VOC, Memories van successie en de Burgerlijke stand. In de toekomst kunnen hier bijvoorbeeld kadaster en militieregisters aan worden toegevoegd.

Het Centraal Bureau voor Genealogie, exploitant van WieWasWie, voert het beheer over het Archive 2 All model. Nu het model openbaar is en wordt aangemeld bij de kennisbank van Digitaal Erfgoed Nederland kunnen ook anderen feedback geven op de beschrijving van het Archive 2 All model en de technische documentatie. Professionals èn particulieren kunnen bijdragen aan de doorontwikkeling. De openheid van het model komt de kwaliteit en de adoptie van het model alleen maar ten goede!

Welke archiefinstelling volgt met open stellen van historische persoonsgegevens?

Alle archiefinstellingen die deelnemen aan WieWasWie en archiefinstellingen die gebruik maken van software van Picturae of DE REE (archieven.nl) kunnen nu dus heel eenvoudig hun genealogische gegevens beschikbaar stellen als open data. Ik bepleit dit al langer, onder andere tijden de KVAN dagen met de presentatie Geef mij uw data – alstublieft.

Andere partijen kunnen met de data van de archiefinstellingen (op basis van het Archive 2 All model) nieuwe toepassingen maken, analyses maken om nieuwe inzichten te krijgen en/of samenvoegen met andere datasets. Mooi voor de archiefinstellingen! Mooi voor de (stamboom)onderzoekers!