26 januari 2009

Bronvermelding hoort tot de grondregels van de genealogiebeoefening

Bij publicaties, op Internet èn op papier, van genealogische publicaties zie je vaak dat het plagiaat monster z'n kop opsteekt. Over genealogie en plagiaat hebben onder andere Cor de Graaf (Gens Nostra 56/2001) en Roelof Vennik al interessante artikels geschreven. In dit artikel wil ik vooral uitleggen hoe stamboomonderzoekers goed onderzoek doen (hopenlijk zonder formalistisch te worden) en om zodoende beschuldigingen van plagiaat te kunnen voorkomen.

Credo

In de CBG publicatie Genealogie en computer; De keuze van een programma (PDF) van februari 2008 kwam ik de volgende zin tegen:

Bronvermelding hoort tot de grondregels van de genealogiebeoefening.

Dit credo zouden naar mijn smaak op alle genealogische websites (inclusief homepage CBG, archieven, verenigingen, stamboomprogrammamakers, enz.), een prominente plaats moeten krijgen.

Waarom bronvermeldingen?

Elizabeth Shown Mills, een Amerikaanse expert op dit vlak, geeft in "Evidence Explained: Citing History Sources from Artifacts to Cyberspace" (zie ook het Genealogisch onderzoekproces) een mooi antwoord:

Het citeren van bronnen maakt ons onderzoek geloofwaardig, helpt ons om vertrouwen te hebben in het onderzoek van anderen en helpt onszelf tijdens de analyse.

Het is dus zowel voor jezelf als stamboomonderzoeker als voor lezer van je onderzoek nuttig! Het gaat hierbij trouwens om alle bronnen (en niet alleen die "niet direct voor de hand liggen" zoals de richtlijnen voor publicatie in van Gens Nostra stelt).

De Citation Guide van de Amerikaanse website ProGenealogist (waarom kan ik nooit een relevante Nederlandse website vinden?) geeft de volgende lijst van standaard elementen van een bronvermelding:

Who Author or Agency (if given or known) Credit the creator of the source (identify if editor, compiler, translator, etc.) as on the title page. When it is a government agency, include the jurisdiction (county, state, Federal, etc.)
What Title(s), Edition, Description "Use quotes for articles, chapters, individual web pages," Italics for Books, Titles of Periodicals, Website titles for conglomerate sites, #th ed. [if needed]
Where Place & Publisher/Provider City, State Abbreviation: {colon} Name of Publisher {of book, of primary website, etc.}
When Date of Record Copyright or publication year, date information accessed, or date information created.
How
(to find)
Reference & Repository or location List specific page, certificate, entry, dwelling, family, and/or line #s. Report to whom the record references. Note any internal archive reference to specific item or fact. Most importantly, list name of archive, media type, and call number.
Why
(it is useful)
Remarks (if needed) about the source Use brackets to add remarks like information on the original publication, or translations of the source title, description  or evaluations regarding the source (condition, legibility, knowledge of informant, oddities of the internal arrangement, completeness, etc.)

Steekproef bronvermeldingen Genealogie Online

Op Genealogie Online probeer ik auteurs te wijzen op de Genealogisch standaarden en richtlijnen. Maar uit een onlangs gehouden steekproef blijkt dat de bronvermelding nog niet bij alle stamboomonderzoekers alle aandacht krijgt.

In de steekproef heb ik een set van 2.000 GEDCOM bestanden (die gepubliceerd staan op Genealogie Online) geanalyseerd door in elk bestand het aantal personen (de "INDI" regels), het aantal families (de "FAM" regels) en het aantal bronnen (de "SOUR" regels) te tellen. Per GEDCOM bestand werd hierna de verhouding berekend tussen het aantal personen plus families enerzijds en het aantal bronnen anderzijds. Alhoewel niet heel wetenschappelijk kan deze verhouding (q=(INDI+FAM)/SOUR) iets roepen over de mate waarin bronvermeldingen zijn gebruikt en daarmee ook de kwaliteit van de publicatie.

In totaal bevatte de 2.000 GEDCOM bestanden (6.7231.09 personen en 2.617.506 families) in totaal 2.174.396 bronnenvermeldingen. Hierbij had 12% van de bestanden een q-score van 50%, maar 32% van de bestanden had zelfs 0 bronnen. Conclusie: de bronvermelding verdient meer aandacht!

Enkele kanttekeningen moeten bij deze steekproef wel worden geplaatst:

  • De "juiste manier" om een bronvermelding op te nemen in een GEDCOM bestand is via een "SOUR" regel (source). Het kan echter ook zijn dat auteur bronvermeldingen heeft opgenomen in de notities (de "NOTE" regels), dit is niet geteld.
  • Een bron kan ook een verwijzing zijn naar een publicatie van een ander (over het overnemen van gegevens van anderen in het kader van auteursrecht een ander keer meer). Alhoewel dit wel een bronverwijzing is die je moet opnemen is dit wel een bron van lage kwaliteit. Ten gunste van je onderzoek en kwaliteit hiervan wil je zo'n aanknopingspunt altijd onderbouwd zien met een primaire of secundaire bron (zie ook het Genealogisch onderzoekproces). Of, zoals Barbara A. Brown in Herstel van de ethiek (1999) schreef:

Je bewijst je voorouders er geen dienst mee om onnauwkeurige informatie die je terloops hebt gevonden [op internet] voor de eeuwigheid vast te leggen.

Alhoewel dit een steekproef is geweest op publicaties op Genealogie Online denk ik dat ook websites als NGV's stamboom website, uwstamboomonline.nl en Geneanet soortgelijke cijfers zullen vinden als ze bovenstaande steekproef doen. En alhoewel het Internet het probleem zichtbaarder heeft gemaakt ligt de oorzaak in het feit dat stamboomonderzoek een hobby is waarbij niet iedere stamboomonderzoeker wetenschappelijk te werk gaat.

Stamboomprogramma's en bronvermeldingen

In de Genealogy Authors’ Software Guide las ik de volgende kijk op bronnen:

Genealogy without sources is mythology. There is no reason to write a book about genealogy if the basis for our conclusions is not stated and backed up by evidence referenced in our source citations. Software vendors are beginning to recognize this.

Bij de Amerikaanse genealogische softwarebouwers is er afgelopen jaar inderdaad veel aandacht voor "source citations" en ook "source citation templates". Hoe ver zijn de Nederlandse genealogische softwarebouwers hiermee (afdwingen danwel aanmoedigen van bronnen)?

Omarm het credo!

Voor alle stamboomonderzoekers nog even samengevat:

Bronvermelding hoort tot de grondregels van de genealogiebeoefening. / Genealogie zonder bronnen is mythologie. / Het citeren van bronnen maakt ons onderzoek geloofwaardig, helpt ons om vertrouwen te hebben in het onderzoek van anderen en helpt onszelf tijdens de analyse. / Je bewijst je voorouders er geen dienst mee om onnauwkeurige informatie [van internet] die je terloops hebt gevonden voor de eeuwigheid vast te leggen.

12 januari 2009

De echte statistieken van het Stamboom Forum

Dit bericht is geïnspireerd door het artikel De echte statistieken van Hyves op Hyped.nl van 11 februari 2009. In dit artikel worden enkele cijfers genoemd van 's lands grootste (niet aan één bepaald onderwerp gebonden) sociale netwerk (zie voor meer uitleg: Online vrienden maken via Hyves). Nu is het Stamboom Forum een sociaal netwerk voor een "niche", een specifieke groep mensen, maar het is altijd leuk je aan de groten te spiegelen. Dus eerst de Hyves cijfers uit bovengenoemd artikel en daarna de Stamboom Forum cijfers in dezelfde stijl:

Hyves

  • Sinds eind 2004 heeft Hyves bijna 7 miljoen geregistreerde leden
  • In december 2008 werden er 120.000 Hyve profielen vastgelegd
  • Ruim zeventig procent heeft minstens eenmaal ingelogd op Hyves in de laatste maand, zestig procent in de laatste twee weken en 53 procent in de laatste week. Kortom. Minimaal de helft van de profielen wordt actief gebruikt cq. beheerd
  • In december 2008 werden ruim 5 miljard pagina’s bekeken, verdeeld over 196 miljoen bezoeken
  • Acht miljoen mensen hebben Hyves bezocht in december
  • Eerder stelden wij al vast dat Hyves.nl in 2008 verdrievoudigd is qua aantal pageviews, alhoewel Raymond Spanjar het zelf over "slechts" een verdubbeling heeft.

Stamboom Forum

  • Sinds november 2005 heeft het Stamboom Forum bijna 21 duizend geregistreerde leden
  • In december 2008 werden er 793 profielen vastgelegd
  • Ruim 14 procent heeft minstens eenmaal ingelogd op het Stamboom Forum in de laatste maand, 9 procent in de laatste twee weken en 4 procent in de laatste week
  • In december 2008 werden ruim 1,7 miljoen pagina’s bekeken, verdeeld over 138 duizend bezoeken
  • Ruim 77 duizend mensen hebben het Stamboom Forum bezocht in december
  • Stamboomforum.nl is in 2008 50% gegroeid qua aantal pageviews

OK, leuke exercitie, maar de vergelijking levert verder niet zo veel op. Hyves is groot: heeft 333 keer zo veel gebruikers, 3000 keer zo veel pageviews, 100 keer zo veel bezoekers en een 4-6 keer grotere groei...

Stamboom Forum activiteit

Wat ik het meest interessant gegeven vond om uit te zoeken is hoe actief de leden van het Stamboom Forum nu zijn, in dit geval dus hoeveel hebben er in de afgelopen tijd ingelogd (en niet hoeveel berichten/familienamen/evenementen/zoekplaatjes er zijn geplaatst danwel [oningelogd] gelezen).

Alhoewel Hyvers veel actiever zijn, wat denk ik verklaard kan worden doordat de doelgroep gemiddeld veel jonger is dan die van het Stamboom Forum, is de activiteit van de Stamboom Forum leden best aardig (boven mijn verwachting).

In onderstaande grafiek heb ik het aantal ingelogde gebruikers afgezet tegen de tijd. Hier kun je bijvoorbeeld uit af lezen dat in de afgelopen 60 dagen 4.442 leden (21%) één keer is ingelogd (oranje lijn) en 3.406 leden (16%) meer dan één keer (groene lijn).

03 januari 2009

Genlias doorspitten om automatisch verbanden te leggen tussen voorouders

In genealogische databases als Genlias zit een heleboel losse brokken informatie (ruwweg 32 miljoen akten). Het is aan de stamboomonderzoekers om deze (en andere) losse brokken (uit diverse bronnen) tot één geheel te brengen en hier voor bewijzen te verzamelen om zodoende een stamboom samen te stellen. Software om grote datasets door te spitten om hier kennis uit te halen wordt data-mining genoemd. De komende 4 jaar zal er een promotieonderzoek lopen omtrent "ancestor-mining"!

Het Internationaal Instituut voor Sociale Geschiedenis (IISG) is één van de grootste documentatie- en onderzoekscentra ter wereld op het terrein van de sociale geschiedenis in het algemeen en de geschiedenis van de arbeidersbeweging in het bijzonder.  Tot 2012 zal het onderzoeksprogramma LINKS (dat subsidie toegekend heeft gekregen van het NWO programma Continuous Access to Cultural Heritage) onder leiding van Prof. dr Kees Mandemakers lopen:

LINKS beoogt een reconstructie van alle negentiende en vroeg-twintigste eeuwse families in Nederland. De basis voor deze reconstructie wordt gevormd door GENLIAS, de index op de akten van de burgerlijke stand zoals die in de openbare archieven van Nederland worden bewaard. Gedurende de laatste vijftien jaar werkten talrijke vrijwilligers aan de totstandkoming van deze index. Deze bevat niet alleen de namen van geborenen, overledenen en gehuwden maar ook die van de ouders, geboorteplaatsen, leeftijden en veelal het beroep. De beschikbaarheid van deze dataset biedt een enorm potentieel voor wetenschappelijk onderzoek, mits de individuen aan elkaar worden gelinkt tot families. Hierbij moet niet alleen gedacht worden aan de historische demografie en de sociale en economische geschiedenis maar ook aan naamkunde, epidemiologie, antropologie, historische sociologie en genetica. Vanwege de hoge mate van fuzzyness van de voor- en achternamen (als gevolg van fouten, verkeerde opgaven en inconsistenties tijdens de registratie, regionale afwijkingen, fouten bij het indexeren, etc.) is dit linken niet vanzelfsprekend. Het informatiseringdoel van LINKS is drieledig: a) de bouw van een dynamische parser die de input van GENLIAS omzet naar gestandaardiseerde eenheden, b) de bouw van nominal record linkage procedures met zelflerende capaciteiten en c) de bouw van een retrieval systeem inclusief GIS-referenties en visualisering waarmee de wetenschapper zijn benodigde data kan selecteren. Omdat de database van GENLIAS continu wordt vernieuwd en uitgebreid, voorzien we jaarlijks een nieuwe release van LINKS met familiereconstructies, niet alleen voor wetenschappers, maar ook voor de GENLIAS gemeenschap. Het project is een samenwerking tussen het IISG, het LIACS (Leiden Institute of Advanced Computer Science), het Meertens Instituut, de VKS (Virtual Knowledge Studio). Voor meer informatie zie de oorspronkelijke aanvraag.

Een zeer mooi onderzoeksprogramma! En dan gaat het niet alleen om het eindresultaat, puur het feit dat er op het vlak van informatica en genealogie/sociale geschiedenis (promotie)onderzoek plaatsvindt acht ik van grote waarde! Persoonlijk hoop ik van dit onderzoek te kunnen leren om zodoende bijvoorbeeld de matching te verbeteren die ik op Genealogie Online biedt.

Wat ik nog wel in de onderzoeksaanvraag mis:

  • open source - komt het ontwikkelde onder GPL licentie beschikbaar?;
  • API's - kunnen anderen gebruik maken van de dienst of wordt er gebruik gemaakt van API's?;
  • widgets - kan het resultaat op andere websites geplaatst worden of worden er op de LINKS site widgets mogelijk gemaakt?;
  • wisdom of crowds - maak gebruik van de kennis van het publiek om de gevonden links te valideren of zelfs aan te geven!

En ook al komt het woord evidence twee keer voor in de aanvraag, dit onderwerp (Genealogical Proof Standard) is van groot belang om het vertrouwen te winnen van stamboomonderzoekers in de lerende algoritmen.

Reacties vanuit stamboomonderzoekers zijn in ieder geval al opgetekend in het Stamboom Forum en ook Archiefforum!