08 september 2013

Mijn wenslijst voor een genealogische zoekmachine van een archief

imageJe kunt wel eens dagdromen over de ideale genealogische zoekmachine van een archief. Je kunt daarna suggesties opsturen en wachten tot de archief­instelling (of het bedrijf die de software levert) inzicht of budget krijgt, of klagen, of het erbij laten zitten... Of je grijpt gewoon zelf de koe bij de horens. Op basis van een lijst van wensen en een complete genealogische data set van een archief (met ruim 4 miljoen persoonsvermelding­en), ben ik aan de slag gegaan om zo'n zoekmachine te maken.

Het resultaat is Open Archieven: een website die dient ter inspiratie, maar ook echt gebruikt kan worden!

Ik wil Google'n

Denk je aan zoeken op Internet dan denk je aan Google. Met één zoekveld ligt er een berg aan informatie aan je voeten. Hoewel het ogenschijn­lijk om een eenvoudig zoekveld gaat is het eigenlijk een krachtig zoekveld als je weet hoe je er mee om moet gaan. Wil je bijvoorbeeld zoeken naar vermeldingen van Coret op de GaHetNa website (van het Nationaal Archief) zonder resultaten waarin ook Bob voorkomt dan typ je in het Google zoekveld de zoekterm "coret site:www.gahetna.nl -bob". De zoekresultaten zijn hierna overigens nog te filteren op bijvoorbeeld resultaattype (Web/Images/Maps/Shopping/enz.), creatiedatum en wel/niet bezocht.

search_nl (alle afbeeldingen zijn links naar Open Archieven)

Voor Open Archieven wilde ik eenzelfde zoekveld. Net als Google één zoekveld op de startpagina. Om de kracht van het zoekveld aan te geven zijn er onder het zoekveld voorbeelden gegeven waar de mogelijkheden uitgelegd worden. Zoek je naar een Oudshoorn in relatie tot een Lagas die waarschijnlijk tussen 1900 en 1925 is getrouwd dat typ je in het Open Archieven zoekveld de zoekterm "oudshoorn & lagas 1900-1925".

Via filters kun je daarna de zoekresultaten verfijnen op brontype, plaats, rol en/of jaar.

filter_nl

Andere speciale zoekmogelijkheden omvatten:

  • uitsluiten van namen (-)
  • wildcards (*)
  • beschikbaarheid van een scan ($)
  • fonetisch zoeken (~)

I want to use the site too...
Je veux utiliser ce site aussi...
Ich möchte diese Website auch nutzen...

Veel van onze voorouders komen uit het buitenland of zijn naar het buitenland geëmigreerd. Stamboomonderzoek wordt dus al snel internationaal. Hieruit volgt voor mij dan al snel dat je een website als Open Archieven in verschillende talen moet maken. Alhoewel de inhoud van de akten en namen van de bronnen Nederlands zijn, kun je de rest van de website meertalig aanbieden.

Ik wil een goed leesbare website

De leesbaarheid van een website wordt voor een groot deel bepaald door lettertype, lettergrootte, grafische elementen (zoals icoontjes) en kleurgebruik. Open Archieven heeft gekozen voor een duidelijk lettertype die niet te klein wordt ingezet en ook nog eens aanpasbaar is qua grootte in de browser (via CTRL +/-).

De schermen van tablets en smartphones zijn een stuk kleiner dan die van een laptop of monitor van een PC. Een groeiend aantal Internetters gebruikt een tablet of smartphone om gegevens op te zoeken. Door dit gegeven mee te nemen in het ontwerpproces kun je vrij eenvoudig de gebruikersinterface van je website beschikbaar maken voor meerdere schermgroottes.

Open Archieven is dus ook goed op een smartphone en tablet te gebruiken. Op een klein scherm worden er bijvoorbeeld minder kolommen getoond in de zoekresultaten, zodat de rest leesbaar blijft. Door de webbrowser op een laptop of PC steeds smaller te maken zie je de weergave van Open Archieven automatisch aangepast worden aan de schermbreedte.

mobile_nl

Een oude en ogenschijnlijk vergeten browser functie is de alternatieve weergave van bezochte pagina’s (hyperlinks). Door een andere kleur voor niet bezochte en wel bezochte links te gebruiken help je de gebruiker in zijn of haar navigatie. Open Archieven gebruikt voor nog niet bezochte zoekresultaten een andere kleur (oranje) dan voor de bezochte zoekresultaten (donkergrijs). Door de verschillende kleuren hoef je niet zelf te onthouden wat je al wel en niet hebt bekeken.

Structuur aanbrengen in een pagina vergroot ook de leesbaarheid. Specifiek bij akten heeft Open Archieven de structurering versimpeld en verduidelijkt. Bij akten zijn er diverse gegevens beschikbaar, deze kun je gewoon onder elkaar zetten, maar dat is niet het meest leesbaar. Sommige informatie kun je samenvoegen om er ‘zinnen’ van te maken.

Dus niet:

….
Voornaam bruidegom: Wilhelmus Josephus
Achternaam bruidegom: Lugters
Beroep bruidegom: koopman
Geboorteplaats bruidegom: Ridderkerk
….

Maar:

….
Bruidegom
Wilhelmus Josephus Lugters, koopman, geboren te Ridderkerk
….

In aktes komen personen voor die een bepaalde relatie tot elkaar hebben, op basis van deze relaties kun je de gegevens ook ordenen. Door ook nog eens grafische elementen hierbij te voegen zie je in één oogopslag hoe de relaties liggen.

relationsview_nl

De grafische elementen die de koppels samenbrengen hebben nog een andere functie. Door op een dergelijk element te klikken wordt er gezocht naar deze twee personen. Het zoeken op 2 personen is een veel geuite wens door genealogen en met deze klikbare elementen is zo'n actie gebeurd in één muisklik!

Ik wil een leesbare afdruk kunnen maken

Heel veel stamboomonderzoekers printen de gegevens die ze op een archief of genealogische website vinden. Een website kan bepalen hoe de afdruk van een pagina eruit ziet. Sommige delen hoeven gewoonweg niet geprint te worden, denk aan de navigatie of deel-knoppen. Andere delen zijn juist alleen interessant voor de afdruk en niet het scherm, denk aan het web adres van de pagina.

Open Archieven zorgt dat de afdruk er goed uitziet.

Ik wil meerdere gegevens verzamelen

In de praktijk blijft het niet bij het opzoeken van één akte. Een onderzoeker zal meerdere interessante akten vinden die later verwerkt of nader uitgezocht moeten worden. Interessante akten wil je dus verzamelen. Hiervoor introduceert Open Archieven het gegevensmandje.

Op elke akte-pagina staat een knop waarmee de betreffende akte in het gegevensmandje gestopt kan worden. Het gegevensmandje toont de titels van alle akten die zijn verzameld, deze linken weer naar de akte-pagina’s.

Om met deze verzameling van akten verder te gaan zijn er twee uitvoer mogelijkheden:

  • Allereerst kunnen de akten gedownload worden in PDF formaat. Dit PDF document, dat voldoet aan de PDF/A standaard, kun je inzien via een PDF-lezer of afdrukken.
  • Ook kunnen de akten in het gegevensmandje gedownload worden in GEDCOM formaat. Dit bestand dat de persoons-, relatie- en brongegevens bevat, voldoet volledig aan de GEDCOM 5.5.1 standaard. Dit bestand kan eenvoudig ingelezen worden in een stamboomprogramma zodat er geen gegevens overgetypt hoeven te worden (dit is minder werk en voorkomt fouten bij overtypen).

Ik wil alleen inloggen als het echt moet

Websites zijn geneigd om snel bepaalde functionaliteit achter een login te plaatsen. Voor bepaalde persoonsgebonden activiteiten is dit wel nodig, maar voor heel veel acties is het overbodig en dus irritant.

Open Archieven biedt alle functionaliteit zonder dat er ingelogd hoeft te worden. Zoeken, inzien van de akten, inzien van de scans en zelfs het gegevensmandje kunnen allemaal gebruikt worden zonder inloggen.

Ik wil geholpen worden met bronvermeldingen

Een goed stamboomonderzoeker voorziet zijn gegevens/publicatie van bronvermeldingen, zodat  lezers kunnen zien waar de gegevens afkomstig van zijn. Dit vergroot de controleerbaarheid en dus de kwaliteit.

Alhoewel bronmeldingen van groot belang zijn schiet het noteren van bronvermeldingen er nog wel eens bij in. Vaak is het meer werk doordat het om verschillende tekst elementen gaat zijn die gekopieerd moeten worden van de akte pagina (als ze er al staan!).

Open Archieven helpt de onderzoeker door een duidelijk, consistente bronvermelding te tonen bij akten. Hierbij wordt gebruik gemaakt van de archiefbeschrijvingen, zodat ook de complete titels van archiefbronnen zichtbaar worden.

source_nl

Er wordt doorgelinkt naar de archiefbeschrijving op de archiefwebsite zodat ook achtergrond informatie (wanneer gevormd, door wie, waarom, ...) nagelezen kan worden.

Uiteraard worden de bronvermeldingen ook in het PDF bestand opgenomen (een korte en lange variant) en in het GEDCOM bestand. Bij het GEDCOM bestand wordt de GEDCOM 5.5.1 standaard gevolgd, dus bij een bepaald stuk informatie is er een referentie naar een bron en aktenummer, alle informatie van de bron wordt opgenomen en er wordt gemeld waar de bron zich bevind (het archief). Voor dit laatste worden de adresgegevens van het archief gebruikt die afkomstig zijn van de ArchiefWiki (deze informatie wordt als open data beschikbaar gesteld).

Ik wil suggesties naar relevante aanvullende gegevens

Op basis van de gegevens in een akte kunnen er diverse slimme suggestie worden gegeven, binnen de eigen archiefdataset en ook daarbuiten!

Om met de suggesties binnen de archiefdataset te beginnen. Bij een geboorte akte, waar het kind en ouders worden genoemd, wordt de huwelijksakte gezocht en getoond, daar staan immers ook het kind (dan in de rol van bruid of bruidegom) en ouders. Dit zelfde kan ook omgekeerd, dus vanaf de huwelijksakte naar een geboorte akte wijzen. Idem dito met de overlijdensaktes! Op deze manier kunnen er dus links naar andere relevante aktes gelegd worden.

sug_nl

Als er in de geboorteakte melding wordt gemaakt dat de persoon (een deel van) een tweeling is, dan wordt er van deze naam een slimme zoek link gemaakt zodat met twee klikken de akte van de tweelingzus of -broer naar voren wordt getoverd.

Buiten de muren van de archiefinstelling is ook veel interessante informatie beschikbaar die gebruikt kan worden om aanvullende suggesties te doen in relatie tot aktes. Als dergelijke services hun data/indexen als open data aanbieden of een zoekservice (API) bieden, dan valt er een koppeling te maken.

Open Archieven heeft nu twee van dergelijke 'externe bronnen' gekoppeld:

  • Bij overlijdensakten wordt op basis van naam en jaar gekeken of er informatie en/of foto van de begraafplaats of kerkhof is op de website Graftombe.nl.
  • De "hoofdpersonen" van een akten worden opgezocht in online stambomen. Het resultaat zijn relevante links naar het werk van stamboomonderzoekers op Genealogie Online.

gensug_nl

Ook bij de zoekresultaten worden suggesties gegeven naar andere websites. De zoekterm wordt losgelaten op Genealogie Online, het Stamboom Forum, de Stamboom Gids en de Historische Kranten collectie van de Koninklijks Bibliotheek.

cross_nl

Ik wil kunnen bijdragen

Stamboomonderzoekers hebben vaak veel specifieke kennis en ervaring en zijn bereid dit te delen met het archief en andere onderzoekers. Om dit te faciliteren heeft Open Archieven diverse mogelijkheden om een bijdrage te leveren aan akten.

Allereerst kunnen fouten gemeld worden. Het indexeren is mensenwerk dus daar kunnen fouten in worden gemaakt, gegevens worden door diverse systemen verwerkt waardoor fouten kunnen optreden. Via een eenvoudig formulier kan Open Archieven of het archief wiens data het is op de hoogte worden gesteld zodat de gegevens verbeterd kunnen worden.

Bij sommige akten valt een verhaal te vertellen. Er is dan ook per akte ruimte om opmerkingen of afbeeldingen te plaatsen. Hiervoor wordt een externe service gebruikt, want je hoeft niet alles zelf te maken!

disqus_nl

Als de akte gebruikt wordt in een bronvermelding in een online stamboom dan kan dit door de stamboomonderzoeker aangegeven worden bij de akte. Na een controle of de bronvermelding met link naar de akte inderdaad op de externe website staat zal Open Archieven een link naar de betreffende externe pagina bij de akte tonen die iedereen kan zien.

ref_nl

Ik wil weten wat er in zit

De weergave van de 'inhoudsopgave' op archiefwebsites is vaak een tekstuele opsomming of een compleet inventarissysteem. Je kunt de inhoud van de doorzoekbaar gemaakte gegevens ook visualiseren met interactieve grafieken.

Open Archieven toon eerst een taartdiagram van de archieven (is er nu nog één). Klik je op een taartpunt dan kom je op een taartdiagram met plaatsen waar het archief gegevens van heeft. Klik je hier op een taartpunt dan volgt een taartdiagram met de bronnen in de betreffende plaats. Klik je op een bron dan worden in een staafdiagram de aantallen per bron per jaar weergegeven, waarbij ook inzichtelijk wordt gemaakt welk deel wel en welk deel niet gedigitaliseerd is.

graph1_nl

Een andere interactieve weergave die Open Archieven toont op basis van de beschikbare gegevens, is de familienaam frequentie. Door het selecteren op type akte, plaats en tijdsperiode wordt getoond welke familienamen het meest voorkwamen.

freq_nl

Ik wil de akten kunnen delen

Sociale media maken het mogelijk om heel eenvoudig informatie te delen. Onderzoekers kunnen op Open Archieven hun gevonden akten delen via Facebook, Google+, Twitter, Pinterest en LinkedIn. Met één klik wordt er door het betreffende sociale netwerk gegevens over de akte opgehaald (waaronder kleine afdruk van akte en link) zodat u dat niet meer hoeft over te typen.

Het delen levert in de praktijk divers commentaar op. Het is leuk om bepaalde archiefvondsten te tonen aan je vrienden, familie en overige volgers! Een voorbeeld van delen van een akte op Facebook:

Facebook screenshot

Ik wil er tegen aan kunnen programmeren

Deze wens zullen niet veel mensen hebben, maar is wel belangrijk voor een website. Door de functies die je als website biedt ook aan te beiden aan andere ontwikkelaars (via een API) kun je de service die je biedt aan nog meer mensen bieden via andere websites of programma’s! Platforms als Twitter, Google en Facebook bieden API's aan, waardoor er een heleboel nuttige, leuke, handige applicaties en websites worden gemaakt, die tevens helpen in de groei van de website.

Open Archieven biedt via de Open Archives API diverse methodes die door andere ontwikkelaars gebruikt kunnen worden in hun website of programma.

Ik wil meer gegevens en scans

Open Archieven maakt gebruik van open data die door archieven beschikbaar wordt gesteld voor hergebruik. Open Archieven betaalt de archieven niet voor deze data, andersom, archieven hoeven Open Archieven ook niet te betalen als hun gegevens beschikbaar worden gesteld op Open Archieven (wat bij andere genealogische zoekmachines wel het geval is). Wil een archiefinstelling de eigen gegevens als open data beschikbaar stellen dan moeten zij hiervoor echter vaak wel een rekening betalen aan hun eigen software leverancier. Elk archief zal hierin dus een eigen keuze maken.

Conclusie

Met Open Archieven wil ik aantonen dat er door het voor hergebruik beschikbaar stellen van gegevens mooie, innovatieve initiatieven kunnen opbloeien. Ik hoop dat meer archieven het voorbeeld van Erfgoed Leiden en omgeving (voorheen Regionaal Archief Leiden) zullen volgen: zij stellen al hun genealogische data beschikbaar voor hergebruik. Als meer archieven dit doen kunnen particulieren, bedrijven en verenigingen mooie, handige, leuke dingen kunnen doen met de archiefdata!

Tenslotte, wat zijn uw wensen voor een genealogische zoekmachine voor archieven?

03 september 2013

GEDCOM bestanden die niet aan de GEDCOM standaard voldoen mogen de naam GEDCOM niet dragen!

imageAls we één liter melk kopen verwachten we één liter melk. Er zijn immers duidelijke afspraken gemaakt over wat één liter is. Het is een standaard die goed gedocumenteerd is. Zo weet enerzijds een producent hoeveel er in het pak moet en anderzijds weet de klant wat er in het pak zit. Gaat u naar het buitenland, dan is één liter nog steeds dezelfde hoeveelheid. Er zijn instrumenten die we kunnen gebruiken om het volume van één liter te meten. Zit er in een liter pak melk minder dan één liter dan protesteren we en geven we de leverancier op de kop.

Als we genealogische gegevens naar een GEDCOM bestand exporteren verwachten we dat bij importeren van het GEDCOM bestand alle gegevens hieruit compleet en juist worden geïmporteerd. Er zijn immers duidelijke afspraken gemaakt over hoe een GEDCOM bestand moet worden samengesteld en gelezen. Zo weet een programmeur die een GEDCOM export functie maakt precies hetzelfde als een programmeur die een GEDCOM import functie maakt. Krijg je een GEDCOM bestand van een buitenlandse kennis of website, dan praten we nog steeds over dezelfde GEDCOM afspraken. Er zijn tools die valideren of GEDCOM bestanden aan de GEDCOM standaard voldoen. Raken we tijdens een GEDCOM export/import gegevens kwijt, dan protesteren we vaak niet, we geven hoogstens de GEDCOM standaard de schuld als zijnde niet geschikt.

Ziet u de inconsistentie? Dat is niet alleen raar, het is verkeerd!

Niet voldoen aan de GEDCOM standaard heeft informatieverlies tot gevolg

Gebruikers van stamboomprogramma's (en -websites) moeten dan ook eisen van hun softwareproducent dat, als hun software zegt een GEDCOM bestand te kunnen schrijven, dit GEDCOM bestand volgens de GEDCOM standaard wordt weggeschreven. Immers, als een producent van GEDCOM niet volgens de standaard werkt dan is het vrij zeker dat als u dit bestand inleest in een ander stamboomprogramma (of -website) er gegevens verloren gaan! Als er niet aan de GEDCOM standaard wordt voldaan dan is de claim door een product dat GEDCOM export/import mogelijk is bedrieglijk.

Mijn stelling: GEDCOM bestanden die niet aan de GEDCOM standaard voldoen mogen de naam GEDCOM niet dragen!

Om gegevensverlies tegen te gaan zouden stamboomprogramma's met incomplete/incorrecte GEDCOM exports eigenlijk deze functie moeten verwijderen. Maar een goed stamboomprogramma dient natuurlijk wel een GEDCOM export (en import) functie te hebben, anders kunt u nooit meer ergens anders met uw genealogische gegevens aan de slag en dat wilt u ook niet. Ontwikkelaars moeten dus aangespoord worden om de GEDCOM standaard goed te verwerken in programmatuur en hierover duidelijk te communiceren.

Ontwikkelaars die vinden dat de GEDCOM standaard niet goed (genoeg) is: ondersteun het dan niet, dat is vele malen beter voor gebruikers dan het gebrekkig te ondersteunen en dus valse verwachtingen te scheppen over uitwisselbaarheid. Worden bepaalde GEDCOM constructies niet ondersteund meld dit dat. Wordt er tijdens de import ongeldige GEDCOM aangetroffen, meld dit aan de gebruiker. Ontwikkelaars die uitbreidingen hebben gedefinieerd (wat op zich mag binnen GEDCOM) dienen dit goed te documenteren en te communiceren, anders zullen andere programma's deze uitbreidingen niet kunnen inlezen en is er dus weer sprake van informatieverlies!

Een voorbeeld

Stel u heeft een overlijdensakte gevonden en voegt dit in uw stamboomprogramma toe. De gegevens worden geëxporteerd naar GEDCOM en de betreffende bron ziet er in GEDCOM formaat als volgt uit:

…..
0 @S23@ SOUR
1 TITL Overlijden Hendrika Jägers
2 TYPE WieWasWie
3 REF 21

1 REFN WIE30422548
2 TYPE WieWasWie
2 NOTE Archiefnaam: Het Utrechts Archief
2 NOTE Archief: 1221-1
2 NOTE Deel/Akte: 240
2 NOTE Inventarisnr.: 1992
2 NOTE Bron type: BS Overlijden

…..

In bovenstaand stuk GEDCOM zijn de rode delen niet volgens de GEDCOM standaard. Het is dan ook vrij zeker dat als u het inleest in een ander stamprogramma (of -website), de rode delen verloren gaan. In bovenstaand voorbeeld schort het overigens niet alleen aan de structuur (syntax) maar ook aan de inhoud (semantiek).

image

Wees zuinig op uw genealogische gegevens: eis dat geproduceerde GEDCOM bestanden aan de GEDCOM standaard voldoen, eis dat GEDCOM bestanden die aan de GEDCOM standaard voldoen correct en compleet worden ingelezen.

Genealogische organisaties die programma's maken, reviewen of aanbevelen dienen aan te geven of er aan de GEDCOM standaard wordt voldaan. Geven zij dit inzicht niet, dan berokkenen zijn hun leden/gebruikers schade toe! Het betekent immers dat de met veel moeite verzamelde en in het stamboomprogramma ingevulde gegevens niet compleet en correct naar een ander stamboomprogramma (of -website) kunnen worden overgebracht.

Controle op naleven van de GEDCOM standaard

Voor het liter pak melk zijn er instituten die toezien dat producten de juiste hoeveelheden leveren van de juiste kwaliteit. Er zijn helaas geen instituten die het voldoen aan de GEDCOM standaard controleren en dus stamboomprogramma's kunnen 'certificeren'. Hier ligt een mooie taak voor genealogische organisaties zoals bijvoorbeeld HCC!genealogie, NGV of CBG.

Of uw stamboomprogramma (of -website) een correct GEDCOM bestand exporteert kunt u voor een deel ook zelf controleren: door het geëxporteerde GEDCOM bestand aan te bieden aan de website GED-inline. Worden er fouten gerapporteerd door GED-inline ten aanzien van het GEDCOM bestand: maak daar melding van naar de producent van het stamboomprogramma en meld het op dit of uw eigen blog of op een stamboom forum.

Of het GEDCOM bestand compleet (dus of al uw gegevens er in zitten) is kan deze tool u niet vertellen. Ook weet u nog niet of een valide GEDCOM bestand goed wordt ingelezen door uw stamboomprogramma (of –website). Als u iets tegenkomt waaruit blijkt dat er niet aan de GEDCOM standaard wordt voldaan: meld het dan, blog erover, protesteer.

Bescherm de genealogische gegevens!