24 juni 2009

Pijlers onder (genealogische) websites – deel 2

Dit is het tweede deel in een serie wat meer technisch georiënteerde artikels over belangrijke pijlers onder mijn genealogische websites qua software en services.

image Stamboom Forum

Onderstaand figuur geeft de belangrijkste software (linker pijler) en services (rechter pijler) weer waar het Stamboom Forum op is gebaseerd:image

Linux, Apache, MySQL en Perl/PHP (tezamen LAMP), Amazon Cloudfront, Google Feedburner en Google Analytics worden ook bij het Stamboom Forum gebruikt, deze zijn al besproken in deel 1.

classid="clsid:D27CDB6E-AE6D-11cf-96B8-444553540000"
width="450"
height="370">

 

imageStamboom Gids 

Onderstaand figuur geeft de belangrijkste software (linker pijler) en services (rechter pijler) weer waar het Stamboom Gids op is gebaseerd:

image

Linux, Apache, MySQL en Perl/PHP (tezamen LAMP), Amazon Cloudfront, Google Feedburner en Google Analytics worden ook bij de Stamboom Gids gebruikt, deze zijn al besproken in deel 1.

  • LINKER is het stuk PHP software dat de basis vormde van de Stamboom Gids; maatwerk toevoegingen zijn de recensies en de integratie met het Stamboom Forum, zoals Mijn favorieten.
  • Kampyle is een gratis service die sinds enige tijd (tijdelijk) op de website wordt gebruik om feedback te krijgen van gebruikers.
  • PageGlimpse is een gratis service die thumbnails (kleine afbeeldingen) van websites maakt, in het begin had ik hier eigen software voor gemaakt, die complex en resource intensief was, PageGlimpse heeft dit overbodig gemaakt, dus minder maatwerk software en minder processing en netwerkbelasting (want PageGlipse maakt èn serveert de plaatjes, niet de Stamboom Gids).

sg

Vorig artikel in deze serie:

  1. Deel 1 - Genealogie Online

18 juni 2009

Stamboomonderzoek met de paplepel erin gieten

De favoriete website van mijn oudste zoon (van 5) is op dit moment SchoolTV. SchoolTV (Teleac) heeft een groot arsenaal van educatieve filmpjes (en is voor mij dus een welkom alternatief voor die Nickelodeon troep op TV) van de publieke omroep gericht op het primair en voortgezet onderwijs.

De inhoud van de filmpjes is zeer divers en tot mijn grote vreugde komt ook de stamboom en het archief langs (klik op de Afspeel knop op de filmpjes te bekijken):

Een stamboom - Heb jij er ook een? (1: 33 minuten)
Voor: Primair Onderwijs, groep 4 – Voortgezet Onderwijs, klas 1

Het archief - Oude boeken op micro-fiche (2:00 minuten)Voor: Primair Onderwijs, groep 4 – Voortgezet Onderwijs, klas 1

 

Docenten die de geschiedenisles met een stamboom beginnen hebben dus mooi materiaal voorhanden. Graag verwijs ik hen ook naar de Onderwijs pagina van het Centraal Bureau Genealogie.

16 juni 2009

Pijlers onder (genealogische) websites - deel 1

Dit keer een serie wat meer technisch georiënteerde artikels over belangrijke pijlers onder mijn genealogische websites qua software en services. Een kijkje achter de schermen… over het gebruik van open source en Internet services, gemaakte architectuurkeuzen en maatwerk programmatuur.

  1. Deel 1 - Genealogie Online

image Genealogie Online

Onderstaand figuur geeft de belangrijkste software (linker pijler) en services (rechter pijler) weer waar Genealogie Online op is gebaseerd:image

Software

In de software pijler (van alle in deze serie besproken diensten) kun je de LAMP solution stack herkennen. Het acroniem LAMP staat voor een bundel van gratis/opensource software oplossingen voor dynamische websites:

  • Linux is het gebruikte (open source) operating systeem voor de server, meer specifiek Debian;
  • Apache “serveert” alle dynamisch content, het is de (open source) webserver die bijvoorbeeld in maart 2009 zo’n 9,2 miljoen bevragingen (hits) kreeg (wat zo’n 41 GB aan netwerk verkeer genereert), het “lichtere” Lighttpd wordt gebruikt als webserver voor een deel van de statische (cachable) content als afbeeldingen, CSS stylesheets en Javascript bestanden (voordat het naar Amazon CloudFront gaat, verderop meer info hierover);
  • MySQL is de (relationele, open source) database die alle data van de websites bevat (de productie data van Genealogie Online alleen al is 1,3 GB groot), wat beheerd wordt met de webapplicatie phpMyAdmin;
  • PHP/Perl – de programmeertalen waarmee de applicaties zijn gemaakt, voor Genealogie Online houdt dit bijvoorbeeld in dat op basis van (maatwerk) Perl programmatuur een GEDCOM wordt verwerkt tot (ruim 7 miljoen, maatwerk) PHP pagina’s. Deze architectuurkeuze (generatie i.p.v. dynamisch vanuit GEDCOM of database) heeft grote voordelen qua schaalbaarheid en performance, maar ook nadelen, bijvoorbeeld qua flexibiliteit. Om de PHP pagina’s sneller te maken wordt er eAccelerator gebruikt (als extensie op Apache).

Een software component dat niet onbenoemd mag blijven is Swish-e. Deze open-source applicatie indexeert alle content op Genealogie Online en maakt deze doorzoekbaar. Waarom niet gewoon op Google vertrouwen? Omdat Google veel tijd nodig heeft om de bijna 7 miljoen pagina’s (die ook nog wel eens wijzigen) te indexeren, als de Google-spiders alle content al ophalen (geen garanties!). Alternatief om de websites doorzoeken te maken op (familie)naam heeft als nadeel dat er dan een groot deel van de rijke inhoud (denk aan notities) niet doorzocht wordt.

Componenten

Enkele kleinere software delen, ook wel componenten of widgets genoemd, die noemenswaardig zijn:

Services

Waar software op de server zelf is geïnstalleerd en draait (en onderhouden moet worden), worden services op servers van andere partijen geboden en door Genealogie Online gebruikt.

  • Amazon CloudFront (en het onderliggende Amazon S3) wordt gebruikt als Content Delivery Network. Statische content (de al eerder genoemde afbeeldingen, CSS stylesheets en Javascript bestanden) wordt hiermee “geserveerd” door een andere server en andere netwerkverbinding, wat meer bandbreedte over laat voor de overige dynamische content (ook al is de domeinnaam gewoon img3.coret.org, css3.coret.org en js3.coret.org!). Deze zeer schaalbare service van Amazon is één van de weinige betaalde services die wordt gebruikt;
  • Scribd (iPaper) is een gratis service waar document kunnen worden gepubliceerd. Deze service wordt door Genealogie Online gebruikt om bijvoorbeeld alle stambomen en kwartierstaten in PDF formaat op te “hosten” (zie voorbeeld). Naast een betere user experience is ook dit een manier om bandbreedte te besparen.
  • Google Feedburner wordt gebruikt voor het beschikbaar stellen van de diverse RSS feeds. Ook hier geldt weer, alle RSS readers en browsers halen de web feeds van Google Feedburner en alleen Google Feedburner haalt de web feeds op van Genealogie Online waardoor er dus weer een boel bandbreedte wordt bespaard.
  • Google Analytics is een gratis dienst van Google die geeft inzicht in het bezoek van de website: hoeveel gebruikers, waar komen ze vandaan (land/website), wat doen ze (en hoe lang) en dit alles in inzichtelijke grafieken. Deze informatie kan gebruikt worden om de website te optimaliseren.
    image
  • Google Translate is (wederom) een gratis dienst van Google die realtime webpagina’s vertaalt in andere talen. Op Genealogie Online zorgt deze voor de automatisch vertaling naar Engels.

Eerste indruk

Met dit eerste kijkje achter de schermen heb ik een indruk willen geven van wat een website als Genealogie Online behelst. Een deel van het werk is het maken (en onderhouden) van programmatuur. Maar een belangrijk deel van de software en services is er al, klaar om gebruikt te worden! Hierbij is het merendeel van de software en services ook nog eens gratis! De “investering” zit ‘m (naast hosting en bandbreedte) vooral in het slim “componeren” van eigen/andermans software en services om een mooie & nuttige website voor (in dit geval) stamboomonderzoekers neer te zetten. Veel aandacht gaat er bij goed lopende websites zitten in performance en schaalbaarheid.

Heeft u specifieke vragen over de software of services, plaats deze dan in de reacties bij dit artikel!

In deel 2 van deze serie zal ik ingaan op de pijlers onder het Stamboom Forum en de Stamboom Gids.

26 april 2009

Scans van archiefstukken vindbaar maken

Mijn handen jeuken om een alternatief te maken voor het lovenswaardige maar technisch achterhaalde Van Papier Naar Digitaal (VPND). Maar ik heb er geen tijd voor, dus het blijft bij advies aan VPND en bruikbare tips die iedereen kan gebruiken om gescande en gefotografeerde akten op Internet te plaatsen en vindbaar te maken.

Tip: Zet de archiefstukken op Scribd of Flickr

In een eerder (niet opgevolgd) advies aan VPND besprak ik de mogelijkheid om gratis de PDF bestanden op sites neer te zetten als Scribd of Flickr. Een zeer mooi voorbeeld: scans van het Bredevoort domein uit 1.08.11 Nassause Domeinraad uit het Nationaal Archief door Yvette Hoitink op Flickr geplaatst:

Iedereen kan de foto’s die zij van archiefstukken maken eenvoudig en gratis op websites als Flickr en Scribd plaatsen. Via comments kunnen opmerkingen en transcripties door iedereen worden geplaatst. Via tags (steekwoorden) kunnen afbeeldingen eenvoudig vindbaar worden gemaakt, zo heeft Yvette bij bovenstaande set de volgende tags opgenomen: Bredevoort, Winterswijk, Aalten, Dinxperlo, Nationaal Archief, genealogie, genealogy, archives, Nassause Domeinraad, history.

Websites als Flickr en Scribd zorgen ervoor dat hun content geïndexeerd wordt door zoekmachines, dus daar hoef je zelf niets voor te doen.

Via Scribd en Flickr kun je eenvoudig en gratis je eigen Van Papier Naar Digitaal maken!

Google is je vriend!

Je website gebruikersvriendelijk, doorzoekbaar en vindbaar door zoekmachines maken zijn zeer belangrijk. Zeker als je belangrijke, door vrijwillige geproduceerde inhoud op Internet plaatst, dien je er zorg voor te dragen dat deze informatie goed wordt gepresenteerd en te vinden is via Google. Echter, op dit moment zijn bijvoorbeeld de bijdragen van mevrouw Erica van Dooremalen voor VPND via Google niet terug te vinden! Dat zij bijvoorbeeld foto’s heeft gemaakt van de bron “Havendienst van de gemeente Dordrecht, toegangsnr. 68a” en deze heeft getranscribeerd is niet via Google te vinden en toch staat het op VPND.

De reden dat niets van dit moois meer direct via Google of andere zoekmachines is te vinden komt doordat VPND de zoekrobot van onder andere Google de toegang heeft ontzegd! Dit is gedaan (via robots.txt) in een poging om de capaciteitsproblemen die VPND heeft het hoofd te bieden. En ja, zoekmachines niet meer toelaten en daarmee je webpagina’s onvindbaar maken is dan een optie… maar dat doet geen recht aan het de inhoud van VPND!

Gelukkig is veel content nog wel te vinden via websites als de Stamboom Gids en het Het Archiefforum.

Om het waardevolle werk van al die vrijwilligers niet in een zwart gat te laten verdwijnen hierbij (weer) wat tips voor VPND.

Google Webmasterhulpprogramma’s

Zoekmachines als Google crawlen met zoekrobots heel het Internet af om content te vinden die ze kunnen indexeren zodat wij het via Google’s zoekmachine kunnen vinden. Webmasters kunnen via Google Webmasterhulpprogramma’s inzicht krijgen hoe vaak (per dag) de Googlebot hun website bezoekt. Hieronder een voorbeeld van Genealogie Online:

image

Ook kan de crawlsnelheid (dus hoe vaak komt de Googlebot op je website) ingesteld worden. Voor Genealogie Online (miljoenen pagina’s met voorouders) heb ik deze iets sneller gezet: Google mag per seconde 2 pagina’s opvragen. De snelheid kan natuurlijk ook langzamer gezet worden om bandbreedte te besparen.

image

Selectief laten indexeren

Zoekmachines kijken voordat ze een website indexeren naar het bestand robots.txt. In dit bestand kan een webmaster aangeven wat wel en vooral niet geïndexeerd mag worden. Het robots.txt bestand van Genealogie Online ziet er bijvoorbeeld als volgt uit:




User-agent: *
Disallow: /ged/
Disallow: /zoek/
Disallow: /zoeknaam.php
Disallow: /contact.php


Hieruit kunnen zoekrobots lezen dat ze alles mogen indexeren behalve een tweetal sub-directories en een tweetal bestanden. VPND heeft via robots.txt nu aangegeven dat zoekmachines niets mogen indexeren:




User-agent: *
Disallow: /


Wat men wil is dat de vele megabytes aan PDF bestanden niet worden geïndexeerd, dat kost namelijk veel bandbreedte en Google kan er toch niet veel mee omdat het afbeeldingen zijn. Voor Genealogie Online wil ik ook niet dat afbeeldingen door Google worden geïndexeerd. Om deze reden staan alle afbeeldingen op het domein http://img.coret.org/ en http://img3.coret.org/ en op deze domeinen laat ik zoekmachines niet toe. Echter alle andere interessante content op Genealogie Online (op het domein http://www.genealogieonline.nl/) is wel toegankelijk voor Google.



Als bovenstaande aanpak (PDF-jes op apart sub domein of subdirectory plaatsen) voor VPND niet kan dan is er nog een tweede optie: we willen namelijk wel alle tekst van VPND door Google geïndexeerd maar niet de PDF bestanden. Via robots.txt geef je dat als volgt aan (werkt alleen voor Google):




User-agent: Googlebot
Disallow: /*.pdf$


Alhoewel de tips ten aanzien van indexering helpen voor de korte termijn is mijn advies voor VPND toch ook: Zet de archiefstukken op Scribd of Flickr! VPND kan een index worden naar scans die overal en nergens staan. Maar om deze index gebruikersvriendelijk en doorzoekbaar te maken adviseer ik wel om over te gaan naar een dynamische website en niet alles handmatig met FrontPage te blijven doen.

10 april 2009

GEDCOM 25 jaar! Tijd voor pensioen?

“De benaming GEDCOM is een acroniem voor GEnealogische Data COMmunicatie, en wordt gebruikt voor een speciaal tekstformaat dat is ontwikkeld door de Kerk van Jezus Christus van de Heiligen der Laatste Dagen (LDS), beter bekend als de Mormonen. Dit formaat was ontwikkeld zodat een standaard zou ontstaan met betrekking tot communicatie tussen de Kerk en personen die genealogische data aanleverden. Het GEDCOM-formaat heeft zich nu ontwikkeld tot de facto standaard voor gegevensuitwisseling tussen de meeste genealogische programma's en systemen.”, aldus de Nederlandse versie van Wikipedia over GEDCOM.

De Engelse variant van de GEDCOM pagina bevat een tijdlijn van de GEDCOM versies en daaruit blijkt dat versie 1.0 stamt uit 1984!

Wat is er mis met GEDCOM?

De huidige standaard, versie 5.5, stamt uit 1996. Veel van de kritiek op GEDCOM kan weerlegt worden, zoals:

  • de standaard is uitbreidbaar, zie bijvoorbeeld Gedcom 5.5EL waar bijvoorbeeld ook geografische constructies zijn gedefinieerd;
  • er zijn mogelijkheden voor multimedia, door links op te nemen of bestanden op te nemen;
  • genoeg mogelijkheden voor diakrieten en andere talen voor ondersteuning van Unicode (ISO 1064);
  • er zijn mogelijkheden om meerdere feiten vast te leggen met waarschijnlijkheid/kwaliteits indicatie, bijvoorbeeld meerdere geboorte één die voortkomt uit een huwelijksakte en één (die afwijkt en) voortkomt uit een overlijdensakte (zie voorbeeld in Wikipedia).

Toch zijn er ook zaken die lastig in GEDCOM zijn weer te geven, zoals:

  • Gebeurtenissen kunnen niet aan meerdere personen worden gekoppeld, behalve voorgedefinieerde familiegebeurtenissen als een huwelijk;
  • Plaatsen worden niet eenduidig en enkelvoudig vastgelegd;
  • Zaken als homo-huwelijk en geregistreerd partnerschap kunnen niet worden gerepresenteerd.

Wat altijd een groot probleem is, maar niet sec van de GEDCOM standaard, is de ondersteuning van alle mogelijkheden door softwareprogramma’s en genealogische websites. Vaak zijn stamboomprogramma’s gestoeld om een eigen intern formaat dat niet altijd één-op-één overeenkomt met GEDCOM (deze is immers bedoeld voor communicatie).

Daarnaast komt het ook nog wel eens voor dat stamboomprogramma’s hun eigen uitbreidingen toevoegen aan GEDCOM of bestaande constructies anders interpreteren. Dit wordt vaak, aangeduid als manco van GEDCOM. Ten onrechte, want het niet houden aan standaarden komt bij elke standaard voor (ook XML helpt daar niet bij).

Meer discussie hierover in What’s wrong with GEDCOM?

Bewijs, feiten en conclusies

GEDCOM gebruikt een datamodel gebaseerd op afstamming (lineage-linked model), familie en het individu. Een andere manier is om data te structureren rondom ondersteunend bewijs (evidence-based models)

In het GEDCOM lineage-linked data model wordt alle data dus gerepresenteerd als de veronderstelde realiteit. Er zijn stromingen binnen de genealogische wereld die uitgaan van feit, bewijs, hypothesen en conclusies. Zij vinden dat dit onderzoeksproces ook goed beschreven en ondersteund moet worden.

Elizabeth Shown Mills (auteur van "Evidence" en "Evidence Explained,") geeft aan dat mensen genealogisch onderzoek leren door het stamboomprogramma dat ze gebruiken. In de meeste gevallen bieden programma’s de mogelijkheid om namen, data en plaatsen in te voeren. Maar zaken als onderzoeksproces, bewijs, bronnen, conclusies, tegenstrijdige feiten, komen helaas weinig voor in stamboomprogramma’s.

Een nieuwe standaard?

De Mormonen hebben wel initiatieven getoond voor vernieuwing van de standaard, bijvoorbeeld om een XML variant te maken (zonder het onderliggende datamodel aan te passen). Critici als Bob Velke (via newsletter Dick Eastman) geven aan dat LDS vertegenwoordigers geen plannen hebben om het onderscheid tussen bewijs en conclusies te maken omdat dit niet past in de behoefte van de LDS.

Er zijn diverse initiatieven geweest om tot een nieuw datamodel te komen en/of om te schakelen naar XML, veel zijn gesneuveld, waaronder:

Het lastige aan het maken van een nieuwe standaard is autoriteit. Een partij (nationaal of internationaal) die visie toont en als gezaghoudende partij wordt gezien die de standaard bewaakt en doorontwikkelt en die aan draagkracht zorgt voor de standaard werkt. Want een standaard zonder adoptie door softwaremakers, websitebouwers en instellingen als archieven is niets waard.

GEDCOM met pensioen?

Nee dus, er is nog geen alternatief!

Tijd voor een Nederlands initiatief?

07 maart 2009

Studiereis Who Do You Think You Are? Live 2009 (Londen) – het verslag

who-do-you-think-you-are-live De studiereis Who Do You Think You Are? Live 2009 (kortweg WDYTYAL) heeft plaatsgevonden! Hier de weerslag van dit dagje op-en-neer naar Londen. Ik zal het niet heel uitgebreid maken, want er zijn al een paar mooie en uitgebreide verslagen, zoals het verslag van Rob van Drie (CBG) of de (Engelse) verslagen van Dick Eastman (en zijn foto’s):

Het is al weer het derde jaar dat WDYTYAL plaatsvindt, de grootste genealogische beurs in het Verenigd Koninkrijk, gesponsord door onder andere de “Society of Genealogist” en natuurlijk gelieerd aan het populaire BBC programma Who Do You Think You Are?. De ruimte van de Olympia Exhibition Hall is geheel gevuld met stands van verenigingen, leveranciers en (nationale) archieven. Op een ring op de 1e verdieping worden workshops gegeven, aan het programma te zien waren er vele “uitverkocht” (tussen aanhalingstekens omdat ze gratis waren, maar je moest je wel inschrijven).

Presentaties

Naast de workshop werden er door diverse leveranciers ook presentaties gegeven, zij hadden hun eigen “theater”. Eén van de presentaties was van Megan Smolenyak, ik had niet verwacht dat ik haar presentatie kon bijwonen! Zij gaf een zeer toegankelijke presentatie over DNS in het Ancestry.co.uk theater. Het was begrijpelijk, motiverend en to-the-point. Een spreekster die we zeker naar Nederland moeten halen!

Een deel van één van haar presentaties is opgenomen door Roots Television:

Een andere partij die op de beursvloed een theater had gemaakt was Findmypast die hun Census 1911 presenteerde. Gekleed in professor outfit toonde zij aan het publiek wat er allemaal gevonden kon worden met hun product. Ook dit was een mooie presentatie die vanuit de praktijk werden uitgelegd met sprekende voorbeelden.

Gesprekken

Naast presentaties waren er ook diverse gesprekken met vele standhouders, van de heraldische wapenverkopers (staat mijn naam in hun inventaris?), tot genealogische reisbureaus, en van verenigingen die publicaties en CD verkochten tot grote jongens als Ancestry.

Bij Ancestry hebben we (ik was er met twee beursorganisatoren) een goed gesprek gehad met Olivier Van Calster, Managing Director Ancestry.co.uk. Olivier, geboren Belg dus kon ook nog wel wat Nederlands spreken, stond ons graag te woord en verwees ons ook door naar Brett Bouchard die verantwoordelijk is voor de Europese activiteiten van Ancestry.


Een ander gesprek, waar ik naar uit had gekeken, was met Dick Eastman. Een bescheiden genealoog met een populaire nieuwsbrief, maar met veel kennis en ervaring in genealogische beurzen. Aan hem vragen als wat een beurs succesvol maakt en of hij naar Nederland zou komen.

Stamboom Beurs

Deze dag naar Londen (vertrek ‘s ochtend 7 uur en weer thuis om 22 uur) was een leuke en gezellige studiereis: kijken naar een succesvol voorbeeld van een stamboom beurs. De vraag die heel de dag door het hoofd speelde, waar ik ook nog met Rob van Drie in het vliegtuig terug over heb gesproken, was of er ook in Nederland een succesvolle genealogische beurs gehouden kan worden.

Ik ben enthousiast over WDYTYAL, een mooie mix van verenigingen, koopwaar, grote partijen, presentaties en “ask-the-expert” sessies. Sprekers en experts hebben we in Nederland wel, maar krijgen we de grote partijen (toch de smaakmakers!!) ook naar Nederland en zijn er genoeg enthousiaste verenigingen en archieven die een bijdrage willen doen qua inhoud?

Wordt vervolgd…



[Update 11-3-2009] Foto's toegevoegd