“De benaming GEDCOM is een acroniem voor GEnealogische Data COMmunicatie, en wordt gebruikt voor een speciaal tekstformaat dat is ontwikkeld door de Kerk van Jezus Christus van de Heiligen der Laatste Dagen (LDS), beter bekend als de Mormonen. Dit formaat was ontwikkeld zodat een standaard zou ontstaan met betrekking tot communicatie tussen de Kerk en personen die genealogische data aanleverden. Het GEDCOM-formaat heeft zich nu ontwikkeld tot de facto standaard voor gegevensuitwisseling tussen de meeste genealogische programma’s en systemen.”, aldus de Nederlandse versie van Wikipedia over GEDCOM. De Engelse variant van de GEDCOM pagina bevat een tijdlijn van de GEDCOM versies en daaruit blijkt dat versie 1.0 stamt uit 1984! Wat is er mis met GEDCOM? De huidige standaard, versie 5.5, stamt uit 1996. Veel van de kritiek op GEDCOM kan weerlegt worden, zoals:
- de standaard is uitbreidbaar, zie bijvoorbeeld Gedcom 5.5EL waar bijvoorbeeld ook geografische constructies zijn gedefinieerd;
- er zijn mogelijkheden voor multimedia, door links op te nemen of bestanden op te nemen;
- genoeg mogelijkheden voor diakrieten en andere talen voor ondersteuning van Unicode (ISO 1064);
- er zijn mogelijkheden om meerdere feiten vast te leggen met waarschijnlijkheid/kwaliteits indicatie, bijvoorbeeld meerdere geboorte één die voortkomt uit een huwelijksakte en één (die afwijkt en) voortkomt uit een overlijdensakte (zie voorbeeld in Wikipedia).
Toch zijn er ook zaken die lastig in GEDCOM zijn weer te geven, zoals:
- Gebeurtenissen kunnen niet aan meerdere personen worden gekoppeld, behalve voorgedefinieerde familiegebeurtenissen als een huwelijk;
- Plaatsen worden niet eenduidig en enkelvoudig vastgelegd;
- Zaken als homo-huwelijk en geregistreerd partnerschap kunnen niet worden gerepresenteerd.
Wat altijd een groot probleem is, maar niet sec van de GEDCOM standaard, is de ondersteuning van alle mogelijkheden door softwareprogramma’s en genealogische websites. Vaak zijn stamboomprogramma’s gestoeld om een eigen intern formaat dat niet altijd één-op-één overeenkomt met GEDCOM (deze is immers bedoeld voor communicatie). Daarnaast komt het ook nog wel eens voor dat stamboomprogramma’s hun eigen uitbreidingen toevoegen aan GEDCOM of bestaande constructies anders interpreteren. Dit wordt vaak, aangeduid als manco van GEDCOM. Ten onrechte, want het niet houden aan standaarden komt bij elke standaard voor (ook XML helpt daar niet bij). Meer discussie hierover in What’s wrong with GEDCOM? Bewijs, feiten en conclusies GEDCOM gebruikt een datamodel gebaseerd op afstamming (lineage-linked model), familie en het individu. Een andere manier is om data te structureren rondom ondersteunend bewijs (evidence-based models) In het GEDCOM lineage-linked data model wordt alle data dus gerepresenteerd als de veronderstelde realiteit. Er zijn stromingen binnen de genealogische wereld die uitgaan van feit, bewijs, hypothesen en conclusies. Zij vinden dat dit onderzoeksproces ook goed beschreven en ondersteund moet worden. Elizabeth Shown Mills (auteur van "Evidence" en "Evidence Explained,") geeft aan dat mensen genealogisch onderzoek leren door het stamboomprogramma dat ze gebruiken. In de meeste gevallen bieden programma’s de mogelijkheid om namen, data en plaatsen in te voeren. Maar zaken als onderzoeksproces, bewijs, bronnen, conclusies, tegenstrijdige feiten, komen helaas weinig voor in stamboomprogramma’s.
Een nieuwe standaard? De Mormonen hebben wel initiatieven getoond voor vernieuwing van de standaard, bijvoorbeeld om een XML variant te maken (zonder het onderliggende datamodel aan te passen). Critici als Bob Velke (via newsletter Dick Eastman) geven aan dat LDS vertegenwoordigers geen plannen hebben om het onderscheid tussen bewijs en conclusies te maken omdat dit niet past in de behoefte van de LDS. Er zijn diverse initiatieven geweest om tot een nieuw datamodel te komen en/of om te schakelen naar XML, veel zijn gesneuveld, waaronder:
- GENTECH Genealogical Data Model (GDM)
- Michael Kay’s GedML
- Jerry Fitzpatrick’s GeniML
- Genealogy XML Yahoo! Group en XGenML
Het lastige aan het maken van een nieuwe standaard is autoriteit. Een partij (nationaal of internationaal) die visie toont en als gezaghoudende partij wordt gezien die de standaard bewaakt en doorontwikkelt en die aan draagkracht zorgt voor de standaard werkt. Want een standaard zonder adoptie door softwaremakers, websitebouwers en instellingen als archieven is niets waard. GEDCOM met pensioen? Nee dus, er is nog geen alternatief! Tijd voor een Nederlands initiatief?
Via e-mail kreeg ik van Frank Steggink het volgende commentaar:
Ik ben van mening dat het wel degelijk tijd is om Gedcom te laten pensioneren. Het feit dat er op zoek wordt gegaan naar een alternatief geeft dit al aan. Alleen moeten we nog wachten tot er 1. een alternatief is en 2. dit breed genoeg wordt ondersteund.
Beknopte reactie in kernpunten:
* Een genealogische standaard moet niet alleen door de LDS worden beheerd, maar bij een onafhankelijke organisatie. Ondanks alle goede bedoelingen m.b.t. genealogie (alhoewel ik religieus gebruik twijfelachtig vind), vind ik het in principe een eng idee dat Gedcom door een religieuze organisatie wordt beheerd, die op veel gebieden een andere levensvisie heeft dan ikzelf. De LDS is dus geen goede onafhankelijk stakeholder voor het beheer van een genealogische standaard. Dat zou hetzelfde zijn als Microsoft het beheer over HTML geven 😉
* XML is geen panacee, maar er zijn wel heel veel tools voor, en het is uitbreidbaar, dus het is wel een vanzelfsprekende keuze. Uiteindelijk is het onderliggende datamodel een doorslaggevende factor in het succes. Met XML is (in theorie) het ondersteunen van andere schriften geen probleem.
o V.w.b. private uitbreidingen van de standaard: dat is niet te vermijden. Degenen die succesvol / populair zijn, zijn een goede kandidaat om in de volgende versie opgenomen te worden.
o XML opent ook de weg voor hergebruik van andere standaarden, zoals bijv. GML voor geografische data (zie http://www.opengeospatial.org) of een meer lightweight alternatief.
* Over het datamodel moet overeenstemming komen, zodat zoveel mogelijk Gedcom-gebruikers zich hierin kunnen vinden. Mijn voorkeur gaat uit naar een hybride oplossing van zowel afstamming (kapstok) alsook bewijzen.
o Bronnen zijn uiteraard onderdeel van de bewijsvoering.
o Kwaliteitsindicatie is in principe OK, maar voor mijn gevoel teveel afhankelijk van degene die de data samenstelt. Wie evalueert de evalueerder?
* Om softwarebouwers ten dienst te zijn moeten goede testsets worden ontwikkeld, en eventueel een proces om interoperabiliteit-conformance (hoe interpreteert de software de standaard?) te meten. Interoperabiliteit wordt alleen bereikt als de verschillende interpretaties van de data zo gelijk mogelijk zijn.
* Verder vind ik dat softwarebouwers ervoor moeten zorgen dat de ID’s gelijk blijven bij verschillende exports. Bij Gedcom is het per pakket anders. In ieder geval zijn bij Pro-Gen de ID’s steeds anders, als je een andere selectie exporteert. Dit is vooral van belang bij het uploaden van data naar webservices. Dan zou het veel makkelijker zijn om wijzigingen te herkennen. En dus moeten ook ID’s van verwijderde / samengevoegde personen niet hergebruikt worden.
o Eventueel moet er een changeset-versie komen (met alleen inserts, updates, en deletes). Hier komt versioning bij kijken, want je hebt een ijkpunt nodig, wat een nieuwe beerput is. Voorlopig maar niet dus.
* Gerelateerd aan ID’s (adressering) is het opnemen van links, bijv. personen op Wikipedia of Genealogie Online.
o De combinatie van ID’s / links zou er kunnen leiden dat het GIN-principe toch nog wordt verwezenlijkt (zie soc.genealogy.benelux nieuwsgroep), alleen heeft het dan een gedistribueerd karakter. Sites die op een gegeven moment als gezaghebbend komen bovendrijven, vormen dan de basisrepository voor een set genealogische persoonsgegevens. Deze sites kunnen bij overlap naar elkaar toe linken. Andere sites en particulieren kunnen dan naar deze gezaghebbende sites linken.
Frank