13 juni 2012

Geef mij uw data - alstublieft (presentatie KVAN 2012)

Afgelopen 11 en 12 juni vond in Middelburg de jaarlijkse conferentie van de Koninklijke Vereniging van Archivarissen (KVAN) plaats. Tijdens dit congres stonden professionals van binnen en buiten het archiefveld stil bij één van de kernbegrippen in de archiefwereld: Open.

Open staat voor openbaarheid, transparantie, verantwoording nemen, het stellen van grenzen, maar ook voor hergebruik van data, het integreren van datasystemen en voor zaken als openingstijden, samenwerking en kennisdeling.

Tijdens dit congres was ik één van de sprekers. Omdat niet iedereen de zaal in kon (overvol) en het geen standaard “PowerPoint met tekst en bullets” betrof geef ik in dit artikel een enige tekst bij de presentatie.

Dia1

Deze presentatie zet de lijn door die is gezet in het artikel Archieven: zet uw data vrij en laat het bloeien! in het Archievenblad (juli 2011).

Dia2

Via Coret Consultancy hou ik mij als zelfstandig adviseur in de publieke en private sector bezig met informatie architectuur, met “digitale zaken”. Vanuit Coret Genealogie hou ik mij bezig met genealogische dienstverlening en innovatie op het vlak van internet en genealogie.

Deze presentatie is vooral uit het gezichtspunt van een open data hergebruiker (op genealogisch gebied). Doel van de presentatie is om de kansen te laten zien die het aanbieden van open data biedt.

Dia3

De titel van de presentatie is ook hergebruikt (Give me your data – please) en is afkomstig van Sir Tim Berners-Lee. Berners-Lee is de bedenker en één van de grondleggers van het World Wide Web, hij schreef de eerste webbrowser en de eerste webserver. Als directeur van het World Wide Web Consortium houdt hij toezicht op de ontwikkeling van webtalen en –protocollen als HTML, XML, CSS en HTTP. Hij streeft naar het semantisch web, dat wil zeggen, een World Wide Web waarin informatie inhoudelijk benoemd en ingedeeld is op een voor computers verwerkbare manier.

 Dia4

Berners-Lee heeft 2 keer op TED gesproken. In 2009 riep hij op om de oorspronkelijke data online te plaatsen, nog voor een organisatie een website daarom heen bouwt (welk archief durft dit?). In 2010 liet hij ziet wat er allemaal al voor moois was gebeurd met open data. Twee video’s van Berners-Lee die zeer zijn aan te raden. Dia5

Bij open data wordt er naar gestreefd om de beperkingen in het hergebruik tot een minimum te beperken. Om partijen die open data publiceren te stimuleren om hun data in een zo herbruikbaar mogelijk formaat beschikbaar te stellen, heeft Berners-Lee een vijfsterrenmodel voorgesteld.

Dia6

Tijdens de presentatie werd aan de aanwezige archivarissen gevraagd op wiens website of weblog nieuws werd gemeld (vele vingers gingen uiteraard omhoog). De vervolgvraag was of deze informatie ook via RSS werd geboden (helaas gingen minder vingers omhoog). De archieven die hun nieuws via RSS bieden werden gecomplimenteerd, want dit is al een mooie vorm van open data!

Dia7

Op basis van deze RSS feeds kan het nieuws van de archieven heel eenvoudig ook elders onder de aandacht worden gebracht, zoals via de Genealogie Gazet, een online inspiratie magazine voor stamboomonderzoekers dat (alleen) beschikbaar is op smartphones en tablets.

Dia8

Ook andere informatie wordt in de Genealogie Gazet (via RSS) getoond, zoals video’s vanaf YouTube of zoekplaatjes van het Stamboom Forum.

Dia9

Bij open data wordt al snel aan ‘de pot met goud’ of ‘alles of niets’ gedacht. Een archief heeft echter verschillende soorten informatie (data en content) die aangeboden zouden kunnen worden voor hergebruik, zoals:

  • Informatie over het archief (adres, openingstijden, URL, ...)
  • Informatie over archieftermen
  • Archief inventaris
  • Nieuws of nieuwe zoekresultaten
  • Indexgegevens
  • Scans/foto's
  • Synoniemen achternamen of voornamen
  • Plaatsnamen, synoniemen, geo-informatie (dus ook vooral niet meer bestaande plaatsen)
  • Statistieken website/zoekmachine gebruik
  • Handleidingen

Dia10

De ArchiefWiki biedt informatie over archieven en archieftermen. De reden waarom deze website met name wordt genoemd is vooral vanwege het logo (dat ook rechtsonder op de ArchiefWiki prijkt).

Dit logo geeft een Creative Commons licentie (CC-BY-SA) weer. Gebruikers mogen het werk kopiëren, verspreiden en doorgeven, afgeleide werken maken en gebruik maken van het werk voor commerciële doeleinden. Onder de voorwaarden van naamsvermelding en gelijk delen.

Het is een licentie, maar ik zie het vooral als uitnodiging om de mooie data te hergebruiken!

Dia11

Naast de Archiefplanner gebruik ik de archiefdata ook in de mobiele versie/app van de Genealogie Werkbalk (beta versie).

Dia12

In deze applicatie wordt ook weer het nieuws en de tweets van archieven om een mooie wijze gepresenteerd (dankzij RSS).

Dia13

Naar aanleiding van een blog artikel Leo Hollestelle (Zeeuws Archief) getiteld Synoniemen : verschillende schrijfwijzen van voor- en achternamen heb ik gevraagd of hij deze lijst met synoniemen beschikbaar kon stellen hetgeen hij heeft gedaan. Deze lijst met synoniemen gebruik ik bijvoorbeeld in de zoekfunctie van Genealogie Online om zoekers op alternatieve schrijfwijzen van een familienaam te wijzen.

Dia14

De synoniemen lijst wordt op eenzelfde manier gebruikt in het Wie (onder)zoekt wie? register. Uiteraard wordt Zeeuwen Gezocht hiervoor gedankt: op basis van de open data kan ik mijn gebruikers een extra stukje functionaliteit bieden!

Dia15

De synoniemenlijst, ooit opgebouwd vanuit de ISIS applicatie die het Zeeuws Archief gebruikte, wordt nu ook gebruikt op Zeeuwen Gezocht en Archieven.nl. De gebruiker kan op deze website aangeven dat er automatisch ook op synoniemen van voor- of achternamen wordt gezocht. De data wordt dus al heel wat hergebruikt!

Dia16

De Genlias Monitor is één van de eerste diensten die ik heb gemaakt. Genlias bevat door het werk van vele vrijwilligers meer en meer data. Ik ben lui en wil niet elke maand terug naar de website om te kijken of er nieuwe gegevens zijn (moet je ook nog eens onthouden welke data je al had en welke niet). Op Genlias kun je de informatie van één akte inzien (in HTML), ik wilde alle resultaten van een zoekactie, en in een formaat waar ik meer mee kan, zoals PDF, GEDCOM of Excel. Deze ‘luiheid’ heeft mij bewogen om deze dienst  in 2003 te maken. Ook al wordt de data niet in een open data formaat geboden (er wordt screenscraping gebruikt) en mag de data strikt genomen niet geharvest worden (door copyright, maar de dienst wordt gedoogd).

Dia17

Naast ‘luiheid’ is de dienst ook wel uit enige frustratie ontstaan. Waarom bood Genlias deze monitoring functie zelf niet? Waarschijnlijk omdat er geen budget voor was. Als er geen budget is waarom dan de data niet open zetten zodat derden deze functionaliteit kunnen bieden? Vragen die archieven ook heden ten dagen zich moeten stellen.

Dia18

Het Brabants Historisch Informatie Centrum (BHIC) heeft mij bij wijze van experiment al haar genealogische data verstrekt. Op mijn weblog heb ik hier een artikel aangewijd: Wat zou jij doen met de genealogische data van een heel archief? Over het gebruik zijn goede (informele) afspraken gemaakt, het is niet persé alles open zonder voorwaarden.

Dia19

De data van het BHIC is onder andere gebruikt om diverse visualisaties te maken. Door data in andere vormen te tonen kunnen patronen zichtbaar worden en nieuwe inzichten ontstaan.

Dia20

Diverse archieven bieden op hun website akten aan van de Burgerlijke Stand en de DTB. Genealogie Online heeft hiervan een inventarisatie gemaakt, wat helaas veel handwerk nodig had. De informatie over het inventaris archieven wordt in vele vormen aangeboden, soms met zoekinterface en XML uitvoer, vaak ook in HTML, Word of PDF of alleen in nieuwsberichten of via e-mail.

Dia21

De dataset met ‘beschikbare scans per plaats/jaar/archief’ wordt gehouden tegen de genealogische publicaties op Genealogie Online. Zo wordt het feit dat Jan Maurits van Stockum in 1947 te Heiloo is geboren verbonden met de kennis dat het Regionaal Archief Alkmaar scans van het Overlijdensregister uit Heiloo in 1947 biedt. Zodoende is een zeer nuttige functionaliteit voor stamboomonderzoekers ontstaan!

 Dia23

Genealogie Online kan met de Scans zoeken service haar gebruikers dus heel direct naar de akten brengen op de website van archieven. Eén klik verder en de akte wordt getoond.

Dia24

Op dezelfde pagina van Jan Maurits van Stockum wordt ook nog enige context informatie getoond. Bijvoorbeeld het weer op de geboortedag, op basis van historische weerreeksen die het KNMI open aanbiedt voor hergebruik. Ook informatie over vorst, kabinet en historische gebeurtenissen in het geboortejaar worden getoond, dit maal afkomstig van Wikipedia.

Dit gebruik van open data op Genealogie Online wordt met name getoond voor de volgende boodschap: ook archieven kunnen open data hergebruiken en dit soort (of andere) informatie tonen aan hun gebruikers!

 Dia25

De website Militieregisters.nl komt om twee redenen voor in deze presentatie. Ten eerste weer een stukje frustratie. Bij nieuwe websites probeer ik altijd eerst te zoeken naar informatie over de familie Coret. Toen ik dat bij de opening van Militieregisters.nl probeerde waren er geen akten. De vrijwilligers van Velehanden.nl (die de militieregisters nu indexeren) hebben al heel wat werk verricht. Toen ik bij de voorbereiding van deze presentatie weer Coret intypte waren er wel resultaten. Waarom was ik daar door Militieregisters.nl niet op geattendeerd? Dat zijn de leukste mailtjes om te sturen! Ideaal voor de relatie tussen website en gebruiker! Waar is de monitoring functie? Waarschijnlijk weer een functie die op de wensenlijst staat maar vanwege prioriteiten en beperkt budget is gesneuveld.

Ten tweede wil ik met dit voorbeeld aangeven dat een ‘business model’ hand in hand kan gaan met open data. Militieregisters.nl is op zich een winkel, zoals Bol.com, waar akten worden verkocht. Hoe meer akten er worden verkocht hoe beter het is voor Militieregisters.nl (kan er weer meer gescand worden of functionaliteit worden toegevoegd). Militieregisters.nl zou eigenlijk de index data (dus naamgegevens, plaatsen en jaartallen) vrij moeten geven. Derden zouden op basis van deze informatie weer mooie diensten kunnen maken (denk aan Scans zoeken) waardoor er meer bezoekers worden geleid naar Militieregisters.nl waardoor er meer akten verkocht worden. Ik heb de vraag voor de index gegevens voorgelegd aan Militieregisters.nl, maar nog niet alle deelnemende archieven stonden open voor dit ‘open’ idee…

Dia27

Ik hoop dat archieven door deze presentatie met zeer praktische voorbeelden naast bedreigingen ook de vele kansen zien die het bieden van open data biedt. Dat open data aansluit bij de missie/kernwaarden van archieven zoals openbaarheid, controle van democratie, toegang tot informatie en breed gebruik.

Open data kan leiden tot nieuwe functionaliteit voor gebruikers/bezoekers, feedback en inzicht, extra verkeer en verkochte producten

Ik ben niet de enige die om de (open) data zit te springen, andere individuen, instellingen en bedrijven kunnen ook uw data laten bloeien!

05 juni 2012

Help Regionaal Archief Leiden met het leggen van koppelingen

imageVan de doop-, trouw- en huwelijksakten (DTB) bij Regionaal Archief Leiden zijn scans beschikbaar en ook zijn er naamindexen per register. Echter, deze index brengt je naar het register, niet naar de juiste pagina van het betreffende register. Vanaf vandaag kunt u meehelpen om deze missing links aan te brengen!

Vele handen maken licht werk

Vrijwilligers verzetten al decennia veel werk om archiefmateriaal beter toegankelijk te maken. VeleHanden is een online platform waarop archieven scans kunnen aanbieden, zodat vrijwilligers deze beter toegankelijk kunnen maken.

Een tweetal projecten staat reeds op VeleHanden en deze vorderen gestaag: de militieregisters en de bevolkingsregisters van Amsterdam uit de periode 1874-1893.

image

Bij deze twee projecten krijgt de vrijwilliger een akte te zien in een viewer waarvan bepaalde onderdelen ingetypt moeten worden.

Nieuw project: Missing Links

image

Sinds vandaag is er een derde project beschikbaar op VeleHanden getiteld Missing Links. Doel van dit project is om de scans van de DTB te koppelen aan namen. De auteur van deze weblog had de eer om het project te openen en de eerste namen te koppelen aan een scan.

Wat dit project anders maakt dan de andere twee projecten is dat Regionaal Archief Leiden al een naamindex heeft van het materiaal, deze zijn echter gekoppeld aan registers. Deze naamindex, het werk van vrijwilligers, wordt nu ingezet als hulp bij het koppelen!

Dit werkt als volgt: als de vrijwilliger op VeleHanden een akte uit de DTB krijgt voorgeschoteld dan kan er onder de akte een (deel van de) naam worden ingetypt. Omdat het systeem weet uit welk register de akte komt wordt er in de naamindex van het betreffende register gezocht. In onderstaand voorbeeld levert de invoer “leendert” al heel snel slechts acht resultaten op. Door nu op het juiste zoekresultaat te klikken (nadat je de akte een stukje hebt opgeschoven om ook de naam van in dit geval de bruid te bekijken) wordt er vastgelegd dat Leendert Eland en Elisabeth Plank voorkomen op deze scan.

image

Er hoeft bij dit project dus minder getypt te worden ten opzichte van de andere 2 projecten doordat eerder vrijwilligerswerk beschikbaar is en wordt gebruikt.

Net als bij alle andere projecten op VeleHanden worden akten door twee vrijwilligers bewerkt waarna een controle plaatsvindt door een derde persoon. Zijn de akte en de gelegde koppelingen met namen eenmaal gecontroleerd dan is het resultaat al de volgende dag via de zoekmachine van http://www.archiefleiden.nl/ beschikbaar! Waar je dus voorheen nog door een heel register moest bladeren kom je dan direct op de juiste pagina.

Waarmee wilt u helpen?

Wanneer u start met het koppelen van de namen aan de scans uit de DTB registers, dan kan het zijn dat er akten uit de 17e eeuw in Frans of Latijn en lastig handschrift worden getoond. Hoe goed zijn uw paleografische vaardigheden?

image

Nieuw aan dit project binnen VeleHanden is ook dat u een voorkeur kunt opgeven. Op de Voorkeuren pagina van het Missing Links project  kunt u aangeven of u gemakkelijke, normale of moeilijke akten wilt krijgen. Of deze in het Nederlands en/of Latijn moeten zijn. Ook kunt u aangeven met welke plaatsen u graag aan de slag gaat: Hillegom, Leiden, Leiderdorp, Noordwijk, Rijnsburg, Sassenheim, Voorhout, Voorschoten, Warmond en/of Zoeterwoude.

Resultaat

Het resultaat van dit project leidt tot een beter toegankelijkere DTB voor (stamboom)onderzoekers. Vrijwilligers die hieraan bijdragen krijgen, naast voldoening en plezier, ook een vergoeding in de vorm van punten. Met deze punten kan er in de webwinkel van Regionaal Archief Leiden scantegoed aangeschaft worden zodat er bijvoorbeeld (hoge resolutie) scans van DTB akten kunnen worden gedownload!

image

Helpt u het archief een handje?