Stel je eens voor: je krijgt een groot deel van de genealogische data van het Brabant Historisch Informatie Centrum (BHIC) ter beschikking. Wat zou je er dan mee doen? Wat voor toepassing kan er gemaakt worden? Welke type vragen zie je graag beantwoord?Open dataHet vrijelijk beschikbaar stellen van data voor hergebruik, bij voorkeur in een standaard formaat, wordt ook wel open data genoemd. Het zet de deur open naar nieuwe toepassingen, die de instelling (die de open data biedt) niet zelf hoeft te verzinnen, te realiseren en te bekostigen, maar waar de open data “hergebruiker” mee aan de slag kan om leuke, innovatieve en/of nuttige toepassingen van te maken.Archiefdata achter betaalmuur of open?De inventarissen van archieven en indexen op bronmateriaal zijn goede kandidaten om beschikbaar te stellen als open data. Veel van deze data is tot stand gekomen door archivarissen en vrijwilligers, op basis van geld van de overheid. Geld vragen voor deze overheidsinformatie is niet gepast. Maar geld vragen voor de scans is daarentegen wel redelijk. Zo kun je je voorstellen dat websites of mobiele apps die gebruik maken van deze open index data voor extra bezoekers aan de website van het archief zorgen die daar dan scans kopen. Dit extra geld kan weer in digitalisering gestopt worden!Alhoewel er een frisse open data wind door Nederland waait, zie ook http://data.overheid.nl/, is de archiefsector nog wat huiverig. Er wordt wellicht meer in bedreigingen gedacht dan kansen. Ik zeg: mouwen opstropen en gewoon doen!BHIC en ik aan het experimenterenAls experiment heeft het BHIC mij toegang gegeven tot de data van de DTB, Burgerlijke Stand en Memories van Successie. Het is voor het BHIC een experiment om te kijken wat er bij open data komt kijken en wat het op zou kunnen leveren.Christian van der Ven (BHIC) heeft hier vandaag ook op zijn blog De Digitale Archivaris.Het verkrijgen van de data duurde een uur of vijf en leverde mij zo’n 1,7 GB aan XML data op. Ik heb nu dan ook de genealogische data van het BHIC! Tja, en wat moet je daar nu mee…?Op zich zou ik nu dezelfde zoek/presentatie functionaliteit kunnen bieden als het BHIC doet. Maar daar schieten we niets mee op. De toepassingen van deze open data liggen elders.Statistieken en visualisatieEen eerste toepassingsgebied is om de data op diverse manieren te visualiseren. In een tweetal Proof-of-Concepts heb ik de BHIC data op verschillende manieren gepresenteerd.Bij de eerste visualisatie wordt er inzichtelijk gemaakt wat voor type data van welke plaats en jaar er beschikbaar is. De treemap biedt de mogelijkheid om in te zoomen op een lager detail niveau.Bij een tweede set van visualisaties is de data van dopen en geboorten bij de kop gepakt. Hier kun je dan een top 10 lijstje maken van familienamen of voornamen, per plaats (op Google Maps) of jaar. Of je kunt in grafiekvorm zetten hoeveel voornamen men in de loop van de tijd aan hun kinderen gaf (ik wist niet dat meerdere voornamen iets was dat pas tussen 1850 en 1900 een vlucht nam). Het aantal geboorten/dopen per maand door de jaren is in een bewegende grafiek weer te gaven (vooral leuk, maar nuttig?). De informatie in de dataset omtrent beroepen was niet heel uitgebreid, maar toch genoeg om er een tagcloud van te maken zodat je de belangrijkste beroepen in Brabant in één oogopslag ziet.Het visualiseren van open data kan nieuwe inzichten opleveren, trends signaleren of vragen oproepen (waarom zijn er die maand zo veel mensen overleden?).
CombinerenJe kunt de open data ook combineren met andere (open) data. Denk dan bijvoorbeeld aan de genealogische gegevens op Genealogie Online, als je die “matched” met de data van een archief dan kan ik de stamboomonderzoeker direct verwijzen naar akten (en scans) die het archief ter beschikking stelt. Dit borduurt dus verder op de Scans zoeken service van Genealogie Online.Een andere leuke dataset om mee te combineren zijn de “Antieke reeksen” van het KNMI. Hiermee zou je kunnen bekijken of er een samenhang is tussen de gemiddelde temperatuur of luchtdruk en het aantal geboorten of begrafenissen.FunctionaliteitHet bedenken van innovatieve toepassingen op basis van open data is uitdagend. Vanuit mijn achtergrond denk ik dan snel aan Monitor functionaliteit (een seintje als het BHIC nieuwe data heeft betreffende een bepaalde familienaam) of “vertaal” functionaliteit (de data in GEDCOM, Excel of PDF).InspiratieWat zou jij doen met de data van een archief? Heb je bepaalde zoekvragen die op dit moment niet beantwoord kunnen worden via de zoekmogelijkheden van een archiefinstelling? Of ben je benieuwd welke trends er uit de genealogische data te halen is? Zou je de data wel eens willen combineren met andere data sets die openbaar beschikbaar zijn?Graag hoor ik via reacties op deze blogposting jullie ideeën hoe we open archiefdata zouden kunnen hergebruiken!
In antwoord op je vraag zou ik haast zeggen, de sky is the limit. Wat mij zo te binnen schiet is het afzetten van beroepen, militairen, familienamen tegen een tijdlijn/geografische spreiding. Het aantal kinderen tegen religie, kindersterfte vs economische ontwikkelingen en epidemieën, enz.
Geweldig!
Zelf zou ik een toepassing à la de Nederlandse Voornamenbank en de Nederlandse Familienamenbank erg interessant vinden:
Welke familienamen komen waar voor en hoe verandert dit in de loop der jaren? (Wellicht toename van het aantal namen in de steden door verstedelijking?) Wat zijn waar de populairste voornamen en wat is de relatieve en absolute populariteit van specifieke namen? Regionale populariteit van bepaalde namen zegt wellicht ook iets over plaatselijke heiligenverering.
(Dat de 'veelnamigheid' pas midden 19e eeuw opkwam, heb ik zelf ook geconstateerd bij mijn Limburgse voorouders.
Twee namen kwam daar eind 18e eeuw al wel voor, maar een eeuw later gingen ze helemaal 'los'. Mijn betovergrootvader Christian Claudius Kamps noemde zijn kinderen Rosa Bertina Elisa Laetitia Editha, Rosa Bertina Elisa Laetitia Editha Marcellina, René Werner Joseph Claudius Emilius, Guillemine Claire Edith Josephine en Elmire Sidonie Blanche Edith Josephine.)
Bob, je laat overtuigende toepassingen zien van persoonsdatabestanden van archiefinstellingen, toepassingen die een verdieping zijn voor genealogisch, historisch en heemkundig onderzoek. Maar wat als de met overheidsgeld genereerde data voor commerciële toepassingen worden gebruikt? Dan is de publieke zaak de private zaak aan het sponsoren? Geld vragen voor overheidsinformatie is niet gewenst, maar de kosten voor het digitaal beschikbaar stellen van deze data zijn hoog.
Leo,
Bedankt voor de prikkelde vragen! Ik zal er wat prikkelde stellingen en wedervragen op geven, voorzien van voorbeelden in de archiefsector, in meerdere delen (zit nl. een beperking op de grootte van reacties kwam ik net achter).
> Maar wat als de met overheidsgeld genereerde data voor commerciële toepassingen worden gebruikt?
– Wat bedoel je eigenlijk met "met overheids genereerde data"? Heb je het – als ik even kijk naar de archiefsector – over archieftermen, de meta-informatie (inventarissen), een achternamen-synoniemenlijst, de indexen op akten of de scans… Zie ook Over welke data praten we nu eigenlijk?
– Hoe groot is nu het risico dat partijen commerciële toepassingen gaan maken met sec de opendata? Stel je voor: op basis van de data van het BHIC kan ik eenzelfde zoekmachine machine maken als die het BHIC zelf heeft. Reken maar dat als ik hier geld voor vraag aan gebruikers dat de gebruikers niet naar mijn toepassing komen maar leuk bij het het BHIC blijven. Dit was meer het "kans"-deel van risico, laten we eens naar het "impact"-deel kijken. Stel dat mijn toepassing wel succesvol is en het BHIC bijna geen bezoekers heeft op haar site. Is dat een ramp? Natuurlijk jammer voor Christian en zijn collega's en van de investeringen in de website, maar tijd en geld dat wellicht dan ergens anders ingestoken kan worden? Als je als instelling inzicht kan geven in het gebruik van de data (in plaats van het huidige inzicht in websitegebruik) dan kun je het bestuur/subsidieverstrekkers ook tevreden houden/krijgen.
– Mag een commcerciële partij die investeert in een tool en gebruik maakt van opendata niet verdienen? Wil je geen investeringen/innovatie in de archiefsector? Stel je voor: ik maak een iPhone app waar je de data van het BHIC mee kunt doorzoeken, wellicht dat mensen wel €0,50 over hebben voor een dergelijke app. Mochten er 1000 mensen zijn die deze app kopen heb ik toch weer €500,- verdiend… minus ontwikkelkosten en BTW… Kosten die dan overigens voor mij zouden zijn, het BHIC zou het geen cent kosten. Of zou het BHIC een iPhone app moeten (laten) maken?
(2de deel reactie)
– Je kunt natuurlijk gewoon afspraken maken over het gebruik van de data (hoeft dus niet #grenzeloos): "niet voor commercieel gebruik" of (slimmer) "wij vragen 10% van de omzet" (ook hier denk ik niet dat het een melkkoe zal worden). In de data die ik van het BHIC heb zitten ook links naar de scans die ze via hun website deels gratis deels betaald aanbieden. Stel je voor: via mijn app kun je met één klik scans kopen (waarbij het geld naar het BHIC gaat conform te maken afspraken) waardoor de verkoop van scans verdubbeld. In dit geval is het toch niet meer dan fair dat het BHIC mij hiervoor een vergoeding geeft?
> Dan is de publieke zaak de private zaak aan het sponsoren?
– Allereerst, wie denk je dat er meer geld heeft gekregen: De Ree van het Zeeuws Archief of Coret Genealogie van het BHIC 😉 ?
– bij sponsoren denk ik altijd aan één partij een voordeel geven. Bij opendata geef je het vrij, aan iedereen (met wellicht enige gebruiksbeperkingen).
– bij sponsoren is er ook veelal sprake van een tegenprestatie…
– bedenk dat opendata veelal data is die een organisatie al gewoon heeft en vaak in één of ander formaat (denk website of publicatie) beschikbaar stelt. Met opendata creeer je mogelijkheid op nieuwe, extra mogelijkheden!
> Geld vragen voor overheidsinformatie is niet gewenst, maar de kosten voor het digitaal beschikbaar stellen van deze data zijn hoog.
– Geld vragen voor overheidsinformatie is inderdaad niet gewenst, vooral als er al voor betaald is…. In de archiefsector is het ook nog eens zo dat veel dan de genealogische informatie (indexen) vaak door vele vrijwilligers zijn gegenereerd.
– Aan het scannen van archiefmateriaal zit een prijskaartje. Maar gebruikers zijn best bereid om voor deze scans te betalen. Net als het fysieke archief, waar de informatie vrij is en de kopie betaald moet worden. Ik denk dan gelijk geef mij de data dan zorg ik voor de gebruikers die scans willen kopen (bijv. omdat het matched met hun eigen genealogische gegevens)… wie kan daar tegen zijn?
(3de deel reactie)
– Dit prijskaartje kun je ook best aan extra dienstverlening koppelen. Bied je een digitale service die erg handig is, denk aan een archiefwebsite die achter een betaalmuur een monitor functie biedt, GEDCOM export, PDF lijsten, matching op basis van aangeleverde gegevens met scannen, enz. , dan zijn dat zaken waar mensen best voor willen betalen. Hier begin ik me wel af te vragen of dit nog zaken zijn waar een archiefinstelling zich mee bezig moet houden (=core business?). Moet dit nu niet aan markt partijen over gelaten worden, of zelfs gestimuleerd… met open data?
– Aan de infrastructuur (hardware, opslag, bandbreedte) zit inderdaad een prijskaartje. Maar hoog? Waar praten we over? Uitgaande van het hosten van 5 TB aan afbeeldingen in een Europees datacenter van Amazon en 200 GB per maand aan dataverkeer en 200 duizend bevragingen per maand kom ik grofweg op € 6.000 per jaar.
– De software (bouw, licenties, beheer) voor collectieregistratiesysteem en website kost ook geld. Enerzijds heb ik zoiets van: maak de alle kosten inzichtelijk! Dit komt het begrip van de gebruikers ten goede en zet marktpartijen op scherp! Anderzijds, de toepassingen die ik mede op basis van (open) data van archieven heb gemaakt hebben de instellingen geen cent gekost!
Bovenstaande is gefocust op commercie, maar laten we ook de mogelijke niet-commerciële toepassingen door particulieren, verenigingen en bedrijven niet uit het oog verliezen.
In bovenstaande stap ik wellicht wat te snel heen over de bekommeringen van overheidsorganisaties, met name financiën, bestaansrecht en imago. Maar dit doe ik vooral om te laten inzien dat er kansen zijn bij het beschikbaar stellen van data, voor overheidsorganisaties in het algemeen en de archiefsector in het bijzonder!
Bob
Dat is een snelle en zeer uitgebreide reactie Bob. Volgens mij zat jij op dergelijke opmerkingen te wachten om daarmee de grenzeloze mogelijkheden van het gebruik van open data nader te kunnen toelichten. Je noemt enkele zeer interessante redenen. Ik zal daar later nog uitgebreider op reageren (vooral over de 'kansen' die je noemt). Op één reden reageer ik al wel (even) omdat deze tot de categorie 'dooddoeners' hoort, namelijk "veel gegevens zijn ingevoerd door vrijwilligers". Alsof het inzetten van vrijwilligers geen geld kost/heeft gekost. Mijn ervaring is dat de inzet van een kleinere groep datatypisten goedkoper is en meer productie oplevert dan de inzet van grotere groepen vrijwilligers.
De ervaring van het Zeeuws Archief met de inzet van vrijwilligers is dat dit het draagvlak bij het publiek voor dergelijke projecten vergroot en dat het veel goodwill oplevert, maar goedkoop is het niet. Oftewel er hangt een prijskaartje aan 'onze' data, of deze nu is ingevoerd door professionals, vrijwilligers of Polen.
Een beetje laat maar ik wil ook nog reageren op het kostprijsverhaal.
Ik snap niet goed dat archieven ineens allerlei commerciële belangen zien opduiken die er altijd al zijn geweest. Als 30 jaar geleden iemand een boek schreef op basis van informatie uit een archief en er geld aan verdiende was dat geen probleem. Sterker nog, als dat nu, vandaag gebeurt, dan kraait er geen haan naar. Of moeten we aan de studiezaalbezoeker gaan vragen of hij/zij aan een commercële uitgave werkt?
Wat te denken van bureau's die dik betaalt krijgen om onderzoek in archieven te doen, naar bodemvervuiling of achtergebleven bommen. Moeten we daar ook kosten voor gaan rekenen?
Ik vind het eerlijk gezegd een beetje zielig om op die manier naar onze data te kijken. We dienen het doel van openbare informatie. We willen toch graag dat die informatie gebruikt wordt? Hoe meer hoe liever, hoe laagdrempeliger hoe liever, hoe vaker hoe liever. Zo zie ik dat tenminste.
Als archiefdienst moet je kiezen voor digitale beschikbaarstelling. Niet doen alsof dat iets is wat ons overkomt en waar we ons ineens voor allerlei problemen gesteld zien. De keuze maken is ook de consequenties aanvaarden. We hebben minder studiezaal nodig, minder dienstverlening in fysieke zin. Dus de kubieke meters die we nu heel duur betalen kunnen ingewisseld worden voor een goede online beschikbaarstelling van onze digitale data, open en gratis.
Maar dan moet je die keuze wel maken en niet redeneren dat je dat gebouw nog steeds nodig hebt.
Ik ben het ook met Bob eens dat we de markt actief moeten laten zijn met het ontwikkelen en exploiteren van apps, of ze nou mobiel zijn of voor de pc/laptop. Wij zijn archiefdiensten en geen bedrijven. Dat moet men ook niet van ons willen maken, want dat kunnen wij niet.
Wij moeten data/informatie beschikbaar stellen op een zo open mogelijke manier en anderen lekker laten stoeien zodat het gebruikt kan worden, gebruikt op manieren die we zelf misschien nooit gedacht hebben. En als iemand daar dan een leuke boterham aan verdient, so what?
Ik vind dat jullie goede argumenten hebben. En Bob, je hebt al fantastisch werk verricht!!! Ik ben heel blij met al jouw creaties. (Dat mag ook weleens gezegd worden.) En een prima idee om scans dan wel tegen betaling te krijgen. Nu maak je toch ook nog een afdruk of een copie. Hebben jullie ook in het blad van het CBG gelezen dat er misschien voor iedereen een ID code komt? Dat zou misschien ook iets voor Bob zijn om zich daar mee te bemoeien, want zijn kennis van programmeren zou daarbij wel gewenst zijn denk ik. Dan kun je in principe ook alle data aan elkaar koppelen, omdat dan iedereen een eigen code heeft. Dan maakt het ook niet meer uit in welke archieven de personen voorkomen. Met zo'n eigen code zou je in de toekomst dan met een druk op de knop alle beschikbare informatie over die bewuste persoon hebben. Ik hoop zo dat dit snel geneuren gaat.