Mijn handen jeuken om een alternatief te maken voor het lovenswaardige maar technisch achterhaalde Van Papier Naar Digitaal (VPND). Maar ik heb er geen tijd voor, dus het blijft bij advies aan VPND en bruikbare tips die iedereen kan gebruiken om gescande en gefotografeerde akten op Internet te plaatsen en vindbaar te maken. Tip: Zet de archiefstukken op Scribd of Flickr In een eerder (niet opgevolgd) advies aan VPND besprak ik de mogelijkheid om gratis de PDF bestanden op sites neer te zetten als Scribd of Flickr. Een zeer mooi voorbeeld: scans van het Bredevoort domein uit 1.08.11 Nassause Domeinraad uit het Nationaal Archief door Yvette Hoitink op Flickr geplaatst: Iedereen kan de foto’s die zij van archiefstukken maken eenvoudig en gratis op websites als Flickr en Scribd plaatsen. Via comments kunnen opmerkingen en transcripties door iedereen worden geplaatst. Via tags (steekwoorden) kunnen afbeeldingen eenvoudig vindbaar worden gemaakt, zo heeft Yvette bij bovenstaande set de volgende tags opgenomen: Bredevoort, Winterswijk, Aalten, Dinxperlo, Nationaal Archief, genealogie, genealogy, archives, Nassause Domeinraad, history. Websites als Flickr en Scribd zorgen ervoor dat hun content geïndexeerd wordt door zoekmachines, dus daar hoef je zelf niets voor te doen.
Via Scribd en Flickr kun je eenvoudig en gratis je eigen Van Papier Naar Digitaal maken!
Google is je vriend! Je website gebruikersvriendelijk, doorzoekbaar en vindbaar door zoekmachines maken zijn zeer belangrijk. Zeker als je belangrijke, door vrijwillige geproduceerde inhoud op Internet plaatst, dien je er zorg voor te dragen dat deze informatie goed wordt gepresenteerd en te vinden is via Google. Echter, op dit moment zijn bijvoorbeeld de bijdragen van mevrouw Erica van Dooremalen voor VPND via Google niet terug te vinden! Dat zij bijvoorbeeld foto’s heeft gemaakt van de bron “Havendienst van de gemeente Dordrecht, toegangsnr. 68a” en deze heeft getranscribeerd is niet via Google te vinden en toch staat het op VPND. De reden dat niets van dit moois meer direct via Google of andere zoekmachines is te vinden komt doordat VPND de zoekrobot van onder andere Google de toegang heeft ontzegd! Dit is gedaan (via robots.txt) in een poging om de capaciteitsproblemen die VPND heeft het hoofd te bieden. En ja, zoekmachines niet meer toelaten en daarmee je webpagina’s onvindbaar maken is dan een optie… maar dat doet geen recht aan het de inhoud van VPND! Gelukkig is veel content nog wel te vinden via websites als de Stamboom Gids en het Het Archiefforum. Om het waardevolle werk van al die vrijwilligers niet in een zwart gat te laten verdwijnen hierbij (weer) wat tips voor VPND. Google Webmasterhulpprogramma’s Zoekmachines als Google crawlen met zoekrobots heel het Internet af om content te vinden die ze kunnen indexeren zodat wij het via Google’s zoekmachine kunnen vinden. Webmasters kunnen via Google Webmasterhulpprogramma’s inzicht krijgen hoe vaak (per dag) de Googlebot hun website bezoekt. Hieronder een voorbeeld van Genealogie Online: Ook kan de crawlsnelheid (dus hoe vaak komt de Googlebot op je website) ingesteld worden. Voor Genealogie Online (miljoenen pagina’s met voorouders) heb ik deze iets sneller gezet: Google mag per seconde 2 pagina’s opvragen. De snelheid kan natuurlijk ook langzamer gezet worden om bandbreedte te besparen. Selectief laten indexeren Zoekmachines kijken voordat ze een website indexeren naar het bestand robots.txt. In dit bestand kan een webmaster aangeven wat wel en vooral niet geïndexeerd mag worden. Het robots.txt bestand van Genealogie Online ziet er bijvoorbeeld als volgt uit:
User-agent: *
Disallow: /ged/
Disallow: /zoek/
Disallow: /zoeknaam.php
Disallow: /contact.php
Hieruit kunnen zoekrobots lezen dat ze alles mogen indexeren behalve een tweetal sub-directories en een tweetal bestanden. VPND heeft via robots.txt nu aangegeven dat zoekmachines niets mogen indexeren:
User-agent: *
Disallow: /
Wat men wil is dat de vele megabytes aan PDF bestanden niet worden geïndexeerd, dat kost namelijk veel bandbreedte en Google kan er toch niet veel mee omdat het afbeeldingen zijn. Voor Genealogie Online wil ik ook niet dat afbeeldingen door Google worden geïndexeerd. Om deze reden staan alle afbeeldingen op het domein http://img.coret.org/ en http://img3.coret.org/ en op deze domeinen laat ik zoekmachines niet toe. Echter alle andere interessante content op Genealogie Online (op het domein https://www.genealogieonline.nl/) is wel toegankelijk voor Google.
Als bovenstaande aanpak (PDF-jes op apart sub domein of subdirectory plaatsen) voor VPND niet kan dan is er nog een tweede optie: we willen namelijk wel alle tekst van VPND door Google geïndexeerd maar niet de PDF bestanden. Via robots.txt geef je dat als volgt aan (werkt alleen voor Google):
User-agent: Googlebot
Disallow: /*.pdf$
Alhoewel de tips ten aanzien van indexering helpen voor de korte termijn is mijn advies voor VPND toch ook: Zet de archiefstukken op Scribd of Flickr! VPND kan een index worden naar scans die overal en nergens staan. Maar om deze index gebruikersvriendelijk en doorzoekbaar te maken adviseer ik wel om over te gaan naar een dynamische website en niet alles handmatig met FrontPage te blijven doen.
Heel interessante post Bob.
Als archiefdienst is het ook interessant om je bezoekers te vragen of ze de foto’s die ze van archiefstukken maken met je willen delen, b.v. via een flickr pagina of andersinds.
Ik wed dat ze in Keulen zouden willen dat ze een heel open beleid hadden gevoerd ten aanzien van het fotograferen van archiefstukken. Dan zou nu waarschijnlijk veel informatie ten minste in digitale vorm nog beschikbaar zijn geweest.
Kortom: punt van aandacht voor archieven!
Steeds als ik bij het Nationaal Archief foto's ga maken, moet ik weer een formuliertje invullen en ondertekenen dat mijn foto's niet voor publicaties bedoeld zijn. Als ik me niet vergis heeft het Nationaal Archief, zoals de meeste archieven, een prijslijst met wat het publiceren van archiefstukken me zou kosten. Publicatie op sites als Flickr staat vast ook helder in die prijslijst.
Of dit juridisch steek houdt betwijfel ik eerlijk gezegd wel. In de auteurswet vindt ik wel dat archieven auteursrechtelijk beschermd zijn voor wat betreft de systematische ordening, maar een door mij vervaardigde scan of foto van een enkel 17e eeuws handschrift zonder recent door het archief geproduceerde transcriptie lijkt me volledig buiten de auteurswet te vallen.
Er is mij hierover geen jurisprudentie bekend en ik heb er geen zin in me voor proefkonijn op te werpen.
Voor mij spreekt het voor zich dat alle archiefstukken (voor zover die niet door privacy- of andere wetgeving beschermd zijn) die gedigitaliseerd zijn ook zsm online voor iedereen ter beschikking moeten komen en alles wat nog niet gedigitaliseerd is zsm gedigitaliseerd moet worden.
Overigens is Google al jaren bezig met experimenten aangaande afbeeldingsherkenning, automatisch tekst zoeken in bv foto's (soms zijn de resultaten hiervan herkenbaar als je bv op Google afbeeldingen zoekt naar "slagerij" en foto's krijgt die noch op de website, noch in de titel van de foto "slagerij" hebben, maar wel op een gevel of geparkeerde vrachtwagen), en met tekstherkenning in handschriften. Dit laatste gaat nog in de verste verte niet goed genoeg om Google transcripties te laten maken van archiefscans in PDF bestanden, maar het kan geen kwaad om Googlebot alvast wel te "voeren" met dergelijke PDF's.