Vindbaarheid is volgens Digitaal Erfgoed Nederland: “het digitaal beschikbaar stellen van informatie over erfgoed op basis van gangbare technologie, zodanig dat deze zonder kennis vooraf kan worden hergebruikt door zowel mens als machine” (bron: DE BASIS). In dit artikel staat de vindbaarheid van materiaal in beeldbanken centraal. Concreet: is het beeldmateriaal van archieven ook via Google te vinden? Google en Google Afbeeldingen Google’s zoekmachine is heel uitgebreid, naast de algemene zoekfunctie kun je ook specifiek zoeken naar afbeeldingen, video’s, boeken, plaatsen. Kun je algemene zoekopdrachten beperken qua locatie, taal en periode, de afbeeldingen kun je beperken op formaat, kleur, type (gezicht, foto, tekening) en je kunt zelfs een afbeelding aanbieden om soortgelijke afbeeldingen te vinden. Een ideaal hulpmiddel dus voor de (stamboom)onderzoeker. Voor een viertal archieven is bekeken hoe het staat met de vindbaarheid van hun beeldmateriaal. En dan niet via de zoekmachine op hun eigen site, maar via Google! Archief Leiden Via een zevental collecties biedt Archief Leiden toegang tot het beeldmateriaal dat zij ter beschikking hebben, waaronder de eigen RAL collectie met zo’n 125 duizend kaarten, foto’s en prenten. Eén van de foto’s (helaas met watermerk) is een afbeelding van de Soondergang Conservernfabriek. Wanneer je in Google zoekt op “Andijvie vullen in 3-liter blikken” (dit staat in de beschrijving van de foto), dan is er één zoekresultaat. Mooi, Google heeft de betreffende afbeelding geïndexeerd! Helaas, wanneer je op het zoekresultaat in Google klikt kom je niet op de juiste pagina, maar ook een print versie van de pagina die direct de Print dialoog van de browser activeert! Van dit euvel hebben meer archiefwebsites die dezelfde software gebruiken last. Wanneer je in Google Afbeeldingen zoekt naar Schoondergang Conservenfabriek dan vind je heel wat afbeeldingen van de betreffende fabriek op de Archief Leiden website (en ook op andere websites). Eigenlijk tot mijn grote verbazing, want wanneer je zoekt naar site:www.archiefleiden.nl (dus betekent: geef alle afbeeldingen van het domein www.archiefleiden.nl) dan worden er maar 369 afbeeldingen gevonden. Voor site:www.regionaalarchiefleiden.nl zijn er 363 zoekresultaten. Maar zoeken op site:www.leidenarchief.nl toont wel zo’n 8.040 resultaten! Advies: ga voor één domeinnaam en verwijs van de andere/oude naar die ene. Zeeuw Archief Het Zeeuws Archief is druk doende om haar beeldmateriaal collectie van meer dan 100 duizend foto’s, prenten, tekeningen en prentbriefkaarten te digitaliseren. Om dit moment zijn er zo’n 37 duizend afbeeldingen doorzoekbaar en in te zien via haar website (die hiervoor gebruik maakt van Archieven.nl). De afbeelding (na op het Zeeuws Archief te hebben gezocht op spinazie) die via Google teruggevonden moest worden was er één van vier mannen die spinazie aan het dorsen zijn met een maaidorsmachine op landbouwgrond bij Westkapelle (ook hier met watermerk). Helaas, via Google en Google Afbeeldingen is de betreffende afbeelding niet vinden. De zoekopdracht site:www.zeeuwsarchief.nl levert bij Google Afbeeldingen slechts 475 zoekresultaten. site:www.archieven.nl levert zo’n 93.600 resultaten op, dus wellicht is het geduld hebben, totdat de spiders van Google ook de afbeeldingen van het Zeeuws Archief aldaar hebben geïndexeerd. Gemeentearchief Rotterdam De Beeld en geluid sectie op de website van Gemeentearchief Rotterdam (GAR) biedt toegang tot ruim 108 duizend afbeeldingen. Een prentbriefkaart van Bleiswijk. Warmoeziersbedrijven (zonder watermerk!) was de te vinden afbeelding op Google. De prentbriefkaart was terug te vinden, maar op een andere website (randenberg.com), geen versie op de GAR website. Een andere foto (Distributiekraak Nijkerk – ration office raid at Nijkerk) was wel vindbaar, ook via Google Afbeeldingen. De zoekopdracht site:gemeentearchief.rotterdam.nl levert op Google Afbeeldingen zo’n 62.600 afbeeldingen, dus een deel zal gewoon nog geïndexeerd moeten worden. Wat wel opvalt is dat de zoekresultaten niet leiden naar de pagina van de betreffende foto, maar naar een zoekresultaatpagina op de GAR website waar de gezochte foto er dan één van is. Dit is natuurlijk niet handig, je wilt direct op de detailpagina komen! GaHetNa (Nationaal Archief/Spaarnestad Photo) De Afbeeldingen sectie op GaHetNa geeft toegang tot ruim 500 duizend foto’s en ruim 6 duizend kaarten. De foto van m.s. Oranje in de haven van Tandjong Priok op GaHetNa (zonder watermerk!) wordt goed gevonden met Google Afbeeldingen. Wanneer je op een zoekresultaat klikt kom ke op de GaHetNa website op de pagina die over de betreffende pagina gaat. Zoals hoort het! Ter informatie: site:www.gahetna.nl levert op Google Afbeeldingen 327 duizend resultaten. Deelbaarheid Een aspect die de vindbaarheid van afbeeldingen positief beïnvloed is de mate waarin het delen mogelijk gemaakt cq. gestimuleerd wordt. In dit artikel zijn twee afbeeldingen opgenomen, simpel weg omdat Archief Leiden en GaHetNa het mogelijk maken om makkelijk een afbeelding te embedden, inclusief link terug naar de detailpagina op de betreffende pagina. Het adres van een afbeelding (de detailpagina) is ook van belang. Onderzoekers zullen dit adres moeten noteren en opnemen in hun onderzoek. De “mooie URL” van de afbeelding bij Archief Leiden is http://archiefleiden.nl/lei:col4:dat611:id127. Ter vergelijking de niet-gebruikersvriendelijke URL van de afbeelding bij het GAR: http://collecties.gemeentearchief.rotterdam.nl/publiek/detail.aspx?xmldescid=2861366&tag=afbeeldingen;beeld;geluid;algemeen;video;film;bestellen&view=lijst&volgnummer=0&positie=4&beschrijvingssoort=1122%201090%201137%201182%201272%201302%201242%201197%201227%201152%201167%201287%201212%201257&doc_beschrijvingssoort=1227&[ARGS_PLACEHOLDER] (het merendeel is overigens overbodig). Het directe adres van de afbeelding van het Zeeuws Archief (of Archieven.nl)? Helaas, het is niet mogelijk om direct te linken naar een afbeelding bij Zeeuws Archief… Bij GaHetNa gaan ze nog een stapje verder dan Archief Leiden. Hier hebben ze gekozen voor het gebruiken van persistente URL’s. De URL van de hierboven getoonde afbeelding op GaHetNa is http://proxy.handle.net/10648/aee6392e-d0b4-102d-bcf8-003048976d84 Het adres is dus losgekoppeld van www.gahetna.nl! De “proxy.handle.net” website weet wat het juiste adres is van de afbeelding en stuurt de gebruiker daar heen. Als nu in de toekomst de website van het Nationaal Archief een andere (domein)naam krijgt dan wordt dit doorgegeven aan de “proxy.handle.net” website waardoor alle adressen blijven werken. Pinterest Als je het over delen van afbeeldingen hebt dan denk je wellicht direct aan de nieuwe service (of hype?) Pinterest. Pinterest is een virtueel prikbord waarbij gebruikers foto’s en afbeeldingen kunnen delen. Het doel van Pinterest is om iedereen hun interesses visueel te laten delen. De installatie van een button in een browser maakt het makkelijk om de afbeeldingen te delen (te pinnen) op je eigen board. Anderen kunnen de re-pinnen of voorzien van commentaar, heel sociaal. Zoals mijn eigen Genealogie board laat zien kun je van alle hierboven genoemde archieven de afbeeldingen te pinnen (en grappig genoeg via Pinterest kun je dan weer de afbeelding embedden, ook die van het Zeeuws Archief en Gemeentearchief Rotterdam). Toch gaat het pinnen niet overal goed. Bij het Gemeentearchief Rotterdam kun je op de detailpagina van een afbeelding de afbeelding gewoon pinnen. Na het klikken op de Pinterest knop wordt de afbeelding getoond, deze kun je dan aanklikken om te pinnen, zo hoort het. Bij de Archief Leiden en GaHetNa is het niet direct mogelijk om te pinnen. Dit komt doordat er een op Flash gebaseerde viewer wordt gebruikt. De work-around is om via de zoekresultaatpagina van de betreffende website te pinnen. Wil je een afbeelding van het Zeeuws Archief pinnen dan moet je dit via Archieven.nl doen (en ook daar is het alleen mogelijk via de zoekresultaten pagina). Conclusie Voor archieven (en hun leveranciers): een goede zoekmachine op de eigen website volstaat niet in het goed vindbaar maken van de (beeld)collectie van archieven. Zorgdragen dat zoekmachines als Google het materiaal kunnen indexeren (Search Engine Optimization) is ook erg belangrijk.
Archief Leiden |
Zeeuws Archief | Gem.arch. Rotterdam | GaHetNa | |
Vindbaarheid via Google | matig (door print) |
slecht (tijdelijk?) |
redelijk (niet detail) | goed |
URL | mooi | geen directe URL mogelijk | niet mooi |
persistent |
Embedden | ja | nee | nee | ja |
Watermerk | ja | ja | nee | nee |
via zoek resultaaten scherm |
via zoek resultaten archieven.nl |
ja | via zoek resultaten |
Voor (stamboom)onderzoekzoekers: Google vindt veel, maar niet alles. Gebruik dus ook de zoekmachines die de archieven zelf bieden.
Hoi Bob,
Leuk dat je het beeldmateriaal van het Zeeuws Archief, dat wij beschikbaar stellen via Archieven.nl langs de meetlat van jouw onderzoek legt. Sinds de conversie van onze beeldbeschrijvingen van Atlantis naar MAIS-Flexis in het voorjaar van 2011 hebben wij helaas nog te weinig tijd kunnen vinden om de zoekfunctionaliteit en de presentatie van de 'beeldbank' te optimaliseren. De conversie van de 'Personen'(Zeeuwen Gezocht) en de digitalisering van de akten van de BS slokten veel tijd op. Inmiddels zijn we begonnen met het verder inrichten van onze 'beeldbank'. Dat betekent dat we het watermerk uitsluitend gaan toepassen waar het 'moet' (denk aan privé-collecties waarvan de eigenaar dit wenst) en dat er de mogelijkheid komt om de afbeeldingen te embedden (toezegging van de leverancier). Ook onze wens voor persistente url's is met de leverancier doorgesproken. Over wat de mogelijkheden zijn om beter vindbaarheid via Google te worden, laten we ons graag adviseren.
Interessant blog Bob. Helaas zijn wij ook slecht te vinden op het niveau van de beschrijving. Daar moet dus aandacht voor komen! Terwijl embedden van de foto's wel mogelijk is. Gek eigenlijk. Zal wel aan de spider van Google liggen die teveel hindernissen tegenkomt.
Ik ga er teveel vanuit dat al die informatie wel gespiderd gaat worden en daarmee vindbaar is. Niet dus.
Luud, Google wil best jullie content indexeren maar als jullie zeggen "liever niet" dan houdt Google zich daaraan 😉 Of in technische termen: haal de <meta name="robots" content="noindex,follow" /> weg van de detailpagina!
Sinds wanneer hebben jullie trouwens een prominente link met jullie Wiki, die had ik nog niet eerder gezien? Leuk dat je vanaf de detailpagina van een afbeelding direct een Wikipagina kunt aanmaken, interessant!!
Beste Bob,
Dat het Zeeuws Archief er niet zo best uitkomt heeft eigenlijk maar één oorzaak. Er wordt gebruik gemaakt van onze search mod-only functie. Deze functie wordt aangeboden aan klanten die om uiteenlopende redenen (vaak financiële) geen gebruik maken van onze webservices. Bij correct geïmplementeerde webservices in een website, zal Google dit domein op een juiste wijze indexeren.
Wij zorgen er voor dat thumbnails van afbeeldingen worden geïndexeerd. Eigenlijk worden beschrijvingen geïndexeerd met de daarbij behorende thumbnails als context. Dit wordt mede gedaan om de juiste viewer aan te kunnen roepen voor het bekijken van de afbeelding. In veel gevallen worden tiled-tiffs geserveerd, die een andere viewer behoeven dan een normale .jpeg. Het watermerk wordt op verzoek van de klant getoond, maar kan ook achterwege blijven.
De link naar de details is uiteraard persistent. De informatie komt uit MAIS-Flexis waar het recordnummer in principe niet wijzigt. Dit recordnummer gaat mee naar archieven.nl en wordt gebruikt in de webservices. We zullen een embedfunctie uitwerken die embedden verder vereenvoudigd.
Naar aanleiding van jouw blog hebben we wel besloten om de communicatie met Google verder te optimaliseren. Zoals je hebt gezien (dat is ook bij Gahetna zo) worden vaak zoekresultaten en bladerpagina’s geïndexeerd door Google. Dit heeft als bezwaar dat als de content wijzigt, de verwijzing in veel gevallen niet meer zal kloppen.
Overigens hebben wij Google sowieso niet aan een touwtje. Daarom is jouw advies om de websites van archieven te bezoeken mij wel uit het hart gegrepen. http://www.archieven.nl heeft op dit moment al 4.000.000 afbeeldingen. Google gaat deze vast niet allemaal indexeren.
Groeten,
Erik de Ree, directeur DE REE archiefsystemen
Beste Erik,
Ik heb vandaag ook naar de website van Erfgoedcentrum Achterhoek Liemers gekeken, en inderdaad, beeldmateriaal van deze site kan ik goed terugvinden op Google (Afbeeldingen)!
De directe link naar de afbeelding op http://www.ecal.nu kan ik niet direct vinden?! Als ik de thumbnail open in een nieuw venster (via rechter muisklik op thumbnail) dan krijg ik een soort detailpagina (ajax_proxy). Als ik de afbeelding toevoeg aan mijn favorieten dan zou ik via favorieten beheer de URL kunnen achterhalen (die is dan iets als http://www.ecal.nu/archieven?mivast=26&mizig=110&miadt=26&miaet=14&micode=0663&minr=2406999&miview=ldt). Dus, er zijn wel directe links mogelijk naar afbeeldingen, maar niet mooi en niet makkelijk voor een gebruiker te vinden.
Voor alle leveranciers (en archieven):
De Google spider (ook wel Googlebot genoemd) valt redelijk goed te temmen en haalt z'n neus niet op voor veel content. Bijvoorbeeld: gemiddeld indexeert Googlebot 784 duizend pagina's per dag (!) van de website http://www.genealogieonline.nl. Inzicht in het indexeren (en invloed hierop) krijg je oa. via hun 'Hulpprogramma's voor webmasters'.
Verder moet je, zoals ik ook in mijn reactie aan Luud schreef, goed kijken wat je juist wel en juist niet wilt laten indexeren. Zoekresultaatpagina's zou ik niet laten indexeren (<meta name="robots" content="noindex,nofollow"/>) en de detailpagina's wel (<meta name="robots" content="index,nofollow"/>).
Tenslotte, op detailspagina's van beeldbanken zie je vaak viewers waarmee de afbeelding in detail kan worden bekeken, al dan niet met watermerk (afhankelijk van archief, niet leverancier). Deze viewer is leuk voor gebruikers, Googlebot kan hier niets mee. Dus zal Googlebot een dergelijke detailpagina niet indexeren qua afbeelding. Zorg dat de detailpagina wel een afbeelding heeft! Alleen als Googlebot langskomt (dus op basis van Useragent in HTTP request) of door de afbeelding via CSS 'onzichtbaar' te maken. Deze laatse optie is aan te raden omdat het tevens als 'fallback' kan dienen voor gebruikers zonder Flash!
Zo, weer even genoeg gratis Search Engine Optimization advies…
Bob,
Leuke benchmark, goed ook om in de reacties te lezen dat soms met relatief kleine aanpassingen de vindbaarheid al snel kan worden verbeterd.
Wat betreft je Pinterest button… Zo had ik 'm nog niet geprobeerd. Ik had in Pinterest zelf de de URL (permalink) gepakt en via http://www.pinterest.com toegevoegd. Dan pakt Pinterest de afbeelding wel.
Tim de Haan
Webteam Nationaal Archief
Leuke vergelijking Bob! Even mijn stokpaardje van stal halen: dat gahetNA zo goed uit deze test naar voren komt, heeft vast ook te maken met het volgen van de webrichtlijnen. Die richtlijnen zorgen er onder andere voor dat de website bruikbaar is voor gehandicapten. En Google surft als een blinde 🙂
Yvette, onderwerp volgende artikel gaat waarschijnlijk over toegankelijkheid. Daar komt gahetna.nl denk ik ook weer positief uit, heb nog maar één probleem gevonden… (cliffhanger 😉