11 maart 2008

Lezing "Internet services voor stamboomonderzoekers" (5 april 2008)

  • Hoe lokaliseer ik op Internet andere stamboomonderzoekers?
  • Hoe vind ik genealogische bronnen die beschikbaar zijn op Internet?
  • Hoe kan ik snel genealogische bronnen die via Internet beschikbaar zijn op familienaam doorzoeken?
  • Hoe kan ik via Internet vragen stellen, feedback geven, tips uitwisselen, ideeën opperen, nieuws melden, discussiëren met andere stamboomonderzoekers?
  • Hoe kan ik via Internet samenwerken op genealogisch vlak door bijvoorbeeld transcripties te maken van scans?
  • Hoe kan ik mijn genealogische gegevens op Internet publiceren?
  • Waar moet ik rekening mee houden bij publicatie?
  • Hoe kan ik op de hoogte worden gehouden van nieuws (wat is RSS)?
  • Wat zijn de ontwikkelingen op Internet en hoe kan ik daar gebruik van maken (wat is Web 2.0)?

Op zaterdag 5 april zal ik, op uitnodiging van de afdeling Computergenealogie van het NGV, bovenstaande en andere vragen beantwoorden en demonstreren tijdens de presentatie Internet services voor stamboomonderzoekers!

De lezing is toegankelijk voor iedereen, maar de zaal heeft een capaciteit van 80 personen. Vóór de presentatie zal er op dezelfde lokatie vanaf 11.00 uur een ledenvergadering zijn van de afdeling Computergenealogie, deze is alleen toegankelijk voor leden. Zie ook de aankondiging op de website van het NGV.

Voor in uw agenda:

Wat Lezing "Internet services voor stamboomonderzoekers" door Bob Coret
Wanneer Zaterdag 5 april 2008 om 14:00 (tot uiterlijk 16:00)
Waar Vergadercentrum Vredenburg 19 in Utrecht (zie routebeschrijving / bekijk op Google Maps)

09 maart 2008

Van Papier naar digitaal, met de tijd mee!

Mededeling: De performance van de VPND-website is de laatste tijd niet goed. Dit komt enerzijds door een groeiende populariteit van de website; anderzijds is er een technisch probleem waardoor de response sterk fluctueert. Naar de oorzaak van het probleem wordt gezocht. Excuses voor het ongemak: u helpt uzelf en anderen door zoveel mogelijk de populaire bezoektijden (tussen 18-23 uur) te mijden.

Sinds enige tijd prijkt bovenstaande melding op de startpagina van de Van Papier naar Digitaal (VPND) website. VPND is een initiatief van Hans den Braber en Herman de Wit
ter bevordering van het online brengen van genealogisch bronmateriaal. Het is een website met gescande (en getranscribeerde) bronnen uit heel Nederland. Een zeer lovenswaardig initiatief! Qua inhoud is het een belangrijke en nuttige website voor stamboomonderzoekers, echter, qua techniek en gebruikersvriendelijkheid lijkt op deze website de tijd stil te staan...

In dit artikel geef ik advies op het gebied van techniek en "outsourcing" om de performance van VPND te verbeteren. De tips zijn generiek, dus ook andere website eigenaren zijn er bij gebaat! Advies omtrent functionaliteit en organisatie inzake VPND bewaar ik voor een volgend artikel.

Bandbreedte

VPND herbergt erg veel content, informatie pagina's (HTML), ondersteunende plaatjes en een zeer grote berg PDF bestanden. Hoe meer bezoekers hoe meer data er door de webserver van VPND geserveerd moet worden. Zowel de 'Internet-pijpleiding' als de webserver heeft hier problemen mee, wat de snelheid van de website voor bezoekers ernstig doet afnemen, en dat wordt alleen maar erger als er niets gebeurd ...

Even een voorbeeld: de pagina met bronnen uit Weerselo is een HTML pagina van 137.284 bytes met een tweetal afbeeldingen (banner-digi-project_nl.gif van 5.146 en BMgrijs.jpg van 1.830 bytes), een totaal van 144.260 bytes voor één pagina! Over de download tijd heb ik het nu maar even niet, die is dramatisch.

Met een tweetal eenvoudige technieken kunnen we dit met een factor 20 verbeteren (dus terugbrengen naar 7.254 bytes)!

Compressie

Ten eerste is HTML uitermate geschikt om te comprimeren. In het Internet protocol (HTTP) zijn hier afspraken over gemaakt: als de browser aangeeft dat deze content compression (in de vorm van bijvoorbeeld gzip) aankan - en dat doet/kan iedere moderne brower - dan kan de webserver gecomprimeerde content naar de webbrowser sturen. Dit is overigens volledig transparant voor de bezoeker! Voor het HTML van 144.260 bytes hoeft er ineens in GZIP vorm maar 7.254 bytes verstuurd te worden. De VPND website draait op Apache, dus de HTTP compressie is een kwestie van configureren van mod_gzip (net als Apache is deze extra module uiteraard gratis)!

Caching

Een tweede verbeterpunt ligt op het punt van caching. Waarom zouden de plaatjes op VPND bij elke pagina opnieuw van server naar browser worden gestuurd, deze zijn steeds hetzelfde!? Dit geldt tot op zekere hoogte overigens ook voor de HTML pagina (die wijzigt toch niet elk uur?). Met enkele simpele regels configuratie kan de webserver aan de browsers aangeven dat de gedownloade content "onthouden" (gecached) kan worden, oftewel Server Side Cache Control. Wanneer bijvoorbeeld de plaatjes dus éénmalig zijn geladen door de browser hoeft het bij de volgende pagina waar de plaatjes in zitten niet weer geladen te worden. Weer 6.976 per pagina bespaard aan bandbreedte!

Outsourcing, het grote werk

Het bulk van de bandbreedte wordt "verbrand" door de PDF bestanden, het "vloeibare goud" van VPND. Op dit moment worden al deze documenten door VPND zelf gehost, maar waarom dit niet "outsourcen", oftewel uitbesteden aan een andere internet service?

Hieronder een voorbeeld van een PDF bestand van Genealogie Online:




Scribd is een soort YouTube voor documenten, waaronder PDF documenten. Naast de opslag van de documenten bij Scribd leveren zij tools (zoals hierboven) om de documenten te "embedden" en te bekijken (zonder de noodzaak van bijvoorbeeld Adobe Reader). Scribd biedt een platform die het mogelijk maakt om hun technologie, wederom gratis, te gebruiken op de eigen website. Op Genealogie Online worden alle PDF document op deze manier gepresenteerd, zie bijvoorbeeld het Genealogische woordenboek (van André Dumont). Dus in plaats van een PDF document van 5 megabytes dat elke keer van de VPND website gehaald moet worden hoeft het bij gebruik van Scribd op VPND slechts één keer te gebeuren (door Scribd) en daarna voor alle gebruikers niet meer (de PDF document komen dan van Scribd!). Op alleen de Weerselo pagina staat al 540 MB aan PDF: reken uit je winst in bandbreedte als je de PDF hosting uitbesteed!

Conclusie

Je kan - in het algemeen - natuurlijk een snellere server neerzetten voor de webserver en meer bandbreedte bij de ISP afnemen, maar bovenstaande maatregelen zijn gratis en leveren veel, veel meer snelheidswinst op!

03 maart 2008

Genealogisch woordenboek, een voorbeeld van open content

Websites leveren aan gebruikers een service die veelal is gebaseerd op bepaalde inhoud, content. Denk bijvoorbeeld aan de akten van geboorten, huwelijken en overlijdens in de burgerlijke stand. Genlias is een website die deze content doorzoekbaar maakt en presenteert. Mijn betoog in dit artikel is dat gebruikers nog meer gebaat zijn bij open content (zie Wikipedia definitie)!

Op basis van de data die Genlias biedt heb ik een aanvullende dienst gemaakt, de Genlias Monitor genaamd. Deze service controleert voor gebruikers of er nieuwe akten zijn toegevoegd. Het is een service die - gratis - door mij als privé persoon is gemaakt en - gratis - aan iedereen wordt geboden en dus aanvullend is op de functionaliteit die Genlias biedt. Helaas is hier niet echt sprake van open content. De Genlias Monitor komt via screenscraping aan de data, overigens met toestemming (ditzelfde geldt voor de Digitale Stamboom Monitor), wat een suboptimale oplossing is (understatement!)

Een recent voorbeeld van open content waar ik mijn tanden in heb gezet is de Trefwoordenlijst Genealogie opgesteld door André Dumont. Alhoewel deze inhoud ook niet via een technische standaard op open wijze wordt aangeboden stelt André deze inhoud wel ter beschikking aan anderen, mits niet ingezet voor commerciële doeleinden of vergezeld van reclame. Volgens mij geheel in de spirit van een Creative Commons licentie!

Ik heb de inhoud van de trefwoordenlijst met toestemming van André op Genealogie Online geplaatst (in de Naslag sectie) als genealogische woordenboek. Uiteraard met vermelding van André Dumont als auteur en link naar zijn homepage en feedback mogelijkheden. Ik heb hierbij getracht de zoekfunctie heel gebruikersvriendelijk te maken door gebruik te maken van nieuwe technologie (AJAX), dus iets extra's toe te voegen (het NGV had overigens al iets soortelijks gedaan).

Een volgende stap was om deze zoekfunctionaliteit ook voor anderen eenvoudig beschikbaar te maken, dit heb ik gerealiseerd via de een genealogisch widget, Genealogische woordenboek genaamd. Hieronder is de widget te zien (en te gebruiken) en deze kan dus door een ieder op de eigen website worden geplaatst!

Met deze twee kleine voorbeelden hoop ik vooral genealogische organisaties en archieven (en bijvoorbeeld ook de partipanten in de Genealogie 2.0 groep) te laten zien wat er met open content bereikt kan worden. Derden gaan - onder voorwaarden - "aan de haal" (in positieve zin!) met de beschikbaar gestelde data om er (gratis) mooie en nieuwe functionaliteit mee te realiseren voor gebruikers!

Wees dus dus niet bang om open content te bieden, het is juist een slimme zet in het Web 2.0 tijdperk. Kortom: denk aan RSS feeds, API's en "embed" mogelijkheden (geef gebruikers de mogelijkheid zoals YouTube doet om de content te laten opnemen in de eigen website/blog)!

Lees ook mijn eerdere betoog: Na toegankelijke websites ook toegankelijke data!