04 april 2012

Nederlandse archieven, kijk eens hoe het Amerikaanse NARA het aanpakt!

NARA LogoOp 2 april is in Amerika de volkstelling (‘Census’) van 1940 online beschikbaar gekomen. Een mooie (en zeer gewilde) bron voor genealogen. Dit artikel is vooral gericht op de Nederlandse archiefdiensten. Want hoe pakt deze operatie uit voor het Amerikaanse Nationale Archief?

Voor Amerikanen is de census essentieel voor hun stamboomonderzoek, zie Tamura Jones’ USA 1940 Census artikel voor meer informatie over deze bron.. De 16e volkstelling, die informatie geeft over ruim 132 miljoen Amerikanen uit 48 staten, mocht na 72 jaar openbaar gemaakt worden. Het National Archives and Records Administration (NARA) heeft de 4.745 microfilm rollen gedigitaliseerd, wat heeft geresulteerd in zo’n 3,8 miljoen afbeeldingen, goed voor 20 TeraBytes aan data. Qua digitaliseringskosten moet je dan denken aan een bedrag tussen de $300.000 en $500.000.

Het hosten van dit materiaal, dus opslag en bandbreedte en ontwikkelen van een website met zoekfunctionaliteit kost natuurlijk ook een aardige zak met duiten, tenzij je gewoon vraagt aan marktpartijen om dit gratis te doen en door het materiaal te verkopen…

Via een Request For Information (RFI) heeft het NARA in juni 2011 aan marktpartijen gevraagd om een ‘no-cost contract to provide managed hosting and online access to digital images of the 1940 Census’. Het contract is uiteindelijk gegund aan Inflection, het moederbedrijf van Archives.com. Sinds 2 april jongstleden is de 1940 Census door dit partnerschap via 1940census.archives.gov beschikbaar.

Maar de census is ook gewoon te koop! Via de Products pagina van NARA’s Archives.gov (niet te verwarren met het commerciële Archives.com) kun je de complete set microfilm rollen kopen voor $580.750. De complete digitale variant kun je via een eenvoudig formulier kopen voor maar $200.000. Wil je alleen de census van bepaalde staten dan kan dat ook.

Maar ja, wie legt die enorme bedrag neer voor deze bron? Op dit moment al zeker 5 bedrijven:

  • Ancestry.com
  • FamilySearch
  • FindMyPast
  • MyHeritage
  • RootsPoint.com

Waarom bedrijven dit hebben gekocht? Het is een hele populaire bron dus het is een lokkertje voor gebruikers van hun eigen diensten. Zij kunnen de census bijvoorbeeld via “smart matching” aan gepubliceerde stambomen linken.

Hoe populair de bron was had ook het NARA verkeerd ingeschat. In hun RFI stond als requirement dat de website 10 miljoen hits per dag aan moest kunnen (en 25.000 concurrent user). In de eerste 3 uur dat de website live was kreeg de website zo’n 22,5 miljoen hits (1,9 miljoen gebruikers) te verduren. Ook al gebruikt Archives.com de schaalbare service Amazon S3 als opslag, de site werd op z’n knieën gebracht door de ruim 100.000 verzoeken per seconde (voor afbeeldingen van meer dan 10MB). Archives.com schreef hierover: "We were expecting a flood, but we got a tsunami."

De partijen die de Census hebben aangekocht zijn de afgelopen dagen druk bezig geweest om de harddisks op te halen en de afbeeldingen via hun eigen websites beschikbaar te krijgen. Ancestry.com is één van de eerste die alles gratis op hun website aanbied, ook hun servers hadden het moeilijk om de aanloop van publiek te verwerken.

Voor de goede orde, we hebben het hier over de afbeeldingen en meta-informatie (vooral locatiegegevens, staat, plaats, enz.). De census is nog niet geïndexeerd op naam!

Maar ook daar wordt aan gewerkt. Archives.com organiseert, samen met findmypast en FamilySearch, het 1940 U.S. Census Community Project om deze bron te transcriberen (zou het NARA de index data krijgen?). Maar sommige bedrijven organiseren ook zelf het indexeren, zoals MyHeritage, die deze bron trouwens ook toegankelijk maakt op iPhone, iPad en Android!

Bovenstaande klinkt bijna te mooi om waar te zijn: een belangrijke bron waar het Amerikaanse Nationale Archief waarschijnlijk goed geld aan verdiend en dus kan investeren in nieuwe digitaliseringsprojecten, die geïndexeerd wordt en die op diverse plekken gratis wordt aangeboden aan genealogen met extra services op diverse platformen.

Tja, en dan de hamvraag: zou zoiets ook in Nederland werken?