Het digitale boekenuniversum

Het bericht over de samenwerking tussen Google en OCLC herinnerde me aan een artikel van drie huis-onderzoekers van OCLC over het aandeel digitale publicaties in WorldCat. In april 2007 stelden Brian Lavoie, Lynn Connaway en Edward O’Neill vast dat van de 58 miljoen titelbeschrijvingen in WorldCat (stand van juni 2005) ca. 1 miljoen beschrijvingen betrekking hadden op digitale materialen, variërend van computer files en cd’s tot e-books. Nog geen 2% dus. Van die digitale materialen had 60% slechts één holding, terwijl het vergelijkbare cijfer voor gedrukte boeken 37% is. Er was dus verhoudingsgewijs meer uniek digitaal dan uniek gedrukt materiaal.

Verder bleek dat na bewerking met het door OCLC ontwikkelde FRBR-algorithme van die miljoen beschrijvingen ruim 900.000 betrekking hadden op unieke werken. Opnieuw, dat is slechts 2% van de 46 miljoen afzonderlijke werken die m.b.v. dit algorithme in WorldCat in juni 2005 zijn geïdentificeerd. Conclusie van de auteurs: “This is a remarkably small number and suggests that there is tremendous scope for mass digitization programs.” (p. 113)

Nu terug naar het bericht van afgelopen maandag. Google heeft inmiddels in het kader van het Google Book Search programma in ieder geval één miljoen boeken gedigitaliseerd (precies weten we het, zoals zo vaak bij Google, niet). Mooi, zou je zeggen. Als van al die boeken nu Marc-records in WorldCat komen dan is het aanbod van digitaal materiaal in één klap verdubbeld, van één naar twee miljoen items. Maar zijn we daarmee dan dichter bij het einddoel gekomen?

Sinds juni 2005 is de omvang van WorldCat, o.m. door acties als het inlezen van alle NCC-gegevens, gestegen van 58 naar meer dan 100 miljoen titelbeschrijvingen! Ongetwijfeld zal daar ook digitaal materiaal tussen hebben gezeten, maar het percentage digitaal materiaal zal nog steeds ergens in de buurt van 2% zitten, ondanks wat er de afgelopen jaren op het vlak van digitalisering is gebeurd. Er is en blijft vooralsnog een ‘tremendous scope’ voor digitaliseringsprojecten. En voordat “the world’s information” volledig digitaal beschikbaar is zijn we dus ook nog wel een flink aantal jaren verder.

P.S. eerder publiceerden Lavoie en Connaway met Lorcan Dempsey over de consequenties van Google’s digitaliseringsproject (toen nog Google Print geheten) en Lavoie met Roger Schonfeld over de totale omvang van de wereldwijde boekencollectie, in beide studies uitgaande van de beschikbare gegevens in WorldCat.

P.P.S. het feit dat Microsoft zich nu gaat terugtrekken uit digitaliseringsprojecten geeft ook te denken. Het speelveld rondom Google wordt zo wel heel erg leeg.

4 comments so far

  1. Edwin on

    Dat het monopolie zo wel heel groot was ook het eerste waar ik aan moest denken. De samenwerkmachine hapert meer dan ik een tijdje terug dacht:-/

    http://zbdigitaal.blogspot.com/2006/08/een-netwerk-van-grote.html

  2. WoW!ter on

    Er zijn meer digitaliserings projecten. Het one million book project bijvoorbeeld. Bij het internet archive zijn ze ook goed op weg (OCA), nu ruim 400,000 e-texts (boeken?).

  3. Jeroen Bosman on

    Het blijft natuurlijk number cruching, maar om zaken iets zuiverder te kunnen vergelijken maak ik het altijd graag kleiner. Een aardige verhouding vind ik bijvoorbeeld het aantal *boeken* met het woord *travels* in de titel, uitgegeven tussen 1890 en 1900: Google Books 348, Worldcat 1133. Nog steeds een groot verschil, dat wel, maar iets anders dan 2%. Je moet natuurlijk wel weten waar je wel naar zoekt in Google Books en aanverwanten en waarnaar niet. En daar zijn wij nu weer voor….

  4. Bert on

    Jeroen, ik laat me graag wijzer maken. Doe ik jouw zoekactie in WorldCat, dan krijg ik exact jouw resultaat: 1.227 titels met ‘travels’ in de titel, waarvan 1.133 boeken. Keurig. Had ook niet anders verwacht van een goede catalogus.
    Zoek ik op ‘travels’ in de titel in Google Book Search krijg ik nu (6 juni, 14.30 uur) 575 hits. Perk ik in tot Limited Preview and Full View of tot Full View only (en daar gaat het uiteindelijk om bij digitale kopieën) dan krijg ik nul op request. Heb jij een verklaring?


Geef een reactie

Vul je gegevens in of klik op een icoon om in te loggen.

WordPress.com logo

Je reageert onder je WordPress.com account. Log uit / Bijwerken )

Twitter-afbeelding

Je reageert onder je Twitter account. Log uit / Bijwerken )

Facebook foto

Je reageert onder je Facebook account. Log uit / Bijwerken )

Google+ photo

Je reageert onder je Google+ account. Log uit / Bijwerken )

Verbinden met %s

%d bloggers op de volgende wijze: