Weekoogst #65

3 jaar HathiTrust
De HathiTrust vierde deze week haar derde verjaardag. En het olifantje is flink gegroeid. Van net 2 miljoen gedigitaliseerde boeken in het archief in 2008 naar bijna 10 miljoen nu. In terabyte: van 80 naar 435 TB. Ruim 2,5 miljoen boeken zijn uit het publieke domein (volgens het Amerikaanse copyright, dus gepubliceerd voor 1923) en vrij raadpleegbaar. En er zitten op dit moment 38.625 Nederlandstalige titels in de HathiTrust, 0,68% van het totaal.
Afgelopen weekend vond de HathiTrust Constitutional Convention plaats, ook al teken van de groei die wordt doorgemaakt. Ter voorbereiding van deze bijeenkomst is een terugblik op de afgelopen drie jaar samengesteld waarin uiteraard wat bereikt is een belangrijke plaats geeft gekregen. Maar deze derde verjaardag is natuurlijk wel een beetje verpest door de rechtszaak die door de Authors Guild is aangespannen. The Orphan Wars have just begun.

Zeven jaar Google Books
Volgens Jon Orwant van Google Books is Google al aanzienlijk verder met het digitaliseren en digitaal beschikbaar stellen van Nederlandstalig materiaal. Hij schat dat van de 3,1 miljoen Nederlandstalige boeken er op dit moment zo’n 168.000 door Google zijn gescand (4x het aantal van de HathiTrust). Daar kan overigens materiaal tussen zitten dat in de VS wel wordt getoond, maar daarbuiten niet. Iedereen die van Google Books gebruik heeft gemaakt zal dat wel een keertje tegengekomen zijn. Orwant verklaart dat uit voorzichtigheid van Google: mensen procederen graag tegen Google en Google is niet altijd zeker van het feit of een werk rechtenvrij is. Better safe than sorry.
Volgens de Gentse catalogus zijn er nu bijna 100.000 door Google gedigitaliseerde boeken uit haar collectie beschikbaar, op twee na alle gepubliceerd voor 1900: een herdruk uit 1942 van een boek uit 1613 en een boek gepubliceerd in het jaar 5609. Dat laatste blijkt uiteraard volgens de Joodse jaartelling te zijn; in onze tijdrekening dus 1849. Ruimschoots in het publieke domein zou je zeggen (Gent lijkt voor het jaar 1871 gekozen te hebben als scheidslijn voor wel/niet in het publieke domein). Maar probeer deze publikatie maar eens full text te raadplegen: Image Not Available is alles wat je te zien krijgt. De wegen van Google, en haar partners, blijven ondoorgrondelijk…

Meten is weten: het gebruik van de collectie
Ten aanzien van het gebruik van gedrukte collecties bestaan in bibliotheekland twee vuistregels: de 20/80 regel en de 60/40 regel. De eerste vuistregel zegt dat twintig procent van de collectie verantwoordelijk is voor 80 procent van de uitleningen; de tweede dat over een langere termijn gemeten (10 à 15 jaar) zestig procent van de collectie minimaal één keer blijkt te zijn uitgeleend, terwijl 40 procent nog op die eerste uitlening zit te wachten.
De eerste vuistregel is onlangs door een grootschalig onderzoek van OCLC ter discussie komen te staan. Uit één kalenderjaar uitleengegevens van de 90 OhioLINK-bibliotheken blijkt namelijk dat slechts 6% van de collectie verantwoordelijk is voor 80% van de uitleningen. Verdere uitwerking van de gegevens uit dit onderzoek moet nog plaatsvinden (de data worden overigens vrij beschikbaar gesteld voor dat nadere onderzoek), maar het maakt mij toch met name benieuwd naar die resterende 20% uitleningen. Hoe verspreid zijn die over de resterende collectie? Het gaat in dit geval om een gezamenlijke collectie van 30 miljoen verschillende titels. Voldoende reden dus om OCLC Research in dit opzicht te blijven volgen.
Wat die tweede vuistregel betreft, die zag ik zelf deze week via een quick and dirty-onderzoekje van onze eigen uitleencijfers nog eens bevestigd. Van onze open opgestelde collecties voor de verschillende geesteswetenschappelijke disciplines blijkt in de afgelopen 15 jaar gemiddeld 40% niet uitgeleend (hetgeen, ook dat moet hierbij steeds benadrukt worden, niet betekent dat de betreffende boeken niet gebruikt zijn; ze hebben alleen de bibliotheek niet verlaten). Er zijn uiteraard aanzienlijke verschillen te constateren tussen de deelcollecties: betrekkelijk jonge collecties, die vaak ook in omvang betrekkelijk klein zijn, blijken veel lager te scoren op de niet-uitgeleend schaal, terwijl collecties van oudere geesteswetenschappelijke disciplines (vaak ook met veel materiaal dat de status ‘niet-uitleenbaar’ heeft) vaker hoger scoren. In ieder geval weer nuttige gegevens, hoe ruw ook, voor nader onderzoek naar de ideale open opgestelde collectie van de toekomst. Chris Bourg postte daarover twee maanden geleden een aantal heel zinnige gedachten.

No comments yet

Geef een reactie

Vul je gegevens in of klik op een icoon om in te loggen.

WordPress.com logo

Je reageert onder je WordPress.com account. Log uit / Bijwerken )

Twitter-afbeelding

Je reageert onder je Twitter account. Log uit / Bijwerken )

Facebook foto

Je reageert onder je Facebook account. Log uit / Bijwerken )

Google+ photo

Je reageert onder je Google+ account. Log uit / Bijwerken )

Verbinden met %s

%d bloggers op de volgende wijze: