Archive for the ‘HathiTrust’ Tag

Een olifant in de bibliotheek? Één? Nee, 60!

Elephant_in_library

Ja, wat hebben bibliotheken toch met olifanten? Met grote regelmaat wordt de olifant als logo of boegbeeld naar voren geschoven. Het bekendste voorbeeld is natuurlijk de HathiTrust:

HathiTrust

met een toelichting die aan duidelijkheid niets te wensen over laat:

Hathi (pronounced hah-tee) is the Hindi word for elephant, an animal highly regarded for its memory, wisdom, and strength. Trust is a core value of research libraries and one of their greatest assets. In combination, the words convey the key benefits researchers can expect from a first-of-its-kind shared digital repository.

Maar HathiTrust is zeker niet de enige. Wat te denken van deze zoekmachine voor historisch krantenmateriaal, Elephind:

Overigens valt het met die ‘wereld’ nog wel mee. Het gaat vooralsnog vooral om gedigitaliseerde kranten uit het Angelsaksisch taalgebied: Australië, Nieuw-Zeeland, Singapore en de Verenigde Staten.

De Koninklijke Bibliotheek bevindt zich dus in goed gezelschap met haar keuze voor de olifant als blikvanger voor het jaarverslag over 2012. Reden? Aan het eind van 2012 had de KB 45 miljoen pagina’s gedigitaliseerd, twee keer de lengte van de Chinese Muur en … gelijk aan het gewicht van 60 olifanten.

Naast het filmpje is er uiteraard ook een uitvoerig tekstueel jaarverslag, hier aangevuld met de recente jaarverslagen van de andere UKB-bibliotheken:

Weekendvitaminen #53

Vorige week verscheen aflevering 52 van Weekendvitaminen. Bij een wekelijkse frequentie zou dat betekenen dat ik een jaar vitaminen via deze blog heb verspreid. Dat klopt niet helemaal want natuurlijk heb ik vanwege vakanties af en toe wel eens een of meerdere weken overgeslagen. Op 18 november 2011 om precies te zijn verscheen aflevering 1, en die vitaminen waren destijds al weer de opvolger van de serie Weekoogsten daarvoor. Tijd dus voor vernieuwing. Hoe die vernieuwing er precies uit gaat zien, weet ik (net als 15 maanden geleden) nog niet. Daarom nu nog in ieder geval maar een reguliere aflevering, in afwachting van…

Op het nachtkastje

Beeld van de week

De HathiTrust komt met enige regelmaat in Zeemanspraat langs. Het is tenslotte een van de belangrijkste digitale tekstbestanden die momenteel voor raadpleging beschikbaar zijn. Afgelopen week verscheen het jaarverslag over 2012 met onderstaande tabel van de meest geraadpleegde werken. Een curieuze titellijst:

HathiTrust2012

Weekendvitaminen #51

Op het nachtkastje

Beeld van de week

MOOC

Ook de Nederlandse universiteiten storten zich op de MOOCs, de Massive Open Online Courses. Gisteren stond de Leidse Universiteit uitgebreid in de pers met de meer dan 10.000 deelnemers die zich inmiddels aangemeld hebben voor de online cursus The Law of the European Union.  Vandaag maakt de UvA trots bekend dat over een paar weken de eerste MOOC Communication Science ter wereld van start gaat. De inschrijving is geopend…

Wilkin Graphs

Vorige week schreef Dan Cohen op zijn blog een post over visualisaties van het bezit van Amerikaanse universiteits- en onderzoeksbibliotheken zoals dat tot uitdrukking komt in het digitale depot van de HathiTrust (inmiddels meer dan 10,5 miljoen banden; meer dan 3,7 miljard pagina’s). Hij noemde die visualisaties Wilkin Graphs, naar John Paul Wilkin, de executive director van de HathiTrust en als bibliothecaris verbonden aan de University of Michigan. Dit is zo’n Wilkin Graph voor Wilkins eigen University of Michigan:

Wilkin Graph UofMich

Op de y-as staat het aantal records (titels) en op de x-as het aantal HathiTrust-bibliotheken dat record (titel) in haar bezit heeft. De University of Michigan heeft dus veel titels als enige van de HathiTrust-bibliotheken (zo’n 280.000) en bijvoorbeeld zo’n 50.000 titels met maar liefst 22 HathiTrust-bibliotheken.

Per instelling verschillen de Wilkin Graphs aanzienlijk. Cohen onderscheidt drie oer-types: left-leaning libraries, zoals de University of Michigan die relatief veel uniek materiaal in hun bezit hebben), right-leaning libraries, zoals de University of California at Merced (met vooral materiaal dat ook elders beschikbaar is), en (well-) rounded libraries, zoals Northwestern University, waarvan de collectie een soort grootste gemene deler is van universiteitsbibliotheken, zonder veel uniek maar ook zonder veel populair materiaal.

Wilkin Graph UC Merced

Wilkin Graph NorthWestern

Nu is er nog geen enkele Nederlandse bibliotheek lid van de HathiTrust, en dus zijn er ook geen Wilkin Graphs van Nederlandse bibliotheken. Maar wel iets vergelijkbaars, althans voor die bibliotheken die lid zijn van de OCLC Research Library Partnership. Zoals uit een Twitter-wisseling tussen Cohen en OCLC’s Constance Malpas naar aanleiding van Cohens post duidelijk werd: er is een variant op de Wilkin Graphs voor alle 160 leden, waaronder de bibliotheken van Amsterdam, Leiden en Utrecht. Ik noem die variant maar even de Malpas Graph en voor de Universiteit van Amsterdam ziet die er als volgt uit:

Malpas Graph UvA

Source: OCLC Research Library Partnership

Met op de y-as het aantal titels en op de x-as het aantal bibliotheken dat een dergelijke titel volgens WorldCat in haar bezit heeft. Let wel: het gaat hier om de ruim 540.000 titels van de UB Amsterdam waarvan een digitaal equivalent aanwezig is in de HathiTrust, niet om het totale bezit van de UBA (door OCLC in januari van dit jaar ‘vastgesteld’ op 2.566.693 titels). Ten aanzien van deze categorie publicaties is de UBA dus een left-leaning library, met relatief veel materiaal dat in minder dan 100 bibliotheken wereldwijd beschikbaar is.

Hoe zich dat verhoudt tot andere bibliotheken? Dat weet ik niet zonder over de Malpas Graphs van die andere bibliotheken te beschikken. Misschien kan ik mijn Leidse en Utrechtse collega’s verleiden hun gegevens te delen (ik stel daarvoor graag hier ruimte beschikbaar). Maar misschien moet OCLC deze data gewoon aan iedereen beschikbaar maken. Ook Dan Cohen moet tot zijn spijt vaststellen dat dat nog niet zo is (zie Update bij zijn post).

P.S. terwijl de Wilkin Graphs al snel omgedoopt werden in Wilkin Profiles lijkt dat lot ook de Malpas Graphs ten deel te vallen, getuige deze tweet van Lorcan Dempsey, inclusief een link naar een presentatie met zo’n Malpas Profile (van de University of Minnesota).

Weekendvitaminen #46

Op het nachtkastje

 • Kathleen Fitzpatrick, ‘Openness, value, and scholarly societies. The Modern Language Association model’, College & Research Libraries (December 2012)
 • David J. Solomon, ‘Digital distribution of academic journals and its impact on scholarly communication: Looking back after 20 years’, Research in Open Access 
 • JISC Inform, Issue 35 (Winter 2012)
 • Lorcan Dempsey, ‘Thirteen Ways of Looking at Libraries, Discovery, and the Catalog: Scale, Workflow, Attention’, Educause Review (November/December 2012)

Beeld van de week

Fraaie animatie over het gebruik van HathiTrust gedurende 24 uur. Opvallend: vanuit Australië wordt de database (nog) nauwelijks geraadpleegd.


En: NVB wordt KNVI. De leden hebben gesproken:

KNVI

Charleston dag #4: de macht van het woord en de letter van de wet

Het woord was al vaak gevallen in de afgelopen dagen, maar vanmorgen stond het echt centraal: copyright. Wat mogen bibliotheken wel en niet doen met de informatie die ze aanschaffen, ‘huren’, zelf digitaliseren, etc? Veel van de zaken die langs kwamen hebben niet direct belang voor Nederland (waarmee ik zeker niet wil zeggen dat ze niet belangrijk zouden zijn), behalve uiteraard de zaken rond Google Books en de HathiTrust. In beide gevallen is de Authors Trust, de belangenorganisatie van Amerikaanse auteurs (vooral fictie-auteurs), in de ogen van de bibliotheken de gebeten hond. De panelleden konden wat dit betreft ook weinig vooruitgang en positiefs melden. De dag voor de Charleston Conference begon was de Authors Guild in beroep gegaan tegen de eerdere uitspraak van de rechter dat de activiteiten die de HathiTrust met (de mede dankzij Google) gedigitaliseerde werken in haar archief onderneemt onder fair use vallen. Expert William Hannay durfde zijn vingers nog niet te branden aan de definitieve uitkomst van de zaak, net zo min als dat hij de rechtmatigheid van de beschikbaarstelling van gedigitaliseerde verweesde werken door de universiteit van Michigan als een gelopen race wilde betitelen. Hannay lardeerde zijn betoog met enkele gezongen bijdragen, die in de zaal niet alleen tot instemmend meezingen leidden maar ook tot wat ongemakkelijk schuifelen op sommige stoelen.

Het slot van de conferentie bestond uit een Oxford Union style debat tussen Rick Anderson (inmiddels interim dean van de Marriott Library van de universiteit van Utah) en Derek Law (emeritus hoogleraar aan de universiteit van Strathclyde). Law, Schot van geboorte, verscheen gekleed in kilt hetgeen Anderson in zijn openingswoord de opmerking ontlokte dat hij lang had getwijfeld of hij wel of niet een stropdas om zou doen (uiteindelijk niet), maar dat hij niet wist dat dit een ‘pants optional-sessie‘ was. Dat leidde uiteraard tot de nodige hilariteit, zoals het hele debat door de vele steken onder water en overdreven voorstellingen van zaken tot enthousiaste reacties in de zaal leidde. Wat dat betreft hadden de organisatoren een goede keuze gedaan met deze twee opponenten.

Ging het ook nog ergens om? Jazeker, de stelling waarover gedebatteerd werd luidde: The traditional research library is dead. Het zal niet verwonderen dat Anderson deze stelling van harte onderschreef, terwijl Law gepassioneerd de stelling naar de mestvaalt van de geschiedenis probeerde te verwijzen. Vooraf werd een peiling onder de aanwezigen gehouden (52% voor de stelling, 48% tegen de stelling) en na afloop weer. Anderson werd tot winnaar uitgeroepen want na afloop van het debat bleek 67% van de aanwezigen de stelling te steunen (en 33% dus niet). Ik denk dat dat vooral kwam omdat hij eloquent wist te beargumenteren dat de traditional research library aan het verdwijnen is, maar dat de bibliotheek zelf springlevend is en zal blijven als ze zich zal blijven richten op het aanbieden van diensten die aansluiten bij waar studenten, docenten en onderzoekers om vragen (en niet wat bibliothecarissen vinden dat ze zouden moeten vragen). Law (“David Braveheart” volgens Anderson) stond in essentie niet al te veel van Anderson af omdat hij betoogde dat de traditional research library altijd bezig is geweest zich aan te passen aan een veranderende omgeving, maar in essentie wel steeds trouw is gebleven, en zal moeten blijven, aan de vijf wetten van Ranganathan. Ik kon me niet geheel aan de indruk onttrekken dat Law door, getrouw de mores van het Oxford Union debat, af en toe de grenzen van het betamelijke op te zoeken (daar was hij duidelijk bedrevener in dan Anderson) en zichzelf als een superieure John Bull te presenteren tegenover Tea Party’s Uncle Sam in de vooral door Amerikanen bevolkte zaal enige sympathie verspeelde voor zijn betoog. Dat moest hij dus ‘betalen’ met een verlies, dat hij echter als een man droeg.

Een mooie afsluiting van vier dagen conferentie. Nu nog eens alles bij elkaar proberen te vegen. Ik heb nog wat uurtjes stuk te slaan op het vliegveld van Atlanta…

Weekendvitaminen #9

Op het nachtkastje

 • Rare jongens, die Amerikanen. Kalenderjaar 2011 net afgesloten, nieuw jaarverslag gepresenteerd (mooi denk je) maar dat dan niet over geheel 2011 maar over fiscal year 2010-2011 (tot en met 30 juni 2011) blijkt te gaan. Het gaat hier om het jaarverslag van OCLC, waar dus nog niets terug is te vinden over World Share. Dat moet nog even wachten tot januari 2013… 
 • Rijke oogst deze week aan preprints: drie artikelen waar we anders ook tot in 2013 op hadden moeten wachten:
 • via-via kwam ik deze week bij het Journal of Web Librarianship terecht. Ha, dacht ik, een tijdschrift van Taylor & Francis, dus daar hebben we op basis van onze licentie wel toegang toe. Mis poes. Dit tijdschrift is tijdens de looptijd van de licentie bij T&F online beschikbaar gekomen en valt dus (?) niet automatisch onder de licentie. Alleen bibliotheken die een abonnement hadden op de gedrukte versie, hebben wel toegang gekregen tot de online versie gekregen. Deze onzin zou toch eens heel snel tot het verleden moeten behoren. Nu is het weer zaak andere wegen te bewandelen…

Beeld van de week

Volume Distribution by Date

Onlangs passeerde de HathiTrust de mijlpaal van 10 miljoen gearchiveerde gedigitaliseerde publicaties. Het overgrote deel daarvan betreft publicaties uit de 20e eeuw, waarvan het overgrote deel nog onder bescherming van het auteursrecht valt of tot de categorie verweesde werken behoort (voor publicaties uit de VS hanteert de HathiTrust 1923 als breekpunt; voor publicaties uit overige landen 1870).

Copyright Distribution by Date

Het gaat dus goed met de HathiTrust, want het bestand groeit nog steeds als kool. Aan de andere kant, ‘slechts’ 27% van het gearchiveerde materiaal is vrij toegankelijk. We hebben dus nog een lange weg te gaan.

In de januari-aflevering van Library Issues wordt overigens nog eens een goede samenvatting gegeven van doel en mogelijkheden van deze olifant in de bibliotheek.

Weekendvitaminen #2

Op het nachtkastje

 • Daar kwam ik ‘m weer tegen, de zinsnede “one size does not fit all”.  Deze keer in een nieuw onderzoek van het Britse RIN en de British Library naar het gebruik van informatie en informatiemanagement in samenwerkingsprojecten (m.n. in dit geval tussen publieke en private instellingen). Eerste onderzoeksresultaat: Information handling practices were shaped by the particular conditions and pressures found within each collaboration. In workshop discussions, funders and policymakers recognised the need for flexibility to meet individual circumstances and rejected the notion of a one-size-fits-all solution.” Het eeuwige dilemma tussen confectie en maatwerk.
 • Mark Bauerlein is weer eens op oorlogspad. Deze keer richt hij zijn pijlen op het publicatiegedrag van letterkundige onderzoekers. Op basis van een wat dun onderzoekje volgen gepeperde conclusies, zoals:  “There is a glaring mismatch between the resources these universities and faculty members invest and the impact of most published scholarship. (…) A university’s resources and human capital is thereby squandered as highly-trained and intelligent professionals toil over projects that have little consequence.” Veel op af te dingen, maar ja, af en toe een knuppel in het hoenderhok…
 • Ik ken haar vooral van haar over-enthousiaste Open Access-posts en discussiebijdragen, Heather Morrison (van The Imaginary Journal of Poetic Economics). Maar je moet haar toegeven, ze brengt het ook in de praktijk, zelfs met haar dissertatie. Via de website van de School of Communication van de Simon Fraser University kun je de wording van die dissertatie op de voet volgen en zo nodig de verschillende hoofdstukken ook al van commentaar voorzien. Nog weinig gedaan, maar wellicht de trend voor de toekomst?
 • de HathiTrust groeit niet alleen door als kool, maar maakt ook werk van een goede user experience (UX in het jargon).  Met het oog daarop is nu een zevental personas samengesteld die richting moeten gaan geven aan de ontwikkeling van de database, de webinterface en de gebieden waar nader onderzoek noodzakelijk is. Zo heeft de HathiTrust nog weinig zicht op het gebruik van de database buiten de Verenigde Staten. Zowel the making of als de personas zelf zijn beschikbaar.

Beeld van de week

Tegelijkertijd met zijn besluit geen vast prijs voor e-boeken in te voeren, zond staatssecretaris Halbe Zijlstra een rapport van SEO en IVIR over de actuele situatie rond e-boeken in Nederland naar de Tweede Kamer: Digitaal gebonden. Volgens mij zeer het lezen waard. Deze grafiek kwam ik er bij het doorbladeren o.a. in tegen:

Dat deed mij herinneren aan een tweet van Euro-commissaris Neelie Kroes begin deze week:Ik zou zeggen: Hup Neelie! En vergeet bij de e-books ook de BTW op e-journals niet. Enneh, we willen natuurlijk dat lage tarief, maar dat was natuurlijk ook het plan, toch?

Weekoogst #65

3 jaar HathiTrust
De HathiTrust vierde deze week haar derde verjaardag. En het olifantje is flink gegroeid. Van net 2 miljoen gedigitaliseerde boeken in het archief in 2008 naar bijna 10 miljoen nu. In terabyte: van 80 naar 435 TB. Ruim 2,5 miljoen boeken zijn uit het publieke domein (volgens het Amerikaanse copyright, dus gepubliceerd voor 1923) en vrij raadpleegbaar. En er zitten op dit moment 38.625 Nederlandstalige titels in de HathiTrust, 0,68% van het totaal.
Afgelopen weekend vond de HathiTrust Constitutional Convention plaats, ook al teken van de groei die wordt doorgemaakt. Ter voorbereiding van deze bijeenkomst is een terugblik op de afgelopen drie jaar samengesteld waarin uiteraard wat bereikt is een belangrijke plaats geeft gekregen. Maar deze derde verjaardag is natuurlijk wel een beetje verpest door de rechtszaak die door de Authors Guild is aangespannen. The Orphan Wars have just begun.

Zeven jaar Google Books
Volgens Jon Orwant van Google Books is Google al aanzienlijk verder met het digitaliseren en digitaal beschikbaar stellen van Nederlandstalig materiaal. Hij schat dat van de 3,1 miljoen Nederlandstalige boeken er op dit moment zo’n 168.000 door Google zijn gescand (4x het aantal van de HathiTrust). Daar kan overigens materiaal tussen zitten dat in de VS wel wordt getoond, maar daarbuiten niet. Iedereen die van Google Books gebruik heeft gemaakt zal dat wel een keertje tegengekomen zijn. Orwant verklaart dat uit voorzichtigheid van Google: mensen procederen graag tegen Google en Google is niet altijd zeker van het feit of een werk rechtenvrij is. Better safe than sorry.
Volgens de Gentse catalogus zijn er nu bijna 100.000 door Google gedigitaliseerde boeken uit haar collectie beschikbaar, op twee na alle gepubliceerd voor 1900: een herdruk uit 1942 van een boek uit 1613 en een boek gepubliceerd in het jaar 5609. Dat laatste blijkt uiteraard volgens de Joodse jaartelling te zijn; in onze tijdrekening dus 1849. Ruimschoots in het publieke domein zou je zeggen (Gent lijkt voor het jaar 1871 gekozen te hebben als scheidslijn voor wel/niet in het publieke domein). Maar probeer deze publikatie maar eens full text te raadplegen: Image Not Available is alles wat je te zien krijgt. De wegen van Google, en haar partners, blijven ondoorgrondelijk…

Meten is weten: het gebruik van de collectie
Ten aanzien van het gebruik van gedrukte collecties bestaan in bibliotheekland twee vuistregels: de 20/80 regel en de 60/40 regel. De eerste vuistregel zegt dat twintig procent van de collectie verantwoordelijk is voor 80 procent van de uitleningen; de tweede dat over een langere termijn gemeten (10 à 15 jaar) zestig procent van de collectie minimaal één keer blijkt te zijn uitgeleend, terwijl 40 procent nog op die eerste uitlening zit te wachten.
De eerste vuistregel is onlangs door een grootschalig onderzoek van OCLC ter discussie komen te staan. Uit één kalenderjaar uitleengegevens van de 90 OhioLINK-bibliotheken blijkt namelijk dat slechts 6% van de collectie verantwoordelijk is voor 80% van de uitleningen. Verdere uitwerking van de gegevens uit dit onderzoek moet nog plaatsvinden (de data worden overigens vrij beschikbaar gesteld voor dat nadere onderzoek), maar het maakt mij toch met name benieuwd naar die resterende 20% uitleningen. Hoe verspreid zijn die over de resterende collectie? Het gaat in dit geval om een gezamenlijke collectie van 30 miljoen verschillende titels. Voldoende reden dus om OCLC Research in dit opzicht te blijven volgen.
Wat die tweede vuistregel betreft, die zag ik zelf deze week via een quick and dirty-onderzoekje van onze eigen uitleencijfers nog eens bevestigd. Van onze open opgestelde collecties voor de verschillende geesteswetenschappelijke disciplines blijkt in de afgelopen 15 jaar gemiddeld 40% niet uitgeleend (hetgeen, ook dat moet hierbij steeds benadrukt worden, niet betekent dat de betreffende boeken niet gebruikt zijn; ze hebben alleen de bibliotheek niet verlaten). Er zijn uiteraard aanzienlijke verschillen te constateren tussen de deelcollecties: betrekkelijk jonge collecties, die vaak ook in omvang betrekkelijk klein zijn, blijken veel lager te scoren op de niet-uitgeleend schaal, terwijl collecties van oudere geesteswetenschappelijke disciplines (vaak ook met veel materiaal dat de status ‘niet-uitleenbaar’ heeft) vaker hoger scoren. In ieder geval weer nuttige gegevens, hoe ruw ook, voor nader onderzoek naar de ideale open opgestelde collectie van de toekomst. Chris Bourg postte daarover twee maanden geleden een aantal heel zinnige gedachten.

In de eigen olifantenpoot geschoten?

En toen zaten we dus opeens met twee processen rond het Google Books project. Enerzijds het juridische gevecht tussen Google aan de ene kant en de Amerikaanse uitgevers en auteurs aan de andere kant, waaraan met de Google Books Settlement een einde leek te zijn gekomen. Maar die overeenkomst heeft nog steeds niet een gerechtelijke goedkeuring gekregen en er is nu voor 2012 een datum vastgesteld waarop de zaak echt behandeld zal gaan worden. Ondertussen lijkt het erop dat de uitgevers het wel op een akkoordje zullen weten te gooien met Google, terwijl de auteurs (verenigd in de Authors Guild) blijkbaar nog niet aan het begraven van de strijdbijl toe zijn.

Integendeel, zij zijn nu inmiddels een tweede rechtszaak begonnen tegen de HathiTrust en enkele grote universiteiten vanwege het beschikbaarstellen van (mede door Google) gedigitaliseerde bibliotheekboeken én het voornemen zgn. verweesde werken waarvan echt niet meer vast te stellen is aan wie de rechten toebehoren of waarvan de rechthebbenden niet meer te achterhalen zijn digitaal beschikbaar te gaan stellen aan de eigen, lokale gebruikersgroep. Voor die laatste groep werken had de HathiTrust een project opgezet om de status van die verweesde werken diepgaand te onderzoeken zodat ook alleen maar werken langs deze weg beschikbaar worden gesteld die écht verweesd zijn. Helaas, op de eerste lijst die publiek is gemaakt heeft de Authors Guild van een aantal werken binnen no time de rechthebbenden kunnen achterhalen waarop de HathiTrust heeft besloten de lijst weer terug te trekken en de interne procedures zodanig te verbeteren dat een dergelijke tik op de vingers niet nog een keer voorkomt. Want de HathiTrust wil door; ze beschouwen hun taak niet alleen legal, maar “also ethical and indeed even noble.” Of dat met die tweede rechtszaak zal gaan lukken, is maar helemaal de vraag. Rechter Chin, die van dat eerste proces, heeft inmiddels aangegeven geen trek te hebben deze nieuwe zaak ook onder zich te nemen.

Ondertussen wordt aan de andere kant van de oceaan geprobeerd de digitalisering van bibliotheekcollecties buiten de rechtszaal te houden. Gisteren werd er door vertegenwoordigers van alle belanghebbende partijen (o.m. auteurs, uitgevers, bibliotheken) onder de vlag van de Europese Unie een Memorandum of Understanding ondertekend dat de grondslag moet vormen voor afspraken over de digitalisering van zgn. ‘out-of-commerce’-werken. Dat is zeker niet dezelfde categorie als de verweesde werken, maar er is een aanzienlijke overlap tussen beide. En dit lijkt een produktievere weg dan de Amerikaanse.