Archief voor mei 2008 | Maandelijkse archief pagina

Captcha 2.0

De nieuwe InformatieProfessional vandaag op de mat. Aardig artikel over het gebruik van de captcha voor het verbeteren van onleesbare woorden die met het OCR-en van gedigitaliseerde teksten worden gemaakt. Twee cijfers die in het artikel genoemd worden brengen me echter weer enigszins aan het twijfelen.

Volgens auteur Luc Van Peteghem heeft de ontdekker van de (re)captcha Luis von Ahn berekend dat zijn captcha inmiddels gemiddeld per dag tussen de 15 en 100 miljoen keer wordt gebruikt. ???? Het is alsof ik iemand hoor zeggen “Ja, ik ga deze keer maar naar Italië op vakantie; de gemiddelde temperatuur schommelt daar tussen de 5 en 35 graden Celsius.” Daar schiet ik dus niet zo veel mee op.

Nog eentje: aan het eind van het artikel schrijft Luc dat dankzij de captcha er nu dagelijks 3 miljoen onleesbare woorden in de ge-OCRde boekteksten van The Internet Archive worden verbeterd. Dagelijks? 3 miljoen onleesbare woorden? Dat zou betekenen dat er op jaarbasis meer dan 100 miljoen fouten worden gemaakt. En die zouden nu allemaal langs geautomatiseerde weg verbeterd worden…

Cijfers… ik ben er altijd wat huiverig voor.

3D of D3?

Eindelijk is het zover. De Koninklijke Bibliotheek begint nu écht met een van haar vele ‘talloos veel miljoenen’-projecten, de Databank Digitale Dagbladen. Onder leiding van hoogleraar media & cultuur van de UvA Frank van Vree is de selectie gemaakt van 8 miljoen krantenpagina’s uit de periode 1618-1995 en nu is er ook een bedrijf geselecteerd dat het daadwerkelijke scannen gaat doen, een samenwerkingsverband van het Duitse CCS (Content Conversion Specialists) en het Nederlandse bedrijf M&R uit Kampen. Vanaf begin 2009 zullen de eerste resultaten zichtbaar moeten worden. Tot die tijd zullen we het nog even moeten doen met het pilotproject waarin vier kranten uit het Interbellum zijn gedigitaliseerd. Een heerlijke historische bron die uit doet zien naar de resultaten van het D3-project.

Een ander grootschalig project, de Staten-Generaal Digitaal, begint nu eindelijk ook goed op stoom te komen. Recent zijn de jaren 1985-1989 aan de databank toegevoegd en in de komende kwartalen zal er successievelijk teruggewerkt worden naar het jaar 1815 dat in 2010 bereikt moet worden. En dan zullen ‘onze’ handelingen volledig digitaal raadpleegbaar en doorzoekbaar zijn. Is daar dan vraag naar? Driewerf ja! In het kader van onze eigen verbouwactiviteiten hadden we de gedrukte Handelingen maar even in het magazijn gezet, met het idee ‘dat gebruik valt wel mee, hoeft niet meer in open opstelling’.  Nee dus, er kwamen regelmatig zoveel verzoeken nu aan de balie om inzage (en dan gaat het meestal niet om één bandje) dat maar snel weer is besloten een boekenwand van ruim 100 meter in een van de studiezalen te creëren voor herplaatsing. Tot de KB klaar is blijven de Handelingen daar lekker in open opstelling staan.

Personeel onder de loep

Op het Maagdenhuis wordt al sinds jaar en dag gebouwd aan het Business Warehouse van de UvA, dé opslagplaats van alle relevante data over personeel, studenten, financiën etc. van de hele instelling. Een deel van die cijfers vindt z’n weg naar het web. Daarnaast doen de bouwers van Bestuurlijke Informatie periodiek verslag van al hun cijferverzamelarij in Fact, het feitenblad van de UvA; deze keer is de focus op het personeel. Twee opvallende cijfers:

1) het percentage medewerkers met een niet-Nederlandse nationaliteit is in de afgelopen jaren met 50% gestegen, van 9 in 2003 naar 14% in 2007. Dat zien we ook om ons heen. Veel nieuwe medewerkers bij de faculteiten komen uit het buitenland. En onder de studenten is dat al niet anders: ook daar is bij de instroom van nieuwe studenten een gestage stijging te zien van het aantal buitenlandse studenten, zeker ook onder de masterstudenten. Voor de bibliotheek betekent dat nog nadrukkelijker dat we in onze dienstverlening niet alles alleen maar in het Nederlands kunnen blijven doen, maar serieus werk moeten blijven maken van onze Engelstalige interfaces, van de website en van en in de Digitale Bibliotheek.

2) het percentage 55+ers onder het wetenschappelijk personeel is UvA-breed 35%. Deze groep gaat in de komende tien jaar met pensioen. De hoogte van het percentage verraste me nog. In de afgelopen jaren is bijvoorbeeld al bij de Faculteit der Geesteswetenschappen veel wetenschappelijk personeel met pensioen gegaan en opgevolgd, in het kader van het zgn. Nieuwe Generatieoffensief, door jonge, veelbelovende nieuwelingen. Desondanks ligt het percentage bij de FGw zelfs nog hoger, nl. op 40%. We moeten dus ook in de komende jaren rekening blijven houden met een sterke verjonging van de groep docenten en onderzoekers.

Vertaald naar onze eigen organisatie: ik heb geen recente gegevens over de UB, maar als ik alleen naar mijn eigen afdeling kijk is het percentage 55+ers nog veel hoger dan bij de FGw, nl. 65%. De komende jaren vertrekt een groot aantal vakreferenten met veel kennis en ervaring. Dat heet zowel een bedreiging als een kans te zijn. Bij andere afdelingen speelt dit iets minder omdat er vaak sprake is van een evenwichtiger leeftijdsopbouw en er ook meer doorstroming plaatsvindt waardoor verjonging betrekkelijk vanzelfsprekend is.

Interne communicatie

Vanmiddag gebrainstormd met Angélique over mogelijke verbeteringen aan ons interne nieuwsblog UBA E-Informatie. Binnen een jaar hebben we de overgang gemaakt van een vier maal per jaar verschijnend, gedrukt nieuwsblad voor medewerkers via een driewekelijkse via de mail toegezonden elektronische nieuwsbrief naar een blog-gebaseerd intern communicatiekanaal. Aan kopij geen gebrek, er gebeurt momenteel genoeg in de Amsterdamse bibliotheken. Maar: bereiken we wel iedereen die we willen bereiken? Medewerkers moeten nu zelf de informatie naar zich toe halen (via rss) of ernaar op zoek gaan (via hun favorieten). Dat is wat anders dan vier keer per jaar een gedrukt exemplaar op je bureau of een mailtje in je IN-box. Problemen met de statistieken verhinderen dat we een goed zicht hebben op de raadpleging door de tijd heen en volgens nogal hardnekkige wandelgangen-geruchten dringt het nieuws niet in alle geledingen van de bibliotheek voldoende door. Het SPOETNIK-programma heeft waarschijnlijk wel een groot aantal medewerkers een zet in de goede richting gegeven, maar het programma is nog te kort afgelopen om nu al de effecten ervan te kunnen meten. En dan is er natuurlijk ook nog een ander probleem: de UBA is een grote bibliotheekorganisatie, zeer verspreid gehuisvest, (nog) niet onder één hoofdige leiding van de bibliothecaris van de UvA en nu moet binnen afzienbare termijn ook nog eens de mediatheekorganisatie van de HvA geïntegreerd worden. Met name ook het betrekken van die organisatie-onderdelen die niet in de centrale UB in de Amsterdamse binnenstad zijn gehuisvest en die voor hun dagelijkse werkzaamheden (vaak schijnbaar) niet zo afhankelijk zijn van wat er aan het Singel gebeurt is niet eenvoudig. Maar daar zou ik juist nu, als ‘beetje adjunct’, in de komende periode iets aan moeten doen…

Technologie update uit Rotterdam

Technologie Update voor Kenniswerkers, daarvoor was ik gisteren in Rotterdam. Nu weet ik niet precies wat een ‘kenniswerker’ is (toch al ruim 40.000 hits in Google), maar met een track De Digitale Bibliotheek beschouwde ik mezelf wel als behorende tot de doelgroep. Ook omdat er niet een Technologie Update in het vooruitzicht werd gesteld waarbij de techniek zelf voorop stond, maar meer de stand van de techniek en wat ons mogelijk nog te wachten staat.

Een gevarieerd samengesteld publiek van zo’n 200 kenniswerkers (een dwarsdoorsnede van de NVB-leden, zo leek het) kreeg een gevarieerd programma voorgeschoteld. Het begon met UvA-hoogleraar Dany Jacobs over de culturele kant van innovatie, de barrières tegen innovatie en de nuchtere constatering dat 99% van de innovatie niet revolutionair maar gradueel is, en dan vaak al moeilijk genoeg om te realiseren. Het eindigde, althans voor mij, met de Antwerpse bibliothecaris Patrick Vanouplines die de resultaten presenteerde van een onderzoek naar de impact-factoren van Open Access-tijdschriften en de inspanningen die het gekost heeft om een lijst van tijdschriften samen te stellen die Vlaamse onderzoekers die door de Vlaamse NWO worden ondersteund kan helpen het beste OA-tijdschrift op hun vakgebied te kiezen. Die Vlaamse onderzoekers zijn daar, voorlopig nog in tegenstelling tot hun Nederlandse door NWO gesubsidieerde collega’s, namelijk toe verplicht. Met passie en trots kon hij melden dat er eindelijk (dankzij zijn inspanningen?) overeenstemming was bereikt tussen Thomson/ISI (eigenaar van de Journal Citation Reports) en de Directory of Open Access Journals over onderlinge uitwisseling van gegevens.

Daar tussenin presenteerde onze eigen Marc van den Berg een brede waaier van web 2.0-toepassingen in de (wetenschappelijke) bibliotheekwereld, een mashup van eerdere presentaties over hetzelfde onderwerp, maar nu afgesrond met enige speculatieve vergezichten op web 3.0 (waarvan de zegeningen in het komende decennium in de sterren staan). We zullen hem daar t.z.t. niet aan herinneren. Josje Calff maakte zich sterk voor landelijke, misschien zelfs wel internationale coördinatie van alle digitaliseringsprojecten met uiteraard als dubbele doelstelling het beschikbare geld zo efficiënt mogelijk te besteden én dubbel werk te voorkomen. Tussendoor brak ze ook nog een lans voor één Digitale Openbare Bibliotheek (van/voor) Nederland. Bij één wetenschappelijke Digitale Bibliotheek voor Nederland hield ze wijselijk een aantal slagen om de arm. De ervaringen op het gebied van landelijke licenties dwingen inderdaad op dat vlak tot enige bescheidenheid, al hebben de UKB-bibliotheken in het laatste beleidsplan landelijke samenwerking opnieuw hoog op de agenda gezet. Eerst zien, dan geloven. Uit Noorwegen kregen we tenslotte een geslaagd voorbeeld van dergelijke landelijke samenwerking gepresenteerd, de e-only bibliotheek voor alle Noorse ‘gezondheidswerkers’. Één portal, met landelijke licenties voor het commercieel afgenomen materiaal en door Vivisimo geleverde technologie.

Wouter Gerritsma sprak nog een column uit die inmiddels op zijn eigen blog, inclusief zijn impressies uit Rotterdam, is terug te lezen.

Jarig!

Meimaand, feestmaand! Niet zonder trots meldt Peter Suber vanmorgen (Amerikaanse tijd) de zesde verjaardag van Open Access News. Suber, professor in de wijsbegeerte, begon op 26 mei 2002 met zijn FOS News, Free Online Scholarship News. In juni 2003 wijzigde hij de naam in Open Access News. Het is de meest gezaghebbende bron op het gebied van de Open Access-beweging en een onmisbare bron voor iedere geïnteresseerde bibliothecaris. Bijna 14.000 posts inmiddels en elke dag komen er gemiddeld zo’n tien bij. Geen wonder dat Suber er sinds februari een assistent bij heeft. Dat biedt hem de ruimte om ook andere activiteiten op te pakken, zoals het opzetten van de wiki-gebaseerde Open Access Directory.

Nog een feestje: Wouter Gerritsma vierde vorige week de derde verjaardag van zijn Wouter over het Web. Is natuurlijk ook een felicitatie waard, want velen zetten een eerste stap, maar het is betrekkelijk weinigen gegeven het beginstadium te ontgroeien. Zelf ben ik nu pas zes weken weer bezig en dat stemt tot bescheidenheid. Maar mocht ik m’n eerste verjaardag gaan halen, dan zal ik daar zeker t.z.t. bij stilstaan.

Het digitale boekenuniversum

Het bericht over de samenwerking tussen Google en OCLC herinnerde me aan een artikel van drie huis-onderzoekers van OCLC over het aandeel digitale publicaties in WorldCat. In april 2007 stelden Brian Lavoie, Lynn Connaway en Edward O’Neill vast dat van de 58 miljoen titelbeschrijvingen in WorldCat (stand van juni 2005) ca. 1 miljoen beschrijvingen betrekking hadden op digitale materialen, variërend van computer files en cd’s tot e-books. Nog geen 2% dus. Van die digitale materialen had 60% slechts één holding, terwijl het vergelijkbare cijfer voor gedrukte boeken 37% is. Er was dus verhoudingsgewijs meer uniek digitaal dan uniek gedrukt materiaal.

Verder bleek dat na bewerking met het door OCLC ontwikkelde FRBR-algorithme van die miljoen beschrijvingen ruim 900.000 betrekking hadden op unieke werken. Opnieuw, dat is slechts 2% van de 46 miljoen afzonderlijke werken die m.b.v. dit algorithme in WorldCat in juni 2005 zijn geïdentificeerd. Conclusie van de auteurs: “This is a remarkably small number and suggests that there is tremendous scope for mass digitization programs.” (p. 113)

Nu terug naar het bericht van afgelopen maandag. Google heeft inmiddels in het kader van het Google Book Search programma in ieder geval één miljoen boeken gedigitaliseerd (precies weten we het, zoals zo vaak bij Google, niet). Mooi, zou je zeggen. Als van al die boeken nu Marc-records in WorldCat komen dan is het aanbod van digitaal materiaal in één klap verdubbeld, van één naar twee miljoen items. Maar zijn we daarmee dan dichter bij het einddoel gekomen?

Sinds juni 2005 is de omvang van WorldCat, o.m. door acties als het inlezen van alle NCC-gegevens, gestegen van 58 naar meer dan 100 miljoen titelbeschrijvingen! Ongetwijfeld zal daar ook digitaal materiaal tussen hebben gezeten, maar het percentage digitaal materiaal zal nog steeds ergens in de buurt van 2% zitten, ondanks wat er de afgelopen jaren op het vlak van digitalisering is gebeurd. Er is en blijft vooralsnog een ‘tremendous scope’ voor digitaliseringsprojecten. En voordat “the world’s information” volledig digitaal beschikbaar is zijn we dus ook nog wel een flink aantal jaren verder.

P.S. eerder publiceerden Lavoie en Connaway met Lorcan Dempsey over de consequenties van Google’s digitaliseringsproject (toen nog Google Print geheten) en Lavoie met Roger Schonfeld over de totale omvang van de wereldwijde boekencollectie, in beide studies uitgaande van de beschikbare gegevens in WorldCat.

P.P.S. het feit dat Microsoft zich nu gaat terugtrekken uit digitaliseringsprojecten geeft ook te denken. Het speelveld rondom Google wordt zo wel heel erg leeg.

Against the Grain

Een van de aardigste vaktijdschriften die ik ken is Against the Grain. Zes keer per jaar ongeveer 100 pagina’s vol met artikelen, productbeschrijvingen, columns en een beetje gossip. Nog steeds alleen in papieren vorm beschikbaar, hetgeen inmiddels in de LIS-wereld een uitzondering begint te worden, al is er sinds enige tijd ook een elektronische aanvulling beschikbaar.

Ik kwam voor het eerst in aanraking met Against the Grain tijdens een werkbezoek aan de Elmer Holmes Bobst Library van New York University. NYU is een samenwerkingspartner van de UvA. Collega’s van Bobst noemden AtG als een van de belangrijkste bronnen om op de hoogte te blijven van actuele ontwikkelingen in de wereld van bibliotheken, uitgeverijen, tussenpersonen en leveranciers. En dat is het ook voor mij gebleken. De rubriek Legal Issues sla ik steevast over vanwege de te grote verschillen tussen de Amerikaanse en Nederlandse (auteurs-)rechtspraktijk; De rubriek Rumors scan ik op opvallende overstapjes en gebeurtenissen maar heeft een redelijk hoog ons-kent-ons-gehalte (en zo ingevoerd in de Amerikaanse bibliotheekwereld ben ik nu ook niet weer niet), maar voor de rest is het elke twee maanden een bron van informatie over ‘het vak’ onder het motto Linking Publishers, Vendors and Librarians. Alle drie genoemde groepen zijn nadrukkelijk bij het blad betrokken en krijgen ook alledrie de ruimte om hun invalshoek te promoten. De column Back Talk van Hong Kong University library director Tony Ferguson en de rubriek IMHBCO (In My Humble But Correct Opinion) van consultant Rick Anderson staan bijna altijd borg voor prikkelende gedachten.

In het april-nummer, het eerste van een tweeluik over The Google Effect, gaat het o.m. over het gebruik van Google voor catalogiseerwerkzaamheden, het nut van Google Docs als samenwerkingsomgeving en Google Scholar versus vakspecifieke bibliografische databases. Een citaat uit het laatste artikel:

“Two basic questions worth considering when evaluating subscription and instruction choices: 1. How is this database better than Google Scholar? 2. Assuming the subscription product is better, is the advantage worth the money and resources that would have to be devoted to it?”

Drijvende  kracht achter AtG is Katina Strauch, hoofd collectievorming van de bibliotheek van het College of Charleston in Charleston, North Carolina. Een aantal jaren geleden deed ze nog een vergeefse gooi naar het, zeker in de VS, prestigieuze presidentschap van de ALA. Ze is ook initiatiefnemer en na 27 jaar ook nog steeds de organisator van de jaarlijkse Charleston Conference met als thema Annual Issues in Book and Serial Acquisition. Ook daarvan zeiden de collega’s van Bobst Library, als iets een nuttige en waardevolle conferentie is, dan is het deze wel. Het programma ziet er elk jaar inderdaad ook aantrekkelijk uit, maar het is er nog steeds niet van gekomen een keer te gaan… Ik doe het dus met de congresverslagen die jaarlijks door Libraries Unlimited op de markt gebracht worden, en die volgens de NCC vaak alleen maar in Amsterdam aanwezig zijn. Hetzelfde geldt ook overigens voor AtG zelf! Toch goed dat er in het kader van het landelijke BGW-project nog zwaartepuntafspraken gemaakt zijn.

Buurten bij de juristen

Op bezoek vandaag bij collega Mieke Vermeulen, faculteitsbibliothecaris van de Juridische faculteit. De Juridische Bibliotheek (JB) vormt geen onderdeel van de, centrale, UB-organisatie maar is organisatorisch nog gewoon ingebed in de Faculteit der Rechtsgeleerdheid. Ze bevindt zich daarmee in dezelfde positie als de Medische Bibliotheek, de bibliotheek van ACTA (Tandheelkunde) en de bibliotheek van de faculteit Natuurwetenschappen, Wiskunde en Informatica, al zal die laatste hoogstwaarschijnlijk in de loop van dit jaar ook onder de vleugels van de UB komen. De faculteitsbibliotheek Geesteswetenschappen maakt al sinds 1999 deel uit van de UB-organisatie; Economie en Bedrijfskunde (FEB) en Maatschappij- en Gedragswetenschappen (FMG) vormen daar sinds 2006 onderdeel van. Al met al in organisatorisch opzicht een wat gecompliceerd plaatje waar Bibliotheek van de Universiteit van Amsterdam (UBA) als overkoepelende term voor is gekozen. Een van de twee adjunctdirecteuren van de UB heeft de onderlinge samenwerking tussen de faculteitsbibliotheken en met de centrale diensten (Elektronische Diensten, Publieksdiensten, Verwerving & Ontsluiting) in zijn portefeuille. Dat ligt nu dus deels op mijn bordje en mede daardoor ook vandaag dit bezoek aan Mieke.

De Juridische Biblbiotheek, en de faculteit der Rechtsgeleerdheid, zijn nu nog gehuisvest in de historische Oudemanhuispoort. Maar hoe lang nog? In het huisvestingsplan van de UvA wordt uitgegaan van concentratie van de bèta-faculteit in de Watergraafsmeer (zie nieuwbouw), vervolgens concentratie van alle sociale wetenschappen op en rond het Roeterseiland, en als sluitstuk concentratie van alle geesteswetenschappers, inclusief nieuwbouw voor de Universiteitsbibliotheek, op en om het Binnengasthuisterrein. De positie van de juristen is nog niet helemaal uitgekristalliseerd. Op de huidige plaats blijven zitten of bij de gamma’s aansluiten op het Roeterseiland? (zodat de OMHP ook vrij komt om een deel van de geesteswetenschappers te huisvesten). Het laatste woord is hierover nog niet gezegd, maar het lijkt voor de juristen toch in de richting van het Roeterseiland te gaan, al zal er nog wel wat water door de Amstel stromen voordat het zover is.

Uiteraard is die huisvestingskwestie een zaak die Mieke nadrukkelijk bezig houdt. Maar daarnaast hebben we het ook gehad over Readers Online, de (on-)mogelijkheden van dynamisch collectiebeheer, inzet van personeel en de veranderende rol van informatiespecialisten, en de relatie tussen centrale UB (en onderdelen daarvan) en haar faculteitsbibliotheek. Zaken waar ik als faculteitsbibliothecaris voor geesteswetenschappen ook mee te maken heb, maar vanwege een andere organisatorisch uitgangspunt vaak op een andere manier. Kortom, een nuttig gesprek dat ik ook met de andere faculteitsbibliotheken nog ga voeren.

Digitalisering op verzoek

In hetzelfde nummer van Pictogram waar ik al eerder uit putte, staat ook de nodige informatie over een nieuwe service van de UB Groningen: digitalisering op verzoek. Iedere gebruiker van de bibliotheek kan een verzoek tot digitalisering van een boek indienen mits daarbij uiteraard de bepalingen van het auteursrecht worden eerbiedigd (en zoals we allemaal weten, die verzetten zich juist tegen digitalisering van veel van het 20e eeuwse materiaal) én mits de aanvrager bereid is de digitaliseringskosten van € 0,35 per pagina te betalen. Bij een boek van 200 pagina’s hebben we het dan al over € 70. De aanvrager krijgt het gedigitaliseerde exemplaar binnen drie tot vier weken op cd aangeleverd, en de bibliotheek maakt daarnaast een versie via het web algemeen toegankelijk. De aanvrager helpt dus niet alleen zichzelf, maar draagt ook bij aan bredere beschikbaarstelling. De UB Groningen doet het digitaliseren overigens niet zelf, maar heeft daarvoor een overeenkomst afgesloten met Strata Preservation, sinds januari van dit jaar onderdeel van de KMM Group (Karmac) in Lelystad.

Het loopt blijkbaar nog geen storm want in de speciaal ingericht repository zijn tot nu toe nog geen tien gedigitaliseerde werken terug te vinden. Maar het idee is sympathiek en het belang dat Groningen eraan hecht kan mede afgeleid worden uit het feit dat Alex Klugkist himself, de bibliothecaris van de RUG, contactpersoon is voor deze dienst. Toch maar weer eens de plannen voor de aanschaf van een Kirtas-machine uit de kast halen?

Volgende Pagina »