Het spoor bijster…
Filed under: Digitale Bibliotheek, het vak | Tags: betrouwbaarheid, Google Book Search, metadata, Ngram viewer |
Het gebeurt me niet zo vaak, maar nu ben ik even het spoor bijster. Google is bezig me geheel op het verkeerde been te zetten. Hoe? Laat ik bij het begin beginnen.
In ons universiteitsblad Folia van deze week poneert KNAW-president (en UvA-hoogleraar) Robbert Dijkgraaf in zijn tweewekelijkse column dat H.G. Wells in 1914 als eerste, en ver voor de eerste kernexplosie in 1945, het begrip ‘atomic bomb’ gebruikte in zijn roman The World Set Free. Of hij dat uit de Oxford English Dictionary heeft gehaald of uit Wikipedia, beide geven dezelfde oorsprong voor het begrip, doet er niet toe; blijkbaar is dit gegeven niet omstreden.
Enter de Ngram viewer, het nieuwste speeltje dat Google op basis van het Google Books project heeft gebouwd en dat op dit moment de mogelijkheid biedt woordgebruik door de eeuwen heen op basis van vijf miljoen gescande boeken te analyseren. Die 5 miljoen is pas een eerste stap; uiteraard zullen in de komende maanden/jaren ook al die andere gescande boeken opgenomen worden in de Ngram viewer.
Snel dus even ‘atomic bomb’ ingevoerd in de viewer (met smoothing op 0 zodat je alleen de echte hits krijgt te zien), ingeperkt tot de publicatiejaren 1900-2000. Dat levert het volgende resultaat op:
Een verwachte piek vlak na 1945, een klein piekje rond 1914 (de publicatie van Wells’ boek), maar hè, ook een piek in de periode 1900-1910. Even de Ngram viewer laten inzoomen op deze periode, met het volgende resultaat:
In 1905 een spike die veel hoger komt dan Wells’ 1914. Eureka: ik heb een nieuwe ontdekking gedaan! Maar dan moet ik natuurlijk wel weten welke auteur en welk boek uit 1905 het betreft. Dus even overgestapt naar de bron voor de viewer, Google Books. Zoeken op “atomic bomb” ingeperkt tot de publicatiejaren 1900-1910. Dat levert 79 zoekresultaten op. Maar, en hier raak ik het spoor al een beetje bijster, het betreft meestentijds titels van tijdschriften of seriewerken waarvan de eerste editie misschien wel tussen 1900 en 1910 is verschenen, maar waar “atomic bomb” pas veel later, in ieder geval na 1945, in is verschenen. Erger, er worden ook titels gepresenteerd die niets met de atoombom te maken hebben (The book of town and wndow gardening uit 1903, Google’s misspelling) maar waarvan de metadata blijkbaar gekoppeld zijn aan een tekst over de atoombom die overduidelijk van na de Tweede Wereldoorlog stamt. Is dit een voorbeeld, of slechts een incident, van de metadata-mess waar Google al eerder van beschuldigd is, maar die (blijkbaar/schijnbaar) onvermijdelijk is bij een project van deze omvang?
Toch nog even verder gezocht, en daar werd ik niet vrolijker van. Eerst ‘atomic bomb’ in de Ngram viewer voor de periode 1800-1900 (met een hoop hits; dit wordt echt revolutionair) en vervolgens in Google Books dezelfde zoekactie, met 303 zoekresultaten. Weer veel tijdschriften en seriewerken met een eerste publicatiejaar vòòr 1900, maar ook opnieuw de koppeling van (Engelstalige) full text waarin ‘atomic bomb’ voorkomt, duidelijk geschreven na de Tweede Wereldoorlog, gekoppeld aan een Franstalige titel À travers la Tunesie uit 1887…
Ik kom tot de volgende twee conclusies:
- de Ngram viewer is (nog) niet betrouwbaar genoeg voor wetenschappelijk onderzoek naar woordgebruik door de eeuwen heen, omdat
- de onderliggende Google Books-database (nog) niet de noodzakelijke kwaliteit heeft op het gebied van OCR en metadatering
Maar misschien ben ik inmiddels wel zodanig het spoor bijster dat deze conclusies ook niet door de feiten ondersteund worden.


Vooral bij de oudere scanrondes van Google Books is veel misgegaan. Meestvoorkomende fouten, afgezien van lelijk scannen en OCR-fouten, zijn koppeling van de verkeerde full text aan de metadata en vooral toevoegen van startjaar van reeksen en tijdschriften als publicatiejaar aan elke aflevering van die reeks. Dat laatste is gewoon knullig geweest. Maar het heeft ook te maken met de Google filosofie: alle data zoveel mogelijk vrij doorzoekbaar in 1 veld en vertrouwen op de goede relevantieorderningsalgoritmes ipv alles netjes in allemaal aparte velden opnemen. Als je deze zoekactie zo strict mogelijk doet blijven er gelukkig minder dan 100 titels over (ondanks het feit dat Google Books er aanvankelijk 400 belooft, maar dat is een andere kwestie: Google kan niet tellen), die allemaal om een van de twee genoemde redenen afvallen. In oude Nederlandstalige teksten (probeer bv kranten bij KB) blijkt ‘atoombom’ overigens ook vaak niet meer dan een slecht ge-OCR-d ‘stoomboot’.
Jeroen, dank je voor je reactie en nadere toelichting. Mij was inderdaad ook bij het krantenproject van de KB de belabberde OCR opgevallen. Zelf beweren ze 60 à 70% correcte tekenherkenning te realiseren, maar dat levert vaak onzinnige resultaten op. Daar wilde ik binnenkort ook eens iets over posten. Niet omdat dat een nieuwe observatie zou zijn, maar wel om bij iedereen (nou ja, bijna dan) de voeten op de grond te houden.
Op http://corpus.byu.edu/coha/compare-culturomics.asp vergelijkt Mark Davies Google Ngrams met het Corpus of Historical American English [COHA] (http://corpus.byu.edu/coha/). Dan zie je dat laatstgenoemd corpus inderdaad veel meer informatie geeft dan Google Ngrams.
[...] Het spoor bijster… (Zeemanspraat) zoeken in google books is op zijn zachts gezegd niet erg betrouwbaar [...]