4 comments so far

  1. Jeroen Bosman on

    Vooral bij de oudere scanrondes van Google Books is veel misgegaan. Meestvoorkomende fouten, afgezien van lelijk scannen en OCR-fouten, zijn koppeling van de verkeerde full text aan de metadata en vooral toevoegen van startjaar van reeksen en tijdschriften als publicatiejaar aan elke aflevering van die reeks. Dat laatste is gewoon knullig geweest. Maar het heeft ook te maken met de Google filosofie: alle data zoveel mogelijk vrij doorzoekbaar in 1 veld en vertrouwen op de goede relevantieorderningsalgoritmes ipv alles netjes in allemaal aparte velden opnemen. Als je deze zoekactie zo strict mogelijk doet blijven er gelukkig minder dan 100 titels over (ondanks het feit dat Google Books er aanvankelijk 400 belooft, maar dat is een andere kwestie: Google kan niet tellen), die allemaal om een van de twee genoemde redenen afvallen. In oude Nederlandstalige teksten (probeer bv kranten bij KB) blijkt ‘atoombom’ overigens ook vaak niet meer dan een slecht ge-OCR-d ‘stoomboot’.

    • zeemanspraat on

      Jeroen, dank je voor je reactie en nadere toelichting. Mij was inderdaad ook bij het krantenproject van de KB de belabberde OCR opgevallen. Zelf beweren ze 60 à 70% correcte tekenherkenning te realiseren, maar dat levert vaak onzinnige resultaten op. Daar wilde ik binnenkort ook eens iets over posten. Niet omdat dat een nieuwe observatie zou zijn, maar wel om bij iedereen (nou ja, bijna dan) de voeten op de grond te houden.

  2. Joke Sterringa on

    Op http://corpus.byu.edu/coha/compare-culturomics.asp vergelijkt Mark Davies Google Ngrams met het Corpus of Historical American English [COHA] (http://corpus.byu.edu/coha/). Dan zie je dat laatstgenoemd corpus inderdaad veel meer informatie geeft dan Google Ngrams.

  3. […] Het spoor bijster… (Zeemanspraat) zoeken in google books is op zijn zachts gezegd niet erg betrouwbaar […]


Geef een reactie

Vul je gegevens in of klik op een icoon om in te loggen.

WordPress.com logo

Je reageert onder je WordPress.com account. Log uit / Bijwerken )

Twitter-afbeelding

Je reageert onder je Twitter account. Log uit / Bijwerken )

Facebook foto

Je reageert onder je Facebook account. Log uit / Bijwerken )

Google+ photo

Je reageert onder je Google+ account. Log uit / Bijwerken )

Verbinden met %s

%d bloggers op de volgende wijze: