Captcha 2.0

De nieuwe InformatieProfessional vandaag op de mat. Aardig artikel over het gebruik van de captcha voor het verbeteren van onleesbare woorden die met het OCR-en van gedigitaliseerde teksten worden gemaakt. Twee cijfers die in het artikel genoemd worden brengen me echter weer enigszins aan het twijfelen.

Volgens auteur Luc Van Peteghem heeft de ontdekker van de (re)captcha Luis von Ahn berekend dat zijn captcha inmiddels gemiddeld per dag tussen de 15 en 100 miljoen keer wordt gebruikt. ???? Het is alsof ik iemand hoor zeggen “Ja, ik ga deze keer maar naar Italië op vakantie; de gemiddelde temperatuur schommelt daar tussen de 5 en 35 graden Celsius.” Daar schiet ik dus niet zo veel mee op.

Nog eentje: aan het eind van het artikel schrijft Luc dat dankzij de captcha er nu dagelijks 3 miljoen onleesbare woorden in de ge-OCRde boekteksten van The Internet Archive worden verbeterd. Dagelijks? 3 miljoen onleesbare woorden? Dat zou betekenen dat er op jaarbasis meer dan 100 miljoen fouten worden gemaakt. En die zouden nu allemaal langs geautomatiseerde weg verbeterd worden…

Cijfers… ik ben er altijd wat huiverig voor.

Nog geen reacties

Leave a reply