Captcha 2.0

De nieuwe InformatieProfessional vandaag op de mat. Aardig artikel over het gebruik van de captcha voor het verbeteren van onleesbare woorden die met het OCR-en van gedigitaliseerde teksten worden gemaakt. Twee cijfers die in het artikel genoemd worden brengen me echter weer enigszins aan het twijfelen.

Volgens auteur Luc Van Peteghem heeft de ontdekker van de (re)captcha Luis von Ahn berekend dat zijn captcha inmiddels gemiddeld per dag tussen de 15 en 100 miljoen keer wordt gebruikt. ???? Het is alsof ik iemand hoor zeggen “Ja, ik ga deze keer maar naar Italië op vakantie; de gemiddelde temperatuur schommelt daar tussen de 5 en 35 graden Celsius.” Daar schiet ik dus niet zo veel mee op.

Nog eentje: aan het eind van het artikel schrijft Luc dat dankzij de captcha er nu dagelijks 3 miljoen onleesbare woorden in de ge-OCRde boekteksten van The Internet Archive worden verbeterd. Dagelijks? 3 miljoen onleesbare woorden? Dat zou betekenen dat er op jaarbasis meer dan 100 miljoen fouten worden gemaakt. En die zouden nu allemaal langs geautomatiseerde weg verbeterd worden…

Cijfers… ik ben er altijd wat huiverig voor.

No comments yet

Geef een reactie

Vul je gegevens in of klik op een icoon om in te loggen.

WordPress.com logo

Je reageert onder je WordPress.com account. Log uit / Bijwerken )

Twitter-afbeelding

Je reageert onder je Twitter account. Log uit / Bijwerken )

Facebook foto

Je reageert onder je Facebook account. Log uit / Bijwerken )

Google+ photo

Je reageert onder je Google+ account. Log uit / Bijwerken )

Verbinden met %s

%d bloggers op de volgende wijze: