reCAPTCHA : un système anti-spam qui numérise les livres

Vous avez sûrement déjà croisé le système de vérification humaine reCAPTCHA qui permet de lutter contre le spam, en retapant 2 mots écrits dans un formulaire. Mais saviez-vous que ce système permet de manière astucieuse de numériser des milliers de livres papier grâce à votre propre contribution ? En effet, sur les 2 mots que vous tapez, un seul est connu et vérifié.

L'autre n'est pas connu, mais en le proposant à des centaines d'internautes différents et en ayant toujours la même réponse de leur part, le système sait alors que l'association entre ce qui a été scanné et ce qui a été tapé par les internautes est correct. Et voilà comment on arrive à numériser des milliers d'ouvrages avec un système antispam ! L'OCR (système de reconnaissance des caractères automatique par informatique) n'est aujourd'hui pas assez au point pour être suffisamment fiable. En utilisant le cerveau humain, on arrive à de bien meilleurs résultats. Le slogan de la société (qui a été rachetée par Google) incarne bien le fonctionnement de ce système : "stop spam, read books".

Commentaires préférés (3)

Moomin

Ça a l'air intéressant mais j'ai rien compris...

fancat

Bien que j'ai lu cette annecdote et ses commentaires plusieurs fois je n'ai rien compris !

vb73

C'est simple :
Des sociétés comme Google numérisent de nombreux livres de manière automatisés, et utilisent des logiciels OCR (Reconnaissance de caractères) pour améliorer la lisibilité des ebook (livres électroniques).

Malheureusement, les OCR ne reconnaissent pas forcément tous les mots (dans des vieux livres par exemple), et un humain est nécessaire pour lire et corriger le mot.

L'idée qu'a eu cette société (effectivement rachetée par Google par la suite) a été de se dire : ça prendrait des centaines d'heures pour une seule personne pour relire tous ces mots, alors qu'il y a des millions d'internautes qui utilisent des captchas (ces codes anti-robots), et qui ne mettent que quelques secondes à les déchiffrer.

Sur le captcha, il y a 2 mots affichés : un est déjà connu, et l'autre peut être un mot non reconnu par l'OCR. Ainsi, l'internaute va entrer les 2 mots, et le système va valider ou non en se basant sur le mot qu'il connaît.
Ensuite, il stocke le 2ème mot, et le compare à d'autres réponses d'internautes (plusieurs centaines probablement). Il peut comme cela à trouver le bon mot que le logiciel était incapable de reconnaître de lui-même.
Et c'est comme ça qu'il est possible de numériser des milliers de livres sans avoir à payer une équipe pour lire les mots non reconnus.

Tous les commentaires (107)

Zdouble

Super l'info !

kyubidan

C'est la folie et vraiment très intelligent !

ioangauss

C'est super

Mythys

Etonnant, fallait vraiment y penser.

Giorgio

J ai pas compris le principe du deuxième mot...

bilal

On est toute une armée de cobaye informatique! :o))

Moomin

Ça a l'air intéressant mais j'ai rien compris...

outadoc

Moomin: en fait, chacun de nous apprend à la machine à reconnaitre des lettres manuscrites. Comme ça, les manuscrits peuvent être numérisés de façon plus efficace.

mondix

Et c'est quoi ce premier mots

blacksheep38

Ce que je trouve énorme... C qu'il y a un mec qui a eu l'idée de ça. Y'a vraiment des mecs Qui se creusent les méninges...

frenz

Ce quil me fait rire cest que ce systeme est concut a la base pour etre sur qune personne est sur le pc alors que pleins de logiciels automatises decrypte et inscrivent ces lettres a notre place de nos jours. Donc en resultat cest linformatique qui verifie lexactitudes des lettres pour ces livres que linformatique a numerise auparavant. Ou va le monde ...

fancat

Bien que j'ai lu cette annecdote et ses commentaires plusieurs fois je n'ai rien compris !

chnoub

On devrait demander a être payé! Non mais on bosse gratis a l'insue de notre plein gré? Et les bouquins scannés, ils sont pas payant quand même? :)

ciya

G strictement rien compris!! Pourtant g relu deux fois

vb73

SolidSnake

Trop bien.

kaiiou

Vb 73, merci pour tes explications car c'était pas très clair en effet. (je n'avais pas saisit qu'il s'agissait de la succession de lettres que tu dois reconnaitre à la fin d'un formulaire Internet... En effet parfois ça forme un mot ! Mais pas toujours cependant.)

Gorus

Voilà qui explique pourquoi parfois j'ai remarqué parfois qu'en écrivant n'importe quoi ou en faisant une faute de frappe sur le deuxième mot ça marche quand même...
En tout cas super bien vu comme système.

Soubi

Cela forme pratiquement toujours un mot, seulement considère le fait qu'il s'agit souvent d'ouvrages manuscrits anciens, et que les langues évoluent...

triton35

C en kele langue ????

Commentaires préférés (3)

Tous les commentaires (107)

Newsletter