reCAPTCHA : un système anti-spam qui numérise les livres

Proposé par
le

Vous avez sûrement déjà croisé le système de vérification humaine reCAPTCHA qui permet de lutter contre le spam, en retapant 2 mots écrits dans un formulaire. Mais saviez-vous que ce système permet de manière astucieuse de numériser des milliers de livres papier grâce à votre propre contribution ? En effet, sur les 2 mots que vous tapez, un seul est connu et vérifié.

L'autre n'est pas connu, mais en le proposant à des centaines d'internautes différents et en ayant toujours la même réponse de leur part, le système sait alors que l'association entre ce qui a été scanné et ce qui a été tapé par les internautes est correct. Et voilà comment on arrive à numériser des milliers d'ouvrages avec un système antispam ! L'OCR (système de reconnaissance des caractères automatique par informatique) n'est aujourd'hui pas assez au point pour être suffisamment fiable. En utilisant le cerveau humain, on arrive à de bien meilleurs résultats. Le slogan de la société (qui a été rachetée par Google) incarne bien le fonctionnement de ce système : "stop spam, read books". 


Commentaires préférés (3)

Ça a l'air intéressant mais j'ai rien compris...

Posté le

unknown

(904)

Répondre

Bien que j'ai lu cette annecdote et ses commentaires plusieurs fois je n'ai rien compris !

Posté le

unknown

(435)

Répondre

C'est simple :
Des sociétés comme Google numérisent de nombreux livres de manière automatisés, et utilisent des logiciels OCR (Reconnaissance de caractères) pour améliorer la lisibilité des ebook (livres électroniques).

Malheureusement, les OCR ne reconnaissent pas forcément tous les mots (dans des vieux livres par exemple), et un humain est nécessaire pour lire et corriger le mot.

L'idée qu'a eu cette société (effectivement rachetée par Google par la suite) a été de se dire : ça prendrait des centaines d'heures pour une seule personne pour relire tous ces mots, alors qu'il y a des millions d'internautes qui utilisent des captchas (ces codes anti-robots), et qui ne mettent que quelques secondes à les déchiffrer.

Sur le captcha, il y a 2 mots affichés : un est déjà connu, et l'autre peut être un mot non reconnu par l'OCR. Ainsi, l'internaute va entrer les 2 mots, et le système va valider ou non en se basant sur le mot qu'il connaît.
Ensuite, il stocke le 2ème mot, et le compare à d'autres réponses d'internautes (plusieurs centaines probablement). Il peut comme cela à trouver le bon mot que le logiciel était incapable de reconnaître de lui-même.
Et c'est comme ça qu'il est possible de numériser des milliers de livres sans avoir à payer une équipe pour lire les mots non reconnus.

Posté le

unknown

(1191)

Répondre


Tous les commentaires (106)

C'est la folie et vraiment très intelligent !

Posté le

unknown

(44)

Répondre

Etonnant, fallait vraiment y penser.

Posté le

unknown

(17)

Répondre

J ai pas compris le principe du deuxième mot...

Posté le

unknown

(23)

Répondre

On est toute une armée de cobaye informatique! :o))

Posté le

unknown

(45)

Répondre

Ça a l'air intéressant mais j'ai rien compris...

Posté le

unknown

(904)

Répondre

Moomin: en fait, chacun de nous apprend à la machine à reconnaitre des lettres manuscrites. Comme ça, les manuscrits peuvent être numérisés de façon plus efficace.

Posté le

unknown

(32)

Répondre

Et c'est quoi ce premier mots

Posté le

unknown

(0)

Répondre

Ce que je trouve énorme... C qu'il y a un mec qui a eu l'idée de ça. Y'a vraiment des mecs Qui se creusent les méninges...

Posté le

unknown

(28)

Répondre

Ce quil me fait rire cest que ce systeme est concut a la base pour etre sur qune personne est sur le pc alors que pleins de logiciels automatises decrypte et inscrivent ces lettres a notre place de nos jours. Donc en resultat cest linformatique qui verifie lexactitudes des lettres pour ces livres que linformatique a numerise auparavant. Ou va le monde ...

Posté le

unknown

(0)

Répondre

Bien que j'ai lu cette annecdote et ses commentaires plusieurs fois je n'ai rien compris !

Posté le

unknown

(435)

Répondre

On devrait demander a être payé! Non mais on bosse gratis a l'insue de notre plein gré? Et les bouquins scannés, ils sont pas payant quand même? :)

Posté le

unknown

(10)

Répondre

G strictement rien compris!! Pourtant g relu deux fois

Posté le

unknown

(3)

Répondre

C'est simple :
Des sociétés comme Google numérisent de nombreux livres de manière automatisés, et utilisent des logiciels OCR (Reconnaissance de caractères) pour améliorer la lisibilité des ebook (livres électroniques).

Malheureusement, les OCR ne reconnaissent pas forcément tous les mots (dans des vieux livres par exemple), et un humain est nécessaire pour lire et corriger le mot.

L'idée qu'a eu cette société (effectivement rachetée par Google par la suite) a été de se dire : ça prendrait des centaines d'heures pour une seule personne pour relire tous ces mots, alors qu'il y a des millions d'internautes qui utilisent des captchas (ces codes anti-robots), et qui ne mettent que quelques secondes à les déchiffrer.

Sur le captcha, il y a 2 mots affichés : un est déjà connu, et l'autre peut être un mot non reconnu par l'OCR. Ainsi, l'internaute va entrer les 2 mots, et le système va valider ou non en se basant sur le mot qu'il connaît.
Ensuite, il stocke le 2ème mot, et le compare à d'autres réponses d'internautes (plusieurs centaines probablement). Il peut comme cela à trouver le bon mot que le logiciel était incapable de reconnaître de lui-même.
Et c'est comme ça qu'il est possible de numériser des milliers de livres sans avoir à payer une équipe pour lire les mots non reconnus.

Posté le

unknown

(1191)

Répondre

Vb 73, merci pour tes explications car c'était pas très clair en effet. (je n'avais pas saisit qu'il s'agissait de la succession de lettres que tu dois reconnaitre à la fin d'un formulaire Internet... En effet parfois ça forme un mot ! Mais pas toujours cependant.)

Posté le

unknown

(10)

Répondre

Voilà qui explique pourquoi parfois j'ai remarqué parfois qu'en écrivant n'importe quoi ou en faisant une faute de frappe sur le deuxième mot ça marche quand même...
En tout cas super bien vu comme système.

Posté le

unknown

(18)

Répondre

Cela forme pratiquement toujours un mot, seulement considère le fait qu'il s'agit souvent d'ouvrages manuscrits anciens, et que les langues évoluent...

Posté le

unknown

(4)

Répondre