Feeds:
Articoli
Commenti

Posts Tagged ‘Metadati’

reCAPTCHA è un servizio CAPTCHA gratuito offerto, sotto forma di widget, da Google per proteggere il proprio sito o blog da spam e incursioni esterne indesiderate. Vi è mai capitato di dovervi registrare su un sito, di inserire un contenuto o compilare una form online e dover riconoscere una sequenza di lettere e/o numeri che appaiono distorti, prima di poter procedere con l’azione che state effettuando?

Questo test, chiamato per l’appunto CAPTCHA, serve a determinare se l’utente sia un umano (e non un computer o, più precisamente, un bot). L’acronimo coniato nel 2000 deriva dall’inglese “completely automated public Turing test to tell computers and humans apart”.

Oltre a proteggere la vostra applicazione online, reCAPTCHA è un progetto che contribuisce a riconoscere i testi di vecchi e libri e giornali digitalizzati.

Quando si digitalizza un volume, le pagine vengono scansionate fotograficamente e poi trasformate in testo utilizzando il sistema detto OCR (Optical Character Recognition). La trasformazione in testo avviene perché la scansione produce immagini pesanti da archiviare, difficili da scaricare e il cui testo non può essere ricercato. L’OCR però non è un sistema perfetto, che produce troppi errori soprattutto nei testi precedenti all’epoca della stampa su scala industriale.

Entrando nello specifico del progetto, ogni parola che non viene letta correttamente dall’OCR viene ritrasformata in immagine e utilizzata come CAPTCHA. Ciò è possibile perché molti programmi di OCR avvisano quando una parola non è stata letta correttamente.

Ma se un computer non riesce a leggere un CAPTCHA, come fa il sistema a riconoscere se la risposta è corretta? Ecco la soluzione.

Ogni nuova parola non riconosciuta dall’OCR viene sottoposta all’utente insieme a un’altra parola interpretata correttamente dall’OCR. All’utente viene quindi richiesto di leggere ambedue le parole. Se l’utente legge correttamente la parola già individuata dall’OCR, il sistema assume che la risposta sia corretta anche per il secondo termine.

La stessa immagine viene comunque sottoposta a più utenti e la parola viene validata solo dopo che più utenti hanno identificato la sequenza di lettere nello stesso modo.

reCAPTCHA è un servizio di social tagging per ottimizzare i metadati creati con l’OCR attraverso il contributo di utenti non professionali. [MTN]

Vuoi provare come funziona?
http://www.google.com/recaptcha/learnmore

Info per scaricare l’applicazione
http://www.google.com/recaptcha/whyrecaptcha

 

Annunci

Read Full Post »