reCAPTCHA ir sistēma, ko sākotnēji izstrādāja Kārnegī Melona universitātē un kura izmanto CAPTCHA tehnoloģiju, lai palīdzētu digitalizēt grāmatu tekstu, pie reizes aizsargājot tīmekļa vietnes no botiem, kuri mēģina piekļūt ierobežotas pieejas sadaļām.[1] 2009. gada 16. septembrī Google iegādājās reCAPTCHA.[2] reCAPTCHA šobrīd nodarbojas ar The New York Times arhīvu digitalizāciju.[3] Šobrīd ir pabeigti 20 gadi no The New York Times arhīva un pārējo gadu pabeigšana bija plānota līdz 2010. gada beigām.[4]

ReCaptcha logo

reCAPTCHA savām sadarbības lapām piedāvā vārdu attēlus, kurus nav spējusi atpazīt rakstzīmju optiskās atpazīšanas (OCR) programmatūra. Partneru lapas, kuras parasti nav saistītas ar grāmatu digitalizācijas projektu, parāda šos attēlus cilvēkiem ar mērķi atpazīt tos kā CAPTCHA vārdus kā daļu no savām ierastajām pārbaudes procedūrām. pēc tam rezultāti tiek atgriezti reCAPTCHA servisam, kurš nosūta rezultātus digitalizācijas projektiem.

Tiek ziņots, ka sistēma dienā parāda vairāk kā 100 miljonus CAPTCHA attēlu,[5] un tās izmantotāju vidū ir tādas populāras vietnes kā Facebook, TicketMaster, Twitter, 4chan, CNN.com un StumbleUpon.[6] Sludinājumu portāls Craigslist to sāka izmantot 2008. gada jūnijā.[7]

 
Piemērs no reCAPTCHA darbības 2007. gadā, satur vārdus following finding. Viļņojums un horizontālā svītra ir pievienota, lai sarežģītu CAPTCHA atpazīšanu ar datorprogrammu

Skanētais teksts tiek analizēts ar divām dažādām rakstzīmju optiskās atpazīšanas programmām. gadījumos, kad programmas atgriež dažādus rezultātus, šaubīgais vārds tiek pārveidots par CAPTCHA. Vārds tiek atrādīts kopā ar kontroles vārdu, kura atšifrējums jau ir zināms. Sistēma pieņem, ka, ja cilvēks pareizi ievada kontroles vārdu, šaubīgais vārds arī būs pareizs. Identifikāciju, ko devusi katra datorprogramma saņem svaru 0,5 punktu vērtībā, bet katra cilvēka interpretācija saņem pilnu punktu. Tiklīdz kāda identifikācija saņem 2,5 punktus, vārds tiek uzskatīts par atpazītu. Vārdi, kurus cilvēki regulāri atpazīst kā vienu vārdu, tiek atkārtoti izmantoti kā kontroles vārdi.[8]

  1. Luis von Ahn, Ben Maurer, Colin McMillen, David Abraham and Manuel Blum (2008). "reCAPTCHA: Human-Based Character Recognition via Web Security Measures" (PDF). Science 321 (5895): 1465–1468. doi:10.1126/science.1160379. PMID 18703711.
  2. «Teaching computers to read: Google acquires reCAPTCHA». Google. Skatīts: 2009-09-16.
  3. «Learn more». reCAPTCHA.net. Arhivēts no oriģināla, laiks: 2007-05-24. Skatīts: 2008-11-23.
  4. Luis von Ahn. NOVA ScienceNow s04e01 (Television production), 2009. Event occurs at 46:58. The New York Times has this huge archive, over 130 years of newspaper archive there. And we've done maybe about 20 years so far of The New York Times in the last few months and I believe we're going to be done next year by just having people do a word at a time.
  5. «reCAPTCHA FAQ». Google. Skatīts: 2010-12-18.
  6. Paul Rubens. «Spam weapon helps preserve books». BBC, 2007-10-02.
  7. «Fight Spam, Digitize Books». Craigslist Blog. 2008-06.
  8. John Timmer. «CAPTCHAs work? for digitizing old, damaged texts, manuscripts». Ars Technica, 2008-08-14. Skatīts: 2008-12-09.

Ārējās saites

labot šo sadaļu