ReCAPTCHA

Z WikiKnihovna
Přejít na: navigace, hledání

Autor: Eva Mertová

Klíčová slova: OCR, digitalizace knih, Turingův test, CAPTCHA

Synonyma: ---

Související pojmy:

nadřazené - OCR, digitalizace knih
podřazené -

Charakteristika

ReCAPTCHA je volně dostupný program, který přispívá k digitalizaci knih, časopisů a jiných starých tištěných médií. Využívá stejné rozhraní jako systém CAPTCHA. CAPTCHA je dialogový test, který nám pomáhá rozpoznat, zda-li je uživatel člověk nebo počítač. Barevný obrázek s přeházenými znaky, který je umístěn v dolní části registračního formuláře využívá mnoho webových stránek k tomu, aby zabránily zneužití svých online služeb tzv. roboty.[1] Dalším důvodem, proč webové stránky využívají systém reCAPTCHA je ten, že ačkoli reCAPTCHA předkládá uživateli dvě slova místo jednoho, tak čas strávený jeho řešením netrvá déle než vyřešení klasického CAPTCHA obrázku.[2]

Projekt reCAPTCHA vznikl na Carnegie Mellon University. Mezi zakladatele patří Luis von Ahn, Ben Maurer, Colin McMillen, David Abraham a Manuel Blum.

Každý den lidé na celém světě zadají přes 200 milionů CAPTCHA obrázků. Každé takové vyplnění tohoto testu trvá jednotlivci přes deset vteřin. Dohromady je to téměř 150 000 hodin lidské práce. Cílem projektu bylo zjistit, zda je možné smysluplně využít čas, který stráví uživatelé online služeb nad luštěním překroucených znaků.[1]

V současné době reCAPTCHA pomáhá digitalizovat staré sbírky New York Times a knihy z databáze Google Books.

Jak to funguje

Zatímco CAPTCHA generuje obrázky s počítačem náhodně vybranými znaky, tak reCAPTCHA využívá slova převzatá z oskenovaných knih. Stránky knih a časopisů jsou fotograficky skenovány a výsledné bitmapové obrázky jsou metodou OCR (optické rozpoznávání znaků) převáděny na text. Takovéto převedení na text je užitečné především proto, že knihy lze poté lépe indexovat, vyhledávat a ukládat ve formátech, se kterými lze dobře manipulovat. Technika OCR však nedokáže některé znaky dobře rozpoznat, kvůli zažloutlým stránkám a vybledlému inkoustu.

Každou naskenovanou stránku analyzují dva různé OCR programy. Výstupy z každého programu jsou porovnávány mezi sebou a následně s anglickým slovníkem. Pokud programy rozluští slova odlišně nebo se slovo nenachází v anglickém slovníku, tak je označeno za "podezřelé". Každé takové slovo, které není rozpoznáno, je přidáno do obrázku společně s druhým slovem, u kterého je odpověď známa. Autoři projektu předpokládají, že pokud uživatel správně rozluští známé slovo, tak nebude mít problém i s druhým.[2]

Aby se při digitalizačním procesu předešlo lidským chybám, reCAPTCHA posílá každé "podezřelé" slovo několika uživatelům najednou. Jestliže se první tři uživatelé na odpovědi shodnou mezi sebou, ale odpověď je jiná než u obou OCR programů, tak se z neznámého slova stává pro další případy slovo kontrolní. Jestliže se liší odpovědi mezi lidmi, tak reCAPTCHA určí toto slovo jako neznámé a odesílá ho několika různým lidem a vybírá odpověď s nejvyšším počtem bodů. Každá odpověď člověka je ohodnocena jedním bodem a odpověď OCR programu znamená polovinu bodu. Aby bylo slovo ohodnoceno jako správně přečtené a zařazeno do digitalizačního procesu musí získat nejméně 2,5 bodu.[2]

Pokud je slovo nečitelné, může si uživatel nechat vygenerovat jiný pár slov. Jestliže šest uživatelů nezávisle na sobě slovo neidentifikuje, tak je takové slovo vyřazeno a označeno za nečitelné.[2]

Poznámky

  1. 1,0 1,1 Web projektu reCAPTCHA
  2. 2,0 2,1 2,2 2,3 VON AHN, L., B. MAURER, C. MCMILLEN, D. ABRAHAM a M. BLUM. ReCAPTCHA: Human-Based Character Recognition via Web Security Measures. Science [online]. 2008-09-12, roč. 321, č. 5895, s. 1465-1468 [cit. 2013-04-04]. ISSN 0036-8075. DOI: 10.1126/science.1160379. Dostupné z: http://www.sciencemag.org/cgi/doi/10.1126/science.1160379

Použitá literatura

  • BOURGON, Lyndsie. Captcha if you can. Canadian Business [online]. 2010, Vol. 83, Issue 17, s. 22 [cit. 2013-04-02]. ISSN 00083100. Dostupné z: databáze EBSCO
  • OLSEN, Stefanie. ReCaptcha: Reusing your 'wasted' time online. CNET [online]. [cit. 2013-04-02]. Dostupné z: http://news.cnet.com/8301-1023_3-9989480-93.html
  • VON AHN, L., B. MAURER, C. MCMILLEN, D. ABRAHAM a M. BLUM. ReCAPTCHA: Human-Based Character Recognition via Web Security Measures. Science [online]. 2008-09-12, roč. 321, č. 5895, s. 1465-1468 [cit. 2013-04-04]. ISSN 0036-8075. DOI: 10.1126/science.1160379. Dostupné z: http://www.sciencemag.org/cgi/doi/10.1126/science.1160379
  • Web projektu reCAPTCHA