Techniky pro snižování chybovosti OCR

Z WikiKnihovna
Přejít na: navigace, hledání

Autor: Tomáš Vorálek

Klíčová slova: OCR, chybovost OCR

Synonyma:---

Související pojmy:

nadřazené- OCR, Digitalizace textů

podřazené- ---OCR

OCR je anglickou zkratkou pro Optical Character Reaading nebo Optical Character Recognition. Pro objasnění se jedná o "automatizovanou identifikaci grafických znaků snímaných opticky nebo o metodu elektronického čtení tištěných znaků a jejich převádění do digitální formy, kterou lze dále zpracovat počítačem."[1] Jednoduše se jedná o způsob pro digitalizování textu. Můžeme se také setkat s mnoha definicemi např. : "This technology allows a machine to automatically recognize characters through an optical mechanism."[2]

Automatické převádění tištěného textu do digitální podoby provází jisté problémy, které tuto metodu ztěžují. Pro bezproblémový průběh digitalizace textu proto existují jisté techniky, které snižují chybovost OCR a zlepšují čitelnost tištěného textu pro čtecí zařízení.[3]

Techniky pro snižování chybovosti OCR

Odstranění skvrn


Proces odstraňování skvrn je jedním ze základních předpokladů bezchybného průběhu digitalizace textu. Skvrny způsobené prachem, skenováním povrchu dokumentu nebo jiným způsobem mohou být odstraněny buď fyzicky na nosiči, nebo elektronicky. Elektronicky probíhá odstraňování skvrn skenováním, analýzou a následným odstraněním detekovaných skvrn. Většinou tuto techniku provádí specializovaný software.[4]


Odstranění tabulek


Formuláře a jiné tiskové dokumenty často obsahují tabulky a různé rámečky. Pro OCR je čitelnost těchto tabulek a rámečků (někdy označovaných jako boxy), náročnou operací. Proto se před samotnou digitalizací pomocí příslušných programů tyto boxy odstraňují. Po odstranění tabulek je pro OCR snadnější rozpoznat text.[4]


Odstranění čar


Dalším způsobem pro lepší chod OCR je odstranění čar a šumů vzniklých například faxovou komunikací nebo nedostatky tiskárny. Proces také zahrnuje odstranění přechodových čar a částí textu ohraničených čárou. Tento proces zahrnuje odstranění horizontálních i vertikálních čar, které mohou způsobit chyby OCR. [4]


Odstranění okrajů


Černé okraje textů a listin jsou dalším problémem pro strojové zpracování. Další technika je proto zaměřena na odstranění černých okrajů z chybně naskenovaných nebo vytisknutých dokumentů. Díky specializovanému softwaru toto odstranění probíhá automaticky.[4]


Úprava obrazových dokumentů


Klasický systém OCR je nastaven pro snímání obrázků s černým textem a s bílým pozadím. V případě obrácených barev textu a pozadí ( nebo jiných barev), již OCR ztrácí schopnost rozpoznání. Proto je dobré nejprve text převézt do podoby čitelné OCR ( Nejlépe specializovaným programem). Po tomto kroku je možné text podrobit OCR.[4]


Vyrovnání sklonu písma


Po naskenování dokumentu se často změní sklon naskenovaného dokumentu, takže celý obraz je pod jiným úhlem, než bylo žádáno. Pro opravu takto zkoseného obrazu slouží specializovaný program, který obraz zpět nastaví do požadované polohy, aby OCR mohlo proběhnout bez problému. Program také upravuje i sklon písma vzniklý před skenováním dokumentu.[4]


Odstranění předtištěných prvků

Za předtištěné prvky dokumentů můžeme považovat například hlavičky a jiné části formulářů. Pro bezchybné zpracování a zdigitalizování textu je zapotřebí se těchto prvků nejprve zbavit. Program, který se specializuje na tuto část buď automaticky nebo za pomocí pracovníka určí nepotřebné prvky a následně se jich zbavuje. Po odstranění všech nežádoucích prvků dochází k digitalizaci textu.[4]

Poznámky

1.OCR technologie v pedagogických disciplínách: stručný úvod do problematiky. KOPECKÝ, Kamil, David NOCAR a Roman KOPECKÝ. Epedagog [online]. Olomouc, 2003 [cit. 2012-05-07]. Dostupné z: http://epedagog.upol.cz/eped3.2003/clanek03.htm

2. Optical Character Recognition. [online] AIM Inc. Pittsburgh, PA 15238-2802, str.4, USA.. 2000 [cit. 6.1. 2002]. Dostupné na z: http://www.aimglobal.org/technologies/othertechnologies/ocr.pdf

3.OCR, optické rozpoznávání písma. [online]. Q-klub AMAVET, Příbram. [cit. 6.1. 2002]. Dostupné na WWW: <http://www.quido.cz/objevy/ocr.htm>

4. DespeckleHelper. Motelismango [online]. 2010 [cit. 2012-05-07]. Dostupné z: http://www.motelismango.lv/windows/Graphic_Applications/Other_Graphic_Applications/Review-DespeckleHelper.html

Použitá literatura

-DespeckleHelper. Motelismango [online]. 2010 [cit. 2012-05-07]. Dostupné z: http://www.motelismango.lv/windows/Graphic_Applications/Other_Graphic_Applications/Review-DespeckleHelper.html

-OCR, optické rozpoznávání písma. [online]. Q-klub AMAVET, Příbram. [cit. 6.1. 2002]. Dostupné na WWW: <http://www.quido.cz/objevy/ocr.htm>

-OCR technologie v pedagogických disciplínách: stručný úvod do problematiky. KOPECKÝ, Kamil, David NOCAR a Roman KOPECKÝ. Epedagog [online]. Olomouc, 2003 [cit. 2012-05-07]. Dostupné z: http://epedagog.upol.cz/eped3.2003/clanek03.htm

-Optical Character Recognition. [online] AIM Inc. Pittsburgh, PA 15238-2802, USA.. 2000 [cit. 6.1. 2002]. Dostupné na z: http://www.aimglobal.org/technologies/othertechnologies/ocr.pdf