OCR

Z WikiKnihovna
Přejít na: navigace, hledání

Autor: Drahomír Hájek

Klíčová slova: Optical Character Recognition, optické rozpoznávání znaků

Synonyma: ---

Související pojmy:

nadřazené - ---

podřazené - ---Definice

OCR neboli optické rozpoznávání znaků (z anglického Optical Character Recognition) je metoda, která pomocí scanneru umožňuje digitalizaci tištěných textů, s nimiž pak lze pracovat jako s normálním počítačovým textem. Počítačový program převádí obraz buď automaticky, nebo se musí naučit rozpoznávat znaky. Převedený text je téměř vždy v závislosti na kvalitě předlohy třeba podrobit důkladné korektuře, protože OCR program nerozezná všechna písmena správně. OCR – zpracování textu z tištěné do elektronické podoby je použitelné pro všechny tištěné výstupy z laserových, inkoustových, termosublimačních a jehličkových tiskáren a samozřejmě pro předlohy vytištěné knihtiskem. U nevhodných předloh např. slabě vytištěných jehličkových tiskáren nebo dohromady slitých písmen se z časového hlediska vyplatí spíše přepis textu. [3]

Princip technologie OCR

Účel a význam této technologie spočívá v rychlém a levném převádění tištěného nebo psaného textu do elektronické podoby (editovatelného počítačového souboru). Rozpoznávání textu je 20až 25krát rychlejší než ruční přepisování. Pro srovnání si uvedeme pár čísel: zatímco velmi rychlá sekretářka napíše 200 znaků za minutu, OCR rozpozná několik stovek znaků za sekundu. [1] (Nutno přidat určitou dobu pro proces skenování a pro obsluhu softwaru.) OCR lze také použít pro převedení tabulky s čísly do počítače, což se může stát velice efektivním nástrojem při jakékoliv profesi. OCR aplikace neumí skenovat, umí však rozpoznávat znaky a z obrázku obsahujícího text vytvářet běžný text, který lze dále zpracovávat. Původní dokument na papíře se načte pomocí skeneru. Skener pracuje jako oko vašeho počítače a předá mu načtený obraz. V tomto okamžiku se jedná skutečně pouze o obraz bez jiného významu - je to shluk černých bodů na bílém pozadí. Program pro optické rozpoznávání znaků dokáže z těchto načtených obrazů vyjmout textové informace - rozpozná tvary načtených písmen a přiřadí jim odpovídající znaky.

To provádí v několika krocích: Prvním krokem je segmentace řádek. Rozdělí stránku s textem do samostatných řádků, analyzuje zkosení řádků, jejich rozteč a odděluje řádky, které se dotýkají. Fáze segmentace slov a znaků izoluje jedno slovo od druhého a odděluje jednotlivá písmena ve slově. Pokud mají znaky stejnou šířku (např. v DOSu), je segmentace znaků jednoduchá. Problémy nastávají, pokud šířka písmene závisí na jeho tvaru (proporcionální písmo), jestliže dochází k převisu určité části písmene a k dotýkání znaků, nebo když se používají fonty jehličkových tiskáren, kde jsou znaky vytvořené ze shluků izolovaných teček. V posledním kroku je ke každému samostatnému tvaru přiřazen podle charakteristiky daného znaku správný symbol. OCR analyzuje segmentované znaky tak, jako to dělají nevědomky lidé. Extrahuje tvary (čáry, kličky, mezery, uzly, úhly, apod.) a porovnává je vůči předdefinovanému nebo naučenému zdroji znalostí. Tento přístup se nazývá "topologická analýza".

Stručná historie OCR

Vývoj OCR začal zhruba před 30 lety, přesto je tato technologie poměrně neznámá a málo rozšířená. V oblasti humanitních, ale i exaktních věd se na většině pedagogických pracovišť takřka vůbec nepoužívá. [2] Na samotném počátku technologie optického rozpoznávání textu stály dvě velké společnosti American Bankers Association a Financial Services Idustry, které usilovaly o rychlé a kvalitní zpracování finančních tiskopisů, šeků, cenných papírů. OCR technologie se jevila vhodným řešením, postupem času však byla nahrazena dynamičtější technikou MICR (Magnetic Ink Character Recognition). V roce 1966 došlo v USA ke standardizaci tzv. písma OCR-A, což bylo v podstatě první písmo umožňující strojové čtení. Tvary tohoto písma byly zjednodušeny, aby bylo samotné čtení co nejpřesnější, ale písmo nebylo dobře čitelné okem. Uplatnění našlo OCR-A zejména ve velkých bankách. V Evropě vzniká krátce poté (1968) standard OCR-B a jeho autorem byl Adrian Frutiger. Tento standard je hůře strojově čitelný, zato poskytuje lepší čitelnost okem.

Použitá literatura a internetové zdroje

1. FURAT , Rahman. Naučte svůj počítač číst. Computer [online]. 2000, 5, [cit. 2011-05-05]. Dostupný z WWW: <http://linux.ku.sk/Computer/0005.pdf >.

2. Optical Character Recognition. AIM Inc. Pittsburgh [online]. 2000, 5, [cit. 2011-05-05]. Dostupný z WWW: <http://www.aimglobal.org/technologies/othertechnologies/ocr.pdf>. PA 15238-2802.

3. Wikipedie [online]. 4. 5. 2011 [cit. 2011-05-05]. OCR - Wikipedie. Dostupné z WWW: <http://cs.wikipedia.org/wiki/OCR>.