Skenovací roboty

Z WikiKnihovna

RTENOTITLE


1.1. Důvody a způsoby digitalizace knih

Robotické scannery se používají z důvodu digitalizace knih. Knihy se ukládají buď jako seskládané obrázky za sebou, převážně ve formátu PDF, Xml, nebo HTML (používá se zejména pro archivaci starých tisků), nebo jako náhledy na knihy, které jsou tak chráněny proti kopírování. Pro tuto digitalizaci se využívá více principů nafotografování otevřené knihy, nejčastěji pod úhlem 180 stupňů. Listy se otáčejí manuálně, šetrnost zacházení s knihou závisí tedy nejvíce na obsluze. Pro ukládání snímků slouží zařízení na principu digitálního fotoaparátu nebo často přímo některé z komerčních modelů fotoaparátů. Snímají se obě strany knihy najednou. Levnější verze ukládají snímky do paměti fotoaparátu, následně jsou staženy a zpracovány. K této digitalizaci může posloužit i těžší stativ, klasický fotoaparát a vhodné nasvětlování. Řešení pro občasnou digitalizaci lze tedy pořídit v ceně kolem 20 tisíc Kč.

Jako osvětlení poslouží jednoduchý zářivkový box [1], pevný stativ a šikmá plocha pro uložení knihy. Fotografovat je vhodné drátěnou spouští, nebo dálkovým ovládáním. Nejlevnější hotové řešení se dá pořídit od 150 tisíc Kč. Rychlost scanování závisí na obsluze, kvalita na snímači umístěném ve fotoaparátu. Při použití 12 Mpx snímače a focení obou stran knihy bude mít jedna strana rozlišení maximálně 2000 x 3000 bodů. Pokud má kniha rozměr A4, kvalita bude 250 dpi. Avšak vzhledem k tomu, že při fotografování vzniká šum, bude odpovídat v ideálním případě kvalitě 200 dpi při klasickém scanování. Takové rozlišení postačí pro zobrazení knihy na monitoru, ovšem není optimální pro další zpracování, jako tisk nebo převod do textu. Na adrese snapter.atiz.com [2] je utilita, která umožňuje softwarově opravit deformace dokumentu při nafocování. Obsahuje 14 denní trial, plná verze je k dispozici za 49 US dolarů.


1.2. Nabídka fotících scannerů

Nejširší nabídku fotících scannerů nabízí firma Zeutschel [3]. Vzhledem ke skutečnosti, že naše knihovny scannery využívají k digitalizaci starých knih, nejedná se o masové nasazení a rozhodující je velikost rozpočtu, je focení optimální metodou pro český knihovnický trh. Vyspělejší přístoje z této kategorie mají 2 fotoaparáty, které snímají každý jednu stranu knihy, ta je otevřena v úhlu cca 30-35 stupňů a tím se méně namáhá její hřbet. Díky focení každé strany je také vyšší rozlišení, která při použití 12 mpx snímače bude 300 dpi, což je kvalita vhodná i pro OCR, tedy převod obrázků do textové podoby. Převod v této kvalitě nebude ideální, ale vhodný pro kombinované PDF soubory, které jsou tvořeny dvěma vrstvami (ve spodní je textová podoba dokumentu, která je překryta fotografiemi). Čtenář vidí původní dokument, ale může v dokumentu vyhledávat, což umožňuje text ve spodní vrstvě.

Thajská firma Atiz do dvouhlavého scanneru umístila skla v úhlu, který odpovídá úhlu otevřené knihy. Díky tomu jsou strany rovné a není nutné je následně softwarově vyrovnávat, čímž se zvyšuje kvalita pořízených fotografií [4]. Systém položení skla na knihu se používá v některých přístrojích při plném otevření knihy, zde je podle mého názoru kniha stejně namáhána jako při scanování na přístroji plochém. Navíc před otočením strany musí být sklo sundáno a znovu položeno, což zpomaluje manipulaci. Verze pro dokumenty o velikosti do A3 (ve složeném stavu) s dvěma fotoaparáty canon EOS 400d stojí 6400 Euro, větší stojan do velikosti A2 ve stejné výbavě je o tisíc Euro dražší. Za dalších tisíc lze dokoupit automatickou spoušť. Soubor:Dookdrive.jpg

Rychlým řešením (výrobce udává 1200 stran za hodinu, tj. 20 za minutu) jsou scannery kirtas. Jedna se o jednofotoáparový přístoj vybavený Canonem EOS s rozlišením 16 Mpix, standardně se dodává s počítačem a OCR softwarem BSE, stojí 149 tisíc USD, resp. 198 tisíc USD pro verzi s rychlostí 2400 stran za hodinu. Dvojnásobné rychlosti je dosaženo použitím svou snímacích fotoaparátů, z nichž každý fotí vždy jednu otevřenou stranu. [5] Soubor:Kirtas.jpg

Příjemné přístroje vyrábí firma ImageWare Components GmbH v Bonnu pod názvem BookEye 2, který je vybavený snímačem s rozlišením 35 Mpix, případně dále ve verzi s motoricky poháněnkou kolébkou, resp. uchycením knihy, které svým pohybem proti sklu minimalizeje deformace způsobené ohnutím stran. Ve verzi 3 již je snímač otočný a místo, které snímá (zezhora ze zdálenosti cca 50 cm) je osvětlováno dvěma rotačními LED zářivkami, které osvětlují snímaný pás. Na knihu lze pokládat i na pantech umístěné sklo, aby se tak snížily deformace, plocha pro položení knihy umožňuje jednotlivé poloviny umístit do různých výšek tak, aby se neničil hřbet silných knih a dále v příplatkovém příslušenství najdeme i boční držák knihy, který umožňí scanovat tiskoviny otevřené do měnšího úhlu než je 180 stupňů. Maximální kvalita snímaných snímků je potom 400 x 600 dpi. BookEye2plus má rozmezí A3 až A2+ / černobílá – barevná. Ceny jsou: 9945-16945 EUR. BookEye3 A2+ Ceny : čb 19750 EUR, color 23250 EUR. Mezi jednotlivými typy (A3/A2 a čb/color) lze přejít rozšířením sw licence. Součástí je BCS2 software na skenování, OCR do něj může být připojeno jako modul – např FineReader. Rychlost skenování je závislá na nastavení, velikosti předlohy apod. Výrobce udává rychlost snímání A4 na výšku za 1,5 sec, A3 na ležato 2,2 sec, A2 se digitalizuje 3 sec. Více informací lze záskat na www.bookeye.com [6]. Dovozcem do ČR je www.incad.cz [7]. Soubor:Bookeye.jpg

Nejvýkonnějším přístrojem při plném rozložení knihy je Digitizing line [8], který na principu vzduchového nasávání otáčí strany knihy přibližně 20krát za minutu, výsledná rychlost je 2.4 sekundy na dvoustranu, tedy 1.2 sekundy na stranu. Nevýhodou je možnost poškození knihy. Přístroj neumí manipulovat s knihami V2, je určen výhradně pro šité hřbety nebo publikace s vazbou V1, tedy převážně časopisy a brožurky. Minimální velikost knihy je A5. Proti vytržení listu a posunu knihy při otáčení listů slouží upnutí ve hřbetu. Snímač má kvalitu 30-50 Mpix. Vzhledem k ceně přístoje a nutným údržbám v porovnání k ceně práce v naší zemi nenajde přístroj u nás pravděpodobně uplatnění. Jeho použití je relativně omezené, nehodí se pro staré tisky, ani paperbacky. Pro tisky, u kterých jsme ochotni riskovat poškození, se u nás bude využívat plochého scannování. Cenu odhaduji na 8-10 milionů Kč.

Soubor:Dl 3000.jpg

2. Scannery s pojízdným snímačem

Druhou technologií jsou scannery průchodové, kde jsou snímače umístěny na obdélníkovém prvku, která se pohybuje, převážně pod sklem, na kterém musí být položena předloha. Cenově se pohybují od 1 tisíce Kč. Již základní modely svou kvalitou (600 dpi) dostačují pro digitalizaci knih. Jejich problémem je výše zmíněné umístění knihy textem dolů, což namáhá vazbu a dále je obtížné knihu položit tak, aby byly oba listy knihy nakolmo proti snímacím prvkům. I mírné natočení strany způsobuje totiž deformaci obrázku a snižuje výsledný efekt, což je problematické zejména v případě, kdy chceme knihu uveřejnit v obrázkové podobě.


2.1. Nabídka scannerů s pojízdným snímačem

Zajímavý výrobek na současném trhu je Plustek OpticBook 3600, který je speciálně vytvořen pro scanování knih. Jako největší nevýhodu vidím to, že snímá vždy pouze jednu stranu knihy a dále pro snímání hřbetu je přizpůsobena pouze jedna hrana scanneru, takže mezi sudými a lichými stranami se musí kniha otáčet hlavou nahoru a dolů. Největší výhodou je cena 5-6 tisíc Kč bez DPH. Více o Plustek OpticBook 3600 najdete zde[9].

Pro digitalizaci knih, u kterých nehrozí rozpadnutí vazby, je vhodnější plochý scanner o velikosti rozložené knihy, tedy ideálně A3, který se dá na trhu pořídit od 3 tisíc Kč. Vzhledem k době scanování jedné dvoustrany přibližně 30 sekund, výsledná rychlost se i při započítání manipulace s knihou pohybuje na úrovni 200 stran za hodinu, což se blíží scanování focením. Nevýhodou je namáhání vazby a časová náročnost na obsluhu oproti automatickým scannerům.

Samostatnou kategorii tvoří scannery s ADF, tedy se samostatným podavačem určeným pro volné listy, ideálně o velikosti A4, které jsou určeny zejména do kanceláří, ale mohou najít uplatnění i při digitalizaci většího množství listů. Jako příklad uvádím rukopisy, u kterých nevadí případné zalomení rožků a dále vzhledem k možnosti oboustranného scanovaní mohou posloužit pro snímání rozpadlých lepených tisků (vazba V2) před jejich rekonstrukcí. Ta se provádí po odřezání hřbetu knihy, tím vzniknou volné listy, které je možné nascanovat a následně knihu vlepit do nové obálky. Scannery lze pořídit od 10 tisíc Kč, na jejich kvalitě ovšem závisí, zda se stránky při průchodu nepohybují a výsledný obraz se nedeformuje.

Vrcholem těchto scannerů je pravděpodobně zakázkový robot vytvořený na Technické univerzitě ve Vídni na zakázku pro Bavorskou státní knihovnu. Funguje na principu dvou snímačů na knihu, každá knika je umístěna ve skříni, která snižuje světelný šum z okolí. Jeho rychlost dosahuje 25 stran za minutu v kvalitě 300 dpi. Výhodou je podtlakové přitláčení stránek na snímač a otáčení listů, čímž se dosahuje vysoké kvality při minimálním riziku poškození knihy. Jako hlavní nevýhodu vidím špatné snímání prvních stránek knihy a nemožnost práce s knihami s tuhou vazbou nebo s časopisy. Více informací naleznete zde [10].

3. Předpokládaný vývoj

Do budoucna předpokládám vývoj dvouhlavových scannerů s automatickým otáčením stran na bázi podtlaku vzduchu. Přístroje budou vznikat s proměnlivým úhlem, který umožní snímat knihy tenší nebo lepené. Pro vyrovnávání stran proti deformaci kroucením se bude využívat proudu vzduchu, což je nejšetrnější možný způsob vůči knize.

Největším oříškem při digitalizaci do textu je následný převod díky OCR software, který mívá problémy s českými znaky a také většinou neobsahuje databázi slov knižní češtiny. Proto bývá převod značně chybový. V případě scanování z důvodu digitalizace pro reedice tak není samotné scanování nejvyšším nákladem. Mnohem pracnější je vyhledávání chyb a korektura textu, která trvá několikanásobně déle než scanování. I sebelepší robot v našich podmínkách nebude využit na jeho maximální možnosti.


4. Zajímavosti

Jako zajímavost uvádím po domácku vyrobený přístroj s použitím plochého scanneru: [11]. Tento princip se může objevit v budoucnu i v komerčních přístrojích, v případě, že bude regulovatelný tlak scanneru na knihu.

Manual.jpg

5. Užitečné odkazy

http://www.xkeys.com/resources/scanproj1.php http://www.treventus.com/buchscanner_scanrobot_fotos.html http://www.indususa.com/products.html http://www.bookeyeusa.com/products_BE_planetary.htm http://www.book2net.net/en/book-scanner http://www.ristech.ca/product.html http://www.atiz.com/guide/ http://www.spectrum.ieee.org/jan08/5835 http://www.logos.com/features/bookscanner http://en.wikipedia.org/wiki/Book_scanning http://www.4digitalbooks.com/book-cradle.htm

zpracoval Jan Homola


RTENOTITLE