Digitalizace

Z WikiKnihovna

Autor: Martina Snížková, Irena Šovčíková

Klíčová slova: digitalizace, transformace

Synonyma: převod do digitální podoby

Související pojmy:

nadřazené:

podřazené: digitalizace textu, digitalizace obrazu, digitalizace zvuku

Definice

"Digitalizace je převod analogového spojitého signálu do diskrétní digitální (číselné) formy a umožňuje zpracování signálů počítačem." [1, s. 556]

Digitalizace textu

Digitalizace knih je proces převádění klasických, papírových knih do formy, kterou si můžeme otevřít na počítači. Většinou se knihy digitalizují ze dvou hlavních důvodů – zachování knih, které jsou ve špatném stavu a také zpřístupnění vybraných děl širšímu publiku. Nevýhodou však je, že během procesu digitalizace může dojít ke zničení originálu. Někdy se originál opotřebí nebo částečně poničí silným přitlačením na scanner, mnohdy je ale potřeba celou knihu rozřezat. Je však nutné si uvědomit, že i přes zničení původního originálu se jeho obsah dostane k více lidem a bude lépe odolávat působení času.

"Text se obvykle charakterizuje jako obsahově a formálně ucelený, uzavřený a spojitý útvar skládající se ze znaků abecedy či jiné znakové soustavy. Za součást textu lze považovat i obrazy, které text doplňují, rozšiřují či obohacují." [2, str. 57-58]

Textový dokument lze do digitální podoby převést třemi způsoby. Prvním a nejjednodušším způsobem je přepis textu do počítače, který provedeme pomocí klávesnice. Touto metodou lze převést i jednoduché tabulky a grafy, které jdou v textových editorech vytvořit. Takový proces je však velmi zdlouhavý, složitý a příliš nákladný, proto větší instituce obvykle volí vhodnější způsoby, které jim umožní automatizaci nebo zpracovávání více dat zároveň.

Druhým způsobem je skenování stránek dokumentu, kdy se dokument pouze naskenuje a dále se neupravuje. K tomuto způsobu digitalizace již potřebujeme mít i příslušný skener, který dokáže zhotovit digitální kopii dokumentu v patřičné kvalitě. Kvalita skeneru se měří v DPI což je anglická zkratka pro - dots per inch, česky - bodů na palec (1 palec = 2,54 cm). Tato hodnota tedy udává, kolik obrázkových bodů (pixelů) se vejde na jeden palec. Samozřejmě platí, že čím větší DPI, tím lepší kvalita obrazu. Samotná digitalizace tedy probíhá skenováním jednotlivých stran nebo dvoustran dokumentu, přičemž se jednotlivé strany ukládají je formátech JPEG, PNG, TIFF, PDF, GIF, apod. Abychom docílili lepší ucelenosti zdigitalizovaného dokumentu, můžeme jednotlivé stránky převést na jeden soubor pomocí softwarů jako jsou DjVu, lit, apod.

Třetím způsobem digitalizace je opět skenování stránek ovšem s následným převodem grafických znaků na písmena. To nám umožní tzv. OCR (Optical Character Readers, Optical Character Recognition; česky: optické čtení/rozpoznávání znaku). Tímto způsobem lze převádět jak tištěné tak i rukopisné znaky, což je výhodou tohoto softwaru.

Proces digitalizace se rovněž dělí na destruktivní a nedestruktivní. Destruktivní způsob může znamenat odříznutí hřbetu knihy, uvolnění vazby a rozklad na jednotlivé stránky. Tento způsob často volí velké organizace, například Google, v kombinaci s moderními skenery, které si dokáží stránky posouvat samy. Po digitalizaci je možné knihy znovu sešít. Nevýhodný může být tento způsob v momentě, kdy text či obrázek zasahuje za běžné hranice, například u magazínů.

Moderní technologie však přináší nové možnosti, a tak je v dnešní době možné masivně skenovat knihy i bez jejich ničení. K tomuto procesu se obvykle využívá princip knižního skeneru, který dokáže například za pomocí vzduchu automaticky otáčet stránky knihy a není proto vyžadována lidská asistence. Skenery jsou navíc nastavené na univerzální rozměry stránek a textu, což může být problematické například u starších knih. Google tento problém vyřešil pomocí infračervené kamery, které dokáže určit přesný tvar a rozměr jednotlivých stran.

Zajímavostí v oblasti digitalizace knih je také projekt reCaptcha. Ten je využíván pro ochranu webových stránek proti botům, tedy pro ověření, že za počítačem sedí opravdu člověk a nikoliv automat. reCaptcha se skládá ze dvou obrázků, jeden ukazuje standartní směs znaků, jejichž opsání má bezpečně určit, zda jej píše člověk nebo počítač. Druhý obrázek však obsahuje slovo ze skenu knihy, které nebyl systém OCR schopný rozluštit. Takovýmto způsobem uživatelé internetu každý den přispívají k masové digitalizace knih, mnohdy aniž by o tom věděli.

Digitalizace obrazu

"Obraz je, pokud nejde o umělecký obraz či o uměleckou fotografii, více či méně zdařilou kopií reálného světa."[2, 59]

Digitalizace obrazu se provádí pomocí skeneru a jelikož obraz je dvojrozměrný objekt, používá se metoda vzorkování (převod spojitého signálu na nespojitý - tvar amplitudových modulových vzorků) obrazu v matici AxB bodů. Následuje kvantování spojité jasové úrovně každého vzorku do X intervalů. Je logické, že čím jemněji provádíme vzorkování a kvantování, tím získáme lepší kvalitu obrazu. Důležitými faktory jsou: určení intervalu vzorkování a výběr vzorkovací mřížky.

"Interval vzorkování je vzdálenost mezi nejbližšími vzorkovacími body v obraze a se musí volit tak, aby byl menší nebo rovný polovině rozměru nejmenších detailů v obraze. Při zpracování obrazů je rozumné vzorkovat alespoň 5-krát jemněji než je teoretická mez daná vzorkovací větou (Shannonovou větou o vzorkování)."[5]

Výběr vzorkovací mřížky – vzorkovací mřížka je plošné uspořádání bodů při vzorkování. Většinou se pro vzorkování používá mřížka, složená z pravidelných mnohoúhelníků, tím je počet možností omezen na tři: rovnostranné trojúhelníky, čtverce (nejvíce používané) nebo pravidelné šestiúhelníky.


RTENOTITLE * obrázek[5]

Digitalizace zvuku

"Fyzikální podstatou zvuku jsou zvukové vlny, které vznikají nepravidelným i pravidelným kmitáním částic vzduchu nebo nějakého kontinuálního prostředí. Lidský sluchový orgán je schopen vnímat mechanické vlnové rozruchy v přibližných frekvenčních mezích 16 Hz – 16 kHz, pokud je jejich intenzita dostatečně veliká. Tuto výseč slyšitelných vlnových dějů označujeme jako zvuky." [2, str. 61-62]

Pro zvuk jsou charakteristické dva druhy parametrů: Statické prvky, mezi které patří například výška, barva, hlasitost a prostorové rozložení zvuku a dynamické prvky, které určují změny statických prvků v čase

"Převod zvuku do digitální soustavy vyžaduje rychlé měření definovaných hodnot vždy po určitém konstantním časovém intervalu. Měření probíhá velkou rychlostí a nazývá se vzorkováním." [2, str. 62] "Při vzorkování se měří hodnota analogového signálu a v pravidelných intervalech se zapisuje. Kvalita uloženého digitálního obrazu zvuku závisí na frekvenci vzorkování a množství informací uložených pro jeden vzorek." [4] "Platí, že čím menší jsou časové intervaly mezi měřením statických a dynamických hodnot při převádění analogového zvuku do digitální soustavy, tím je výsledný zvuk kvalitnější." [2, str. 63] Například snížíme-li frekvenci vzorkování, pak se eliminují vyšší tóny, nebo zmenšíme-li velikost vzorku objeví se v nahrávce šum.

Provádíme-li digitalizaci zvuku za pomoci počítače, převod z analogové do digitální podoby nám zajistí zvuková karta (provádí převod stejně jak je výše popsáno), přičemž na kvalitě této karty závisí i kvalita výsledného záznamu. jelikož výsledný digitální záznam obsahuje objemná data, velmi často se používá nějaký kompresní formát ke zmenšení objemu dat. Nejčastěji používaný je formát MP3 který má výborné výsledky u hudebních souborů ale s mluvenou řečí už je na tom o něco hůře. Další kompresní formáty jsou např.: WAV, WMA, AAC, AMR, apod.

Autorská práva

Častou otázkou v oblasti digitalizace knih bývají autorská práva, která se na knihy vztahují. Obvykle jsou proto digitalizovány knihy, které už nejsou k dispozici a nebo se na ně autorská práva již nevztahují, případně jejich autoři dali k tomuto procesu souhlas. V rámci Evropské Únie však mohou knihovny digitalizovat knihy i bez souhlasu jejich autora, ale s jistými omezeními. Podle rozhodnutí EU by takováto díla měla být k dispozici výhradně pro osobní a studijní účely. Lidé by si proto díla neměli být schopní tisknout nebo kopírovat na další zařízení.

Použité zdroje:

1. ABRAHÁMOVÁ, Jitka, et al. Všeobecná encyklopedie ve čtyřech svazcích : 1 a/f. 1. vydání. Praha : Nakladatelský dům OP, 1996. 787 s. ISBN 80-85841-31-2.

2. CEJPEK, Jiří. Informace, komunikace a myšlení. 2. přepracované vydání. Praha : Karolinum, 2005. Digitalizace textových, obrazových a zvukových dokumentů, s. 233. ISBN 80-246-1037-X.

3. PRAKS, Vítězslav; PRAKSOVÁ, Tereza. Logo: České Texty Elektronicky ! [online]. 1999, 17. 04. 2002 [cit. 2010-06-13]. O digitalizaci textů. Dostupné z WWW: <http://cte.cuni.cz/otextech.htm>.

4. KOCIÁN, Aleš. Digitalizace a přehrávání zvuku na PC [online]. 2001 [cit. 2010-06-25]. Dostupné z WWW: <http://www.fi.muni.cz/usr/jkucera/pv109/2001/xkocian.htm>.

5. LINKA, Aleš. Zpracování obrazu a jeho statistická analýza : Digitalizace obrazu [online]. 2004 [cit. 2010-06-28]. Dostupné z WWW: <http://e-learning.tul.cz/cgi-bin/elearning/elearning.fcgi?ID_tema=67&ID_obsah=1176&stranka=publ_tema&akce=polozka_vstup>. 6. COYLE, Karen: Mass Digitization of Books, Journal of Academic Librarianship, 2006, str.641-645, dostupné rovněž online: http://www.kcoyle.net/jal-32-6.html 7. OCKERBLOOM, John Mark: How to put books online, [online]. Citováno 4.12.2014, dostupné online: http://onlinebooks.library.upenn.edu/bookinstr.html line: http://www.mlp.cz/cz/projekty/on-line-projekty/praha-v-knihovne/digitalizace-knihy/?knihovna= 8. ESSER, Loek: Libraries may digitize books without permission, EU top court rules. [online] 2014. Citováno 4.12.2014. Dostupné online: http://www.pcworld.com/article/2606132/libraries-may-digitize-books-without-permission-eu-top-court-rules.html 9. Autor neuveden, Městská knihovna v Praze: Jak se digitalizuje kniha? 2008, [online], citováno 4.12.2014. Dostupné online: http://www.mlp.cz/cz/projekty/on-line-projekty/praha-v-knihovne/digitalizace-knihy/?knihovna=