Digitalizační workflow

Z WikiKnihovna
Přejít na: navigace, hledání

Autor: Jana Pacáková

Klíčová slova: digitalizace, skanování

Synonyma: digitalizace dat, transformace dat

Související pojmy:

nadřazené – digitalizace dokumentů, elektronická správa dokumentů

podřazené ---

Charakteristika

Digitalizační workflow je komplexní postup všech fází, kterými projde dokument během procesu digitalizace, tj. převodu dokumentu do číselné podoby, obvykle zapisované v binární (dvojkové) soustavě, vhodné pro zpracování počítačem. Tvoří je všechny techniky, postupy, přístroje i softwarové programy, které byly použity k digitalizaci či uchovávání zvoleného dokumentu.

Naplánování projektu

Než začneme s jakýmkoli projektem, je nutné nejprve pečlivě naplánovat přesný sled kroků, kterým se budeme během realizace projektu řídit. Spadají sem všechny oblasti managementu, týmová práce, jasná definice všech cílů, které musíme podniknout, to vše včetně financování projektu. Při plánování můžeme využít známou analýzu SVOT (S – silné stránky, V – slabé stránky, O – příležitosti, T - hrozby), která nám usnadní průběh plánování a pomůže lépe zhodnotit naše možnosti.

Do každého digitálního projektu je třeba zapojit také manažerskou práci, protože právě dobrý management je klíčem k úspěchu celého projektu. Je nutné zvládnout práci s lidmi a zejména motivaci pracovníků. Dobrá organizace šetří čas i náklady pracovníků a usnadňuje jim plnění jejich povinností. Na digitalizačním projektu musí spolupracovat kvalifikovaní odborníci. Vhodné je zapojit do projektu IT struktury a vytvořit maximálně vhodné pracovní prostředí.

Výběr zdrojů

Při plánování digitalizačního projektu musíme brát v úvahu řadu věcí, které určují výběr dokumentu určeného k digitalizaci. Nejčastějšími důvody, proč je dokument digitalizován, je ochrana před zničením a zachování dokumentu pro příští generace. To se týká hlavně historických tisků, ale nemusí to být vždy podmínkou. Dokument musí být vždy vybírán tak, aby co nejlépe korespondoval s cílem projektu. Nejčastějšími kritérii pro výběr dokumentu určeného k digitalizaci jsou:

  1. zveřejnit materiál, který není normálně přístupný
  2. umožnit jednodušší přístup k materiálu
  3. převést dokument z poškozeného originálu
  4. ochrana originálů
  5. zpřístupnit digitálních verze dokumentů.

Vždy musíme vzít v úvahu:

  1. autorské právo
  2. cenu digitalizace
  3. přístupnost zdrojového materiálu.

Jak zacházet s materiálem, který digitalizujeme? Materiál určený k digitalizaci je velmi křehký a vyžaduje odborné zacházení. Musíme vytvořit vhodné mikroklima, ve kterém budeme pracovat a kde bude dokument v bezpečí. Musíme zajistit:

  1. kvalitní předlohu
  2. bezpečnost originálu
  3. katalogizaci + identifikátory
  4. restauraci poškozených částí
  5. přípravu pracoviště
  6. optimální světlo
  7. kontrolu barvy
  8. výběr vhodné techniky scannování
  9. eliminovat vlhko, prach a škůdce.

Hardware a software

Zahájit proces digitalizace není možné bez vhodného hardware (tj. scannery, digitální kamery, kopírky atd.) a software (programy pro práci s obrazem a textem, uložení metadat a kontrola kvality). Pracovní prostředí by mělo odpovídat potřebám digitalizace, tj. zajistit vhodné světlo, čistotu, bezpečí originálů a pohodlí pracovníků.

Hardware:

  1. vhodné hardware musí být nainstalované a kvalitně kontrolované ještě předtím, než začne proces digitalizace
  2. žádný zdrojový materiál nesmí být přítomný, dokud hardwarové prostředí neprojde testy s necitlivým materiálem
  3. většina digitalizačních projektů vyžaduje plošný scanner pro tištěné materiály a rukopisy
  4. nejvhodnější je největší možný scanner
  5. plošný scanner by se měl používat pouze pro plochý materiál
  6. většina digitalizačních projektů vyžaduje digitální kameru pro zachycení materiálů, které nejsou vhodné pro scanner
  7. správný scanner by měl být minimálně stejně velký jako materiál, který scannuje
  8. je nutné zajistit co nejvyšší rozlišení, vysoce kvalitní obraz nikdy nemůže být vytvořen z nekvalitní předlohy
  9. definice rozumného rozlišení závisí na materiálu
  10. pro obraz je vhodný souborový formát TIFF[1]

 

Vlastnosti, které tvoří minimum vhodného software:

  1. otevírat velmi velké obrazové soubory
  2. modifikovat rozlišení a hloubku barvy
  3. ukládat různé odlišné verze v různých velikostech souborů
  4. vybrat a zkopírovat část obrazu a uložit ji jako jiný soubor
  5. exportovat obrazy v odlišných souborových formátech, včetně webových standardů JPG a GIF[1]

Proces digitalizace

Dokumenty je možné převést do digitální podoby několika způsoby. Přímou digitalizací pomocí standardních či knižních skenerů z papírové předlohy nebo s využitím mikrofilmových skenerů po předchozím snímkování na mikrofilm. Dva nejlepší způsoby jsou následující:

1. digitalizace textů bez převodu grafiky na písmena

První postup je podstatně jednodušší, stačí mít pouze PC a skener. Skenují se jednotlivé stránky nebo dvoustránky, ukládají se  jednoduše ve formátech tif, gif, png, apod. Z těchto jednotlivých stránek lze pomocí některého ze softwarů vygenerovat jeden soubor - např. DjVu, lit, apod.

Výhody při NEpřevádění obrázků do textu
- omezení chyb a překlepů způsobených přepisem či OCR - toto je velmi důležité např. pro historiky
- nedojde ke ztrátě grafické informace a ztrátě informace o vzhledu a stavu původního vydání knihy - to je zase podstatné např. v literatuře o přírodních vědách (obrázky), matematice (vzorce), apod.


2. digitalizace textů včetně převodu grafiky na písmena

Druhý postup je složitější v tom, že po skenování následuje převod grafických (obrázkových) znaků na písmena. Jde o tzv. OCR (neznamená to však "Ordo Cisterciensium reformatorum" (řád reformovaných cisterciáků), ale "optical character reading" nebo česky "optické čtení písma"). Převod lze provést manuálně (bez softwaru) nebo pomocí některého ze softwarů, které podporují české znaky.


Výhody při provedení následného OCR:
- text lze prohledávat fuletxtově (jakékoliv slovo v textu)
- lze provádět lingvistické experimenty - hledat frekvence, kolokace, apod.
- je možné si text nechat přečíst v PC speciálním softwarem, jako např. pro český jazyk vytvořený CSVoice
[2]

Uchování digitálního materiálu

Knihovny budují digitální archivy, kde jsou uchovány digitalizované dokumenty. Uživatelé v knihovnách mají přístup k digitálním dokumentům prostřednictvím internetu. Je možný i vzdálený přístup, kdy se uživatel připojuje do databáze knihovny přes svůj vlastní počítač, kde je nainstalovaný odpovídají program. V knihovních databázích lze vyhledávat podle různých parametrů, např. zadáním autorova jména, názvu požadované publikace,  roku vydání dokumentu nebo podle klíčových slov. Plné texty dokumentů mohou být volně přístupné pouze v případě, že nejsou vázány smlouvou nebo předplatným. Digitální dokumenty mohou být uloženy v různém formátu. Formát musí být zpracovatelný počítačem a musí se dát prohlížet na internetu. Přehled formátů a prohlížečů pro e-texty:

1. TXT a HTML jsou nejjednodušší formáty, nepotřebují žádný speciální prohlížeč, stačí např. Notepad, lynx, apod.

2. Formát - PDF (Adobe System Incorporated)
Klasický postskriptový formát, nutný je standardní prohlížeč Acrobat Reader.

3. Formát DjVu (LizardTech, Inc.)
Nový formát s mimořádnou kompresí dat, ale současně vynikajícím zachováním kvality textu i při velkém zvětšení (200%, 300%). Výborně se hodí pro uchovávání historických dokumentů, použit byl např. v Národní knihovně.
 
4. Formát - LIT (Microsoft)
Firma Microsoft představila vlastní formát pro elektronické texty - LIT. Pro ten je nutné mít speciální prohlížeč: Microsoft Reader. Kromě tohoto prohlížeče nabízí Microsoft také konvertor textů z formátu Word do LIT - tzv. Microsoft Word Add-In.
[2]

Metadata

Strukturovaná data o datech. Soubory metadat popisují knihovní dokumenty a patří sem všechny údaje a záznamy, které klasifikují dokument ať už po stránce formální nebo obsahové. Při tvorbě metadat se musíme řídit podle příslušných standardů. Vazby mezi metadatovým záznamem a zdrojem podle RNDr. Miroslava Bartoška:

  1. metadatový záznam je uložen samostatně a odděleně od zdroje (viz příklad katalogizačních záznamů v knihovně)
  2. metadata jsou zakomponována přímo do samotného zdroje (například pomocí značek u dokumentů v jazyce SGML, HTML apod.)

M. Bartošek dále vysvětluje oblas metadat, která hrají úlohu v knihovnách: V knihovnách je příkladem metadat katalogizační záznam, ať již v klasické lístkové podobě nebo ve formě elektronického záznamu v automatizovaném knihovním systému. Podobně jako katalogizační záznam v knihovně, musí i metadata v Internetu podporovat celou škálu funkcí. Typicky jde o funkce související s vyhledáváním; příkladem jsou funkce dokumentační (popis důležitých charakteristik informačního zdroje), identifikační (jednoznačná identifikace nezávislá na čase a prostoru), vyhledávací (zjištění existence zdroje), lokalizační (kde je zdroj umístěn), selekční (výběr zdrojů na základě jejich jmenných či věcných charakteristik) atd.[3] Knihovní metadata tvoří následující:

  1. bibliografická
  2. technická
  3. administrativní
  4. strukturální

Autorské právo

V oblasti digitálních projektů je nutné se důsledně řídit podle pravidel copyrightu. Duševní vlastnictví nesmí být zneužíváno, i když jde pouze o nehmotný majetek, nápad nebo návrh v lidské mysli. Klíčem je zjistit, komu dokument patří, zda jej smíme použít a především za jakých podmínek jej smíme použít. Je také nutné zjistit, jak dlouhé je trvání autorského práva u starých historických dokumentů. Do oblasti duševního vlastnictví, které souvisí s distribucí dokumentů, patří následující:

  1. autorské právo,
  2. právo související,
  3. právo pořizovatele databáze.

Publikace

Publikovat dokument znamená zveřejnit jej pro co největší počet uživatelů. Digitalizované dokumenty bývají nejčastěji publikovány elektronicky a to hlavně následujícími způsoby:

  1. umístění dokumentu na digitální nosič
  2. vystavení dokumentu ke stažení
  3. zařazení dokumentu do digitální knihovny.

Digitální knihovna je novodobý druh knihovny, která získává, klasifikuje, uchovává a zpřístupňuje digitální dokumenty. Dokumenty mohou již vzniknout jako digitální dokumenty, nebo může jít o papírové knihy, které prošly procesem digitalizace. Sbírky jsou uchovávány v prostředí digitálního repositáře. Digitální knihovna tvoří druh informačního systému. Počáteční představa digitální knihovny vycházela z koncepce klasické knihovny a byla orientována především na digitalizaci existujících sbírek jako nástroje pro zlepšení klasických knihovních služeb,  zejména v následujících oblastech podle RNDr. Miroslava Bartoška:

• vzdálený a nepřetržitý přístup k informacím

• efektivnější metody vyhledávání (např. fulltextové)

• lepší využití fondu (souběžný přístup k jednomu a témuž dokumentu)

• sdílení informací mezi různými knihovnami[4]

Sociální dopad digitálních knihoven je velký. Nejvíce ovlivnily oblasti vědy, výzkumu a vzdělávání. Dnes jsou považovány za klíčová centra pro přístup, šíření a uchovávání vědeckých informací. Přínos digitálních knihoven je velmi důležitý zejména pro univerzity, kde slouží jako jedna z jejich nejdůležitějších částí a zpřístupňuje informace a materiály pro studenty.

V případě, že jsou dokumenty vystavené na internetových stránkách dané knihovny, je nutné vytvořit stránky s dobrou informační architekturou, kde se budou uživatelé snadno orientovat a jednoduše nacházet požadované dokumenty. Je velmi žádoucí, aby se uživatel dostal ke svému cíli na co nejmenší počet kliknutí myší. Stránky by měly být zpracované tak, aby umožňovaly intuitivní pochopení ze strany uživatele. V samotném režimu prohlížení dokumentu by měla být možnost nastavovat velikost a rozlišení stránky podle vlastních potřeb. Rovnováha mezi velikostí a kvalitou zobrazení dokumentu musí zůstat zachována na optimální úrovni. Elektronické publikace mají oproti klasickým knihám velké výhody:

  1. snadná dostupnost skrz PC
  2. formáty, se kterými lze pracovat v softwarových programech
  3. snadné vyhledávání v databázích nebo na internetu
  4. snadný tisk publikací
  5. dá se jednoduše zálohovat
  6. šetří velké množství místa
  7. možnost manipulovat s textem
  8. možnost začlenit do textu animace.

Poznámky

  1. 1,0 1,1 Good Practice Handbook [PDF]. 2003, 105 s. [cit. 14/04/2012]. Dostupné z: http://www.minervaeurope.org/structure/workinggroups/goodpract/document/bestpracticehandbook1_2.pdf
  2. 2,0 2,1 O digitalizaci textů. In: České Texty Elektronicky! [online]. [cit. 2012-04-14]. Dostupné z: http://cte.cuni.cz/otextech.htm
  3. BARTOŠEK, Milan Vyhledávání v Internetu a DUBLIN CORE. 1999. Zpravodaj ÚVT MU. ISSN 1212-0901, 9(4): 1-4.
  4. BARTOŠEK, Miroslav. Digitální knihovny [online]. Brno : Masarykova univerzita, 2001 [cit. 2008-07-23]. Dostupný z WWW: <http://www.ics.muni.cz/mba/dl-datakon01.pdf>


Použité zdroje