ALTO

Z WikiKnihovna
Přejít na: navigace, hledání

Autor: Jan Karlík

Klíčová slova: OCR, digitalizace

Synonyma: ---

Související pojmy:

nadřazené - OCR, digitalizace, metadata
podřazené - ---


Charakteristika

Ndnp.jpg

ALTO (Analyzed Layout and Text Object) je možné definovat jako: „metadatový formát pro vyjádření OCR – rozpoznávání textu.“[1] Je tedy použitelný při digitalizaci tištěných knih a časopisů. Jeho základnou je XML - schema (někdy bývá nazýván také ALTO XML) a díky němu lze prohledávat text v obrazových dokumentech a zobrazovat ho uživateli. Byl vyvinut projektovou skupinou METAe pro použití Library of Congress. Později byl také touto knihovnou přijat pro projekt National Digital Newspaper Program. Lze na něho nahlížet jako na rozšíření formátu METS (Metadata Encoding and Transmission Standard), kdy METS popisuje metadata a strukturální informace a ALTO zase obsah a fyzikální informace [2] Kombinovaný objekt METS/ALTO lze použít pro konverzi do formátů PDF, TXT, atd. V současnosti je formát ALTO standartizovaný. Používá se většinou v již zmíněné kombinaci s METS, ale lze ho použít i samostatně. ALTO používají ve svých projektech např. Harvard University, Library of Congress, Royal Danish Library. Zmíněn je i v českém projektu Kramerius (NDK) [3]

Struktura

Soubor alto se skládá ze tří hlavních sekcí:

  • <Description> - obsahuje informace (metadata) o samotném souboru ALTO a informace o tom jak byl vytvořen
  • <Styles> - obsahuje styly textu a odstavců a jejich jednotlivé popisy
  • <Layout> - obsahuje informace o obsahu, které jsou rozděleny do <Page> prvků


  <alto>
     <Description>
        <MeasurementUnit/>
        <sourceImageInformation/>
        <Processing/>
     </Description>
     <Styles>
        <TextStyle/>
        <ParagraphStyle/>
     </Styles>
     <Layout>
        <Page>
           <TopMargin/>
           <LeftMargin/>
           <RightMargin/>
           <BottomMargin/>
           <PrintSpace/>
        </Page>
     </Layout>
  </alto>

Stránka je rozdělena do několika oblastí: prostor tisku, levý okraj, pravý okraj, horní okraj a dolní okraj. Měření v ALTO/XML souborech jsou uvedena v jednotkách 1/10mm nebo 1/1200inch. Jedna stránka většinou znamená jeden ALTO soubor.

Citace

  1. Nové standardy digitalizace (od roku 2012). Národní digitální knihovna [online]. 17.05.2012 [cit. 2012-05-20]. Dostupné z: http://www.ndk.cz/digitalizace/nove-standardy-digitalizace-od-roku-2011
  2. ALTO Introduction. CCS [online]. © 2010 [cit. 2012-05-21]. Dostupné z: http://www.content-conversion.com/de/alto
  3. Definice metadatových formátů pro digitalizaci monografií. In: Definice metadatových formátů pro digitalizaci monografií [online]. [cit. 2012-05-21]. Dostupné z: http://kramerius-info.nkp.cz/digitalizace-v-nk/specifikace-metadatovych-standardu-pro-monografie-aktualni-verze

Ostatní použité zdroje