Metadatová schémata - srovnání

Z WikiKnihovna
Přejít na: navigace, hledání

Autor: Jana Lánová

Klíčová slova: metadata, formáty, schémata

Synonyma:

Související pojmy:

nadřazené

podřazené MODS, MARC, Dublin Core, Text Encoding Initiative

Úvod

Tato práce si klade za cíl provést čtenáře taji čtyř metadatových schémat: MODS, MARC, Dublin Core a TEI. Porovnává je z hlediska důvodů a času vzniku, jejich struktury, jak se používají a kde se využívají a zda jsou vzájemně kompatibilní. V závěru se snaží nastínit výhody a nevýhody každého z nich, aby si i laik dokázal vybrat, který formát bude pro jeho potřeby nejlepší.

Vznik

Metadatové schéma MODS (Metadata Object Description Schema) vytvořili odborníci z Kongresové knihovny a Marc Standard Office[1] Provozovatelé digitálních knihoven požadovali projekt, který by umožňoval bohatý popis jakéhokoliv dokumentu v XML, správu složitých digitálních objektů a sjednocení metadat z různých schémat (MARC atd.).[2] Původním záměrem bylo vytvořit jej jako podmnožinu MARC, který by měl pouze jiné názvy prvků, poté bylo rozhodnuto, že vznikne nové samostatné schéma. Je kompromisem mezi jednoduchým formátem Dublin Core a specializovaným a těžko čitelným MARC, při vývoji byl kladen důraz na snížení ztrátovosti při převádění z a do jiných formátů.[1] V červnu 2002 vyšla první verzce MODS 1.2. Poslední verze vyšla v lednu 2008 a nese označení 3.3.[3]

Machine-Readable Cataloging (MARC, strojově čitelná katalogizace) je rodina formátů a standardů určených pro ukládání a přenos bibliografických informací. Vznik se datuje do 60. let 20. století, vyvinula je Kongresová knihovna za účelem digitalizace knihovních katalogů, projekt vedla Henriette Avramová. Prvními uživateli bylo 16 knihoven, které si záznamy vyměňovaly na magnetických páscích. V 70. letech se tento formát rozšířil do knihoven po celém světě. Základ zůstal stejný, avšak vzniklo mnoho národních mutací (např. USMARC – USA, UKMARC – Spojené království, CANMARC – Kanada, DANMARC – Dánsko, Japan/MARC – Japonsko). Ovšem tyto národní formáty mezi sebou nebyly dostatečně kompatibilní, což znemožňovalo plnohodnotnou výměnu záznamů. Proto vznikl mezinárodní formát MARC 21, který se inspiroval americkou a kanadskou formou a nahradil ve většině zemí stávající formáty. K tomu došlo i v České republice, která do té doby používala UNIMARC, který vytvořila IFLA roku 1977. Později vznikl MARCXML spojením standardů MARC a jazyka SGML.[1] Mezi nejvýznamnější formáty patří MARC 21 a MARCXML.[4][5]

Dublin Core je obecnější sada metadat. Není to typický bibliografický formát, je to spíše standard, který definuje pouze značky a jejich vyplnění. Konkrétní zápis závisí na uživateli. Nejčastěji se užívá v metatazích X/HTML a v rámci RDF. Název vznikl podle města Dublin ve americkém státě Ohio. Tam se v roce 1995 konal OCLC5/NCSA6 Metadata Workshop, kde odborníci stanovili základní, minimální a univerzální sadu metadat (Core - jádro).[6]

The Text Encoding Initiative (TEI) je mezinárodní projekt, který se zaměřil na vývoj standardizovaných DTD vhodných pro uchovávání a výměnu tištěných textových dokumentů (hlavně knih) v digitální podobě. TEI přispěla k vytvoření specializovaných DTD pro jednotlivá literární odvětví (poezie, próza, drama, přepis mluvené řeči, terminologické databáze či pro slovníky).[7]

Struktura

MODS sice nezahrnuje kompletní set prvků MARC, avšak jeho obsahem jsou i nové prvky. Při rozvoji projektu přibyly další atributy a prvky a zlepšila se převoditelnost dat z jiných a do jiných formátů tak, aby se snížila ztrátovost a data se blížila originálu. MODS se sestává ze souboru bibliografických prvků, který byly speciálně navrženy pro knihovny (dříve pouze pro práci s papírovými dokumenty), použít jej lze však i v jiných institucích, neboť schématem MODS jde popisovat jakékoliv médium (monografie, CD-ROMy, mapy, webové stránky). MODS je založen na jazyce XML.[8] Obsah prvků lze instruovat jakýmikoliv katalogizačními pravidly, doporučené je používat AACR2. Šablona XSLT automaticky generuje interpunkci ISBD podle jednotlivých tagů. K plné verzi MODS vznikla i jednodušší verze MODS Lite s 15 prvky, které má i nekvalifikovaný Dublin Core, čímž ho dokáže nahradit a díky stejným prvkům umožňuje lepší převádění záznamů mezi MODS a DC.[3] Verze 3.3 čítá 20 základních prvků umožňující popsat dokument. Prvky se dále dělí na podprvky (dílčí prvky). K jednotlivým prvkům i podprvkům lze přiřadit atributy, které jsou ovšem nepovinné. Prvky i podprvky se dají opakovat. Podprvky musí dodržovat přesně dané pořadí, atributy žádné takové pevné pořadí nemají a nedají se opakovat. Kořenový prvek <mods> uzavírá celý obsah. Elementy MODS byly optimalizovány pro popis bibliografických metadat.[1]

MARC jako základ zápisu používá tři prvky - strukturu záznamu (tříciferný kód, definuje význam záznamu (název, jméno autora atd.) ISO 2709 a Z39), označení obsahu (tzn. třímístné číselné kódy charakterizující údajové prvky a podporující manipulaci s údaji a interpretaci obsahu - např. případné rozdělení osbahu na části; liší se podle verze MARC) a obsah záznamu (obsah jednotlivých polí definují různé standardy - např. ISBD či AACR2, jedná se jednoduchý textový řetězec, jenž lze rozdělit na části pomocí oddělovače, každá část může mít specifický význam, oddělovač doplňuje znak definující pořadí části).[9] Vzhledem k tehdejší kapacitě úložišť a jejich technickým možnostem byl MARC navržen efektivně a tak, aby velikost záznamu byla co nejmenší.[5]

Dublin Core má dvě úrovně, základní a vyšší (kvalifikovanou). Základní Dublin Core Metadata Elements Set (DCMES) se skládá z 15 nepovinných prvků (Identifier, Title, Creator, Contributor, Publisher, Subject, Description, Date, Type, Format, Source, Language, Relation, Coverage a Rights), které nemají pevné pořadí a lze je opakovat. Vyšší (kvalifikovaná) úroveň navíc obsahuje tři prvky (Audience, Provenance a RightsHolder) a umožňuje využívat kvalifikátory, které jsou připojeny k prvku či hodnotě a upřesňují jejich význam nebo formát, tedy sémantiku. K jejich vyhodnocování se používá tzv. Dumb-Down Principle. Což znamená, že pokud není známý význam kvalifikátoru, tak se ignoruje a jeho hodnota se vyhodnocuje v širším kontextu nadřazeného prvku.[5] Nejčastěji se k zápisu elementů DC používá jazyk XML.[10]

TEI je definováno velkým množstvím SGML značek, které se sdružují do sad značek tzv. DTD fragmentů. Každá taková skupina obsahuje definice elementů, které spolu souvisí v oblasti daného použití. Díky tomu existují samostatné DTD fragmenty pro slovníky, prózu, poezii, dramata atd. Sady jsou obsaženy v jednom či více systémových souborech, na které výsledné DTD obsahuje pomocí příslušných parametrických entit. Výsledné DTS se tvoří výběrem vhodné kombinace DTD fragmentů vymezujících požadované elementy, ty dohromady vystupují jako jeden celek. Skládá se ze tří základních typů značkovacích sad: centrální (obecné elementy hlavního DTD), základní (elementy předurčující příslušnost ke konkrétnímu typu TEI dokumentů - drama, slovníky...) a pomocné (speciální značky používané k zvláštním účelům). Sady lze modifikovat pomocí uživatelsky definovaných sad značek (přejmenovávání, rušení starých, přidávání nových elementů, rozšiřování tříd a změna obsahového modelu jednotlivých elementů). Každý TEI dokument musí obsahovat sadu popisných informací, tzv. TEI hlavičku. Nachází se před textovou částí označovanou <text>.[7]

Použití a využití

MODS se používá v knihovních katalozích, archivech, muzeích, digitálních knihovnách či k popisu webových stránek. Popisují se jím papírové knihy, digitální objekty, hudební partitury, obrazy, videa či 3D objekty. Lze vytvořit individuální schéma pouze s prvky, které jsou potřeba. Umožňuje tvorbu originálních popisků v XML.[1] Používá se ve webovém archivu Minerva, hudebním archivu MusicAustralia či v programu Biblio. Většina projektů na bázi MODS se realizuje v USA, postupně se rozšiřuje i do Velké Británie, Japonska, Brazílie nebo Řecka. U nás se uvažuje o jeho zavedení především v projektech digitálních depozitních knihoven, například v rámci integrace Jednotné informační brány a dalších nadnárodních portálů.[1]

MARC byl původně vytvořen pouze pro potřeby knihoven, později se přizpůsobil i pro využití k popisu digitálních objektů. Slouží ke zpracování a identifikaci bibliografických prvků a k jejich výměně mezi institucemi (především knihovnami), které jej používají.[11] Mezi nejvýznamnější formáty patří MARC 21 a MARCXML.[12]

Dublin Core slouží pro popis digitálních objektů, vznikl pro sjednocení mnoha formátů popisných metadat, které se používají v různých oborech, do jednoho dostatečně obecného formátu, který bude čitelný i pro laika.[9] Používá se k popisu libovolného digitálního zdroje (od webových stránek po hudební partitury).[9][10]

TEI přispěla k vytvoření specializovaných DTD pro jednotlivá literární odvětví (poezie, próza, drama, přepis mluvené řeči, terminologické databáze či pro slovníky).[7]

Vzájemná kompatibilita a konverze

MODS je zcela kompatibilní a konverzibilní s MARC a Dublin Core. Ke konverzi z MARC byl ostatně původně vyvinut. Díky snadné konverzi z MARC 21 a Dublin Core instituce nemusí při přechodu na MODS znovu katalogizovat celý fond, konverzi lze provádět pomocí šablon.[3] Při konverzi záznamů z MARC 21, kde se interpunkce vkládá ručně, může docházet ke zdvojení.[3] I MARC je použitelný k výměně záznamů mezi institucemi, které jej používají, proto se mu také říká výměnný formát.[11] Díky tomu, že MARC 21 je adaptovaný v prostředí XML, umožňuje převoditelnost do MODS a Dublin Core.[13] Dublin Core umožňuje sjednocovat formáty popisných metadat do obecnějšího formátu. TEI byly původně navrhovány pouze pro SGML, dnes již fungují nástroje pro automatickou konverzi do XML.[14]

Výhody/nevýhody

Na rozdíl od MARC 21 lze význam většiny prvků a atributů v MODS pochopit přímo ze záznamu, aniž bychom potřebovali manuál.[1] Při konverzi dat z MARC 21 může v MODS docházet ke zdvojení interpunkce, pokud byla původně vkládána ručně. Z MODS lze konvertovat záznamy pomocí šablon. MODS má i jednodušší verzi MODS Lite. Podprvky v MODS umožňují dosáhnout větší detailnosti a přesnosti popisu.[1]

Kvůli vysoké náročnosti a rozsáhlosti formátu MARC je třeba řádně proškolit katalogizátory (manuál má skoro tisíc stran a k tomu ještě katalogizační pravidla AACR2 a další standardy k užívání MARC), přesto tu je velká náchylnost k chybám. Velkou výhodou je dokonalá popisnost se všemi podrobnostmi o díle. Díky MARC 21 v prostředí XML jej lze využít pro původní popis či jako flexibilní formát pro konverzi záznamů do jiných schémat (především MODS a Dublin Core).[13] MARC díky své tradicí a rozšířenosti má velkou uživatelskou základnu a jsou v něm uloženy miliardy záznamů. Ovšem jedná se o relativně zastaralé a velmi složité formáty, jejichž hlavní výhodou je velká popisnost.[15] Kvůli pojmenování záznamů pomocí jednoduchých číselných kódů je pro laika zcela nečitelný, což je v současnosti jeho hlavní nevýhodou.[5]

Dublin Core je zcela kompatibilní a převoditelný s MODS i MARC, díky své jednoduchosti je dobře čitelný a použitelný i pro laiky, jedná se o obecnější formát a umožňuje popisovat více méně všechny objekty, které se v knihovnách a podobných institucích vyskytují.[9]

TEI má vlastní formát pro každý druh objektů (slovníky, poezie, próza), což velmi usnadňuje popis dokumentu. Díky převoditelnosti do XML je kompatibilní s ostatními formáty. Sady značek lze uživatelsky přizpůsobit.

Reference

  1. 1,0 1,1 1,2 1,3 1,4 1,5 1,6 1,7 ŠVÁSTOVÁ, Pavla. Konverze bibliografických formátů MARCXML, MODS a MADS. Brno: Masarykova univerzita, Filozofická fakulta, Ústav české literatury a knihovnictví, Kabinet informačních studií a knihovnictví, 2008. 157 s. Vedoucí diplomové práce Ing. Zdeněk Kadlec, Dr.
  2. GUENTHER, Rebecca S. Using the Metadata Object Description Schema (MODS) for resource description: guidelines and applications. Library Hi Tech. Vol. 22, No 1, January 2004, p. 89-98. MCB University Press. ISSN 0737-8831. Dostupný z WWW:< http://www.ingentaconnect.com/content/mcb/238/2004/00000022/00000001/art00010 >.
  3. 3,0 3,1 3,2 3,3 MODS: Metadata Object Description Schema [online]. 2008 [cit. 2012-04-29] Dostupný z WWW: <http://www.loc.gov/standards/mods/>.
  4. MARC Standards [online]. Network Development and MARC Standards Office, The Library of Congress, 5. 4. 2011 [cit. 2012-04-29]. Dostupné na Internetu: <http://loc.gov/marc>.
  5. 5,0 5,1 5,2 5,3 DRUSA, Tomáš. Konvertor bibliografických formátů. Brno: Masarykova univerzita, Fakulta informatiky, 2011. 58 s. Vedoucí bakalářské práce Mgr. Daniel Jakubík.
  6. WEIBEL, S., et al. OCLC/NCSA Metadata Workshop Report [online]. Dublin Core Metadata Initiative, Mar 1995 [cit. 2012-04-29]. Dostupné: <http://dublincore.org/workshops/dc1/>.
  7. 7,0 7,1 7,2 CHOCHOLÁČ, Michal. Prostředky pro práci s formálními dokumenty. Brno: Masarykova univerzita, Fakulta informatiky, 2001. 51 s. Vedoucí diplomové práce RNDr. Petr Sojka.
  8. MODS User Guidelines : Introduction and Implementation [online]. 2005 [cit. 2012-04-29]. Dostupný z WWW: <http://www.loc.gov/standards/mods/v3/mods-userguide-intro.html>.
  9. 9,0 9,1 9,2 9,3 TALICH, Lukáš. Formáty repozitářů digitálních knihoven. Brno: Masarykova univerzita, Fakulta informatiky, 2010. 58 s. Vedoucí bakalářské práce Mgr. Martin Šárfy.
  10. 10,0 10,1 SKONNARD, Aaron - Martin Gudgin: XML pohotová referenční příručka. Praha: Grada, 2006. ISBN 80-247-0972-4
  11. 11,0 11,1 BARTOŠEK, Miroslav. Digitální knihovny - teorie a praxe. Národní knihovna: knihovnická revue[online]. Praha: Národní knihovna ČR, 2004. 2004, roč. 15, č. 4 [cit. 2012-04-26], s. 233-254. Dostupný z WWW: <http://knihovna.nkp.cz/NKKR0404/0404233.html>. ISSN 1214-0678.
  12. MARC Standards [online]. Network Development and MARC Standards Office, The Library of Congress, 5. 4. 2011 [cit. 2012-04-29]. Dostupné na Internetu: <http://loc.gov/marc>.
  13. 13,0 13,1 MARCXML : MARC 21 XML Schema [online]. The Library of Congress, 2007 [cit. 2012-04-26]. Dostupný z WWW: <http://www.loc.gov/standards/marcxml/>.
  14. The Pizza Chef: a TEI Tag Set Selector URL: http: //www. tei-c.org/pizza. html [2012-04-26].
  15. MARC Standards [online]. Network Development and MARC Standards Office, The Library of Congress, 5. 4. 2011 [cit. 2012-04-29]. Dostupné na Internetu: <http://loc.gov/marc>.