Sémantický web

Z WikiKnihovna

Závěrečná práce--Michal Fojtík 21:40, 12. 5. 2008 (CEST)

Definice

Česká terminologická databáze knihovní a informační vědy (TDKIV) definuje sémantický web takto:

„Koncept webu založený na obsahu, který je vytvořen a strukturován podle určitých pravidel a standardů a umožňuje tak efektivnější a snadnější vyhledávání informací. Realizace sémantického webu předpokládá implementaci standardů pro sémantickou (RDF), strukturální (XML) a syntaktickou (URI) složku architektury webových dokumentů; výsledkem aplikace uvedených standardů bude konzistentní logická struktura dat, která bude implicitně vyjadřovat význam zaznamenaných informací.“

Příklad

Než se pustíme do vysvětlování podstaty fungování sémantického webu, podívejme se nejprve na příklad z nedaleké budoucnosti [1, překlad převzat z 2]:

Úvodní příběh začíná vyzváněním telefonu, které vpadlo do libozvučných tónů jedné písně Beatles. Telefon je však inteligentní a ví, že jeho pán nikdy nechce být během hovoru rušen. Přístroj proto vyšle všem blízkým zařízením s vlastností nastavení hlasitosti zprávu, aby se ztišila. Teď už nic nebrání přijetí hovoru. Volá sestra: "Matka potřebuje pravidelné schůzky s fyzioterapeutem, zařizuji to..." Sestra, zdržující se dosud v ordinaci lékaře, instruuje svůj přenosný webový prohlížeč a dává mu pokyn, aby si od lékařova "agenta" opatřil údaje o rehabilitační péči předepsané matce. Vše se automaticky konfrontuje s možnostmi jejího zdravotního pojištění a samozřejmě též s geografickými údaji - péče musí být dostupná v okruhu 20 mil. Kromě toho by fyzioterapeut měl být hodnocen alespoň jako velmi dobrý - pochopitelně důvěryhodnou ratingovou agenturou. Fyzioterapeuti připadající v úvahu mají své časové rozpisy, které je třeba dát dohromady s "našlapaným" pracovním diářem sourozenců pečujících o matku. I o časové sladění se však může postarat technika, má-li potřebné vstupní údaje a disponuje-li nezbytnými znalostmi ... Předběžný návrh návštěv u fyzioterapeuta zpracovaný počítačem se ale bratrovi nelíbí: musel by jet s matkou ve špičce vozem přes celé město. Stahuje si proto od sestry všechny dosud získané údaje z vyhledávání a jeho vlastní agent (jistěže softwarový) se pokouší za zpřísněných podmínek ohledně místa a času o nalezení jiného terapeuta. Výměna dat (zejména takto citlivých) se sestrou probíhá na základě vzájemné důvěry a zabezpečené komunikace. Bratrův agent uspěl - má řešení, kvůli němuž stačí odsunout pár méně významných schůzek... A pohádka je téměř u konce - pro někoho možná děsivá, pro jiného lákavá vize světa, kde je běžná výměna kvalifikovaně reprezentovaných informací s jednotně chápaným významem a kde je možné nad těmito informace i strojově "uvažovat" a řešit praktické problémy. Tato vize budoucnosti se jmenuje sémantický web.

Co z výše uvedeného příběhu není možné dnes v praxi realizovat? Jsou to právě softwaroví agenti, kteří nemohou pracovat tak, jak bylo naznačeno. Dnešní web je pro ně extrémně nepřátelským místem. Může to znít podivně, ale web je médiem navrženým pro lidi, nikoliv pro stroje (počítačové programy). Člověk, který otevře jakoukoli webovou stránku, se na ní téměř okamžitě zorientuje a zjistí, kde se nachází nějaké menu, co je hlavní text a které informace jsou podstatné. Počítačový program, který by něco podobného zvládl, je velmi obtížné až nemožné vytvořit. A právě sémantický web je rozšířením současného webu, jež datům přiřazuje přesný význam, díky kterému bude možná kooperace jak lidí, tak softwaru [1]. Obsah dokumentu sémantického webu je tedy srozumitelný nejen člověku, ale v dostačující míře i strojům. Sémantický web neznamená žádnou konkrétní technologii, ale jde o koncept, kdy se stávající web rozšíří o strojově zpracovatelná metadata, která budou moci softwaroví agenti používat pro zjištění významu informací.


Prvky sémantického webu

Zásadním předpokladem strojového zpracování informací je zachycení struktury dat. Toho lze v prostředí webu, kde převažují dokumenty textového charakteru, dosáhnout uplatňováním značkování dokumentů. Značkováním dokumentů se rozumí, že určité znakové sekvence obsahují informaci, která přisuzuje obsahu dokumentu určitou roli. Značky, neboli tagy, mívají podobu slov, uzavřených nejčastěji do lomených závorek [3]. Značkovací jazyk specifikuje sadu tagů, jejich význam a vzájemnou kombinaci. Nejrozšířenějším druhem značkovacího jazyka v prostředím webu je jazyk HTML, který sice postačuje k předávání informací ohledně vzhledu (formátování) dokumentu, ale pro pokročilé služby, předpokládané u sémantického webu, je nedostačující. Je potřeba jazyka, který umožňuje vymezit roli částí obsahu způsobem, jež bude srozumitelný konkrétním aplikacím. Takovýmto jazykem je jazyk XML umožňující definovat nové značkovací jazyky, tj. je prostředkem pro vytváření struktury dat. Pro popis „věcí“ nastupuje standard RDF, podstatnou součástí sémantického webu jsou i ontologie, tedy prostředek, který umožňuje strukturám rozumět. [3]

URI

Aby bylo možné objekty reálného světa popsat, je nutné je jednoznačně identifikovat. Podle TDKIV je URI:

„…obecný soubor pojmenování a adres internetového zdroje skládající se z řetězce znaků, který odkazuje na zdroj dostupný na World Wide Web. Slouží jako jednoduchý a rozšiřitelný prostředek k jednoznačné identifikaci libovolného zdroje s libovolným obsahem (textový dokument, obrazy či grafika, zvukový záznam, animovaný obrázek, software atd.).“

Rozlišují se dva typy URI. URL (Uniform Resource Locator) slouží k identifikaci zdrojů podle jejich lokace (není tedy trvalým identifikátorem), URN (Uniform Resource Name) jednoznačně určuje zdroj nezávisle na jeho umístění.

XML

XML umožňuje dát dokumentu strukturu, ale protože si každý může definovat své vlastní značky, nelze jasně definovat význam všech značek, nelze tedy obecně stanovit, co každá struktura znamená. Volnost XML je v tomto nevýhodou a protože sémantický web má být globálním médiem, nelze se na všech značkách dopředu domluvit. XML se nezabývá sémantikou dat, v sémantickém webu slouží pouze jako nosič informací, tedy jako základ k zápisu metadat, který zároveň vytváří jejich strukturu. K sémantickému popisu dokumentů se používají na XML založené jazyky.

RDF

Standard RDF (Resource Description Framework) by se měl podle organizace W3C stát technologickým základem sémantického webu. Jde o obecný rámec pro popis, výměnu a znovupoužití dat. RDF není závislý na konkrétní aplikaci a poskytuje jednoduchý model pro popis zdrojů. Datový model RDF umožňuje specifikovat trojice ZDROJ-VLASTNOST-HODNOTA VLASTNOSTI, přičemž trojice jsou v oficiální terminologii nazvány tvrzení, v jehož rámci je zdroj subjektem, vlastnost predikátem a hodnota vlastnosti objektem. Reprezentovat model RDF lze prostřednictvím grafů nebo trojic, ale jako nejvhodnější pro vyjádření sémantiky webových zdrojů se jeví XML syntaxe RDF (RDF/XML).

Ontologie

Ontologie ve filozofickém pojetí označuje nauku o bytí. Dnešní strojům, které nemají zdaleka tolik inteligence, aby se mohli měřit s člověkem, je jejich „bytí“ modelováno pomocí sady pojmů, které zadává člověk. Cílem ontologie je „definovat společné, jednotné chápání určité třídy pojmů.“ [4] Ontologie slouží v sémantickém webu k definování termínů, se kterými pak pracuje standard RDF. Stručně řečeno: RDF vyjadřuje fakta slovy a ontologie poskytují pravidla, gramatiku a slovníky těchto slov. Ontologie, tj. nejvyšší formy metadat, jsou tvořeny jako pojmové sítě, které mohou být omezeny na určitý obor nebo všeobecné. V rámci webu není všeobecná ontologie prakticky uskutečnitelná, protože množství slovní zásoby a syntaktických prvků by bylo ohromné. Vývoj jde tedy směrem k doménovým ontologiím, které se vytvářejí pro určitou oblast, protože jen v uzavřených oblastech nejlépe dosáhneme jednotnosti. Menší ontologie lze dále seskupovat a provazovat do větších celků. Otázkou budoucího výzkumu ovšem zůstává, zda k naplnění vize sémantického webu bude stačit pospojování dílčích ontologií, nebo bude přeci jen nutné vytvořit i ontologii „všeobjímající“.

Související hesla

Použité zdroje

[1] BERNERS-LEE, Tim, HENDLER, James, LASSILLA, Ora. The Semantic Web. Scientific American, 2001, vol. 284, May, s. 35-43. Dostupný z WWW: <http://www.sciam.com/article.cfm?articleID=00048144-10D2-1C70-84A9809EC588EF21>.

[2] MATULIK, P., PITNER, T. Sémantický web a jeho technologie. Zpravodaj ÚVT MU, 2004, roč. XIV, č. 3, s. 15-17. ISSN 1212-0901.

[3] SKLENÁK, Vilém. Web 2.0 vs. sémantický web [online]. In: INFORUM 2007: 13. ročník konference o profesionálních informačních zdrojích, Praha 22.-24. května 2007 [online]. Praha: Albertina icome Praha, 2007. Dostupný z WWW: <http://www.inforum.cz/sbornik/2007/>. ISSN 1801-2213.

[4] SMRŽ, P., PITNER, T. Sémantický web a jeho technologie (3). Zpravodaj ÚVT MU, 2004, roč. XIV, č. 5, s. 14-16. ISSN 1212-0901.