Datový sklad: Porovnání verzí
(Nová stránka: Iva Zadražilová - závěrečná práce) |
|||
| (Nejsou zobrazeny 3 mezilehlé verze od jednoho dalšího uživatele.) | |||
| Řádek 1: | Řádek 1: | ||
| + | [[File:OPVK MU rgb.jpg|600x115px|RTENOTITLE]] | ||
| + | |||
| + | |||
| + | |||
Iva Zadražilová - závěrečná práce | Iva Zadražilová - závěrečná práce | ||
| + | |||
| + | == '''Datový sklad''' == | ||
| + | |||
| + | === '''Základní charakteristiky''' === | ||
| + | |||
| + | '''Datový sklad''' /název převzatý z anglického '''Data Warehouse'''/ není ani informačním systémem, ani databází, i když jak s databází, tak s informačním systémem určitým způsobem spolupracuje. | ||
| + | |||
| + | '''Datový sklad''' jakési úložiště velkého množství dat, které byly vyprodukovány za použití určitého informačního systému, programu či algoritmu. S těmito daty je poté nutno nadále nějakým způsobem pracovat – hledat mezi nimi určité vazby, analyzovat je, získávat z nich skryté údaje a ty posléze zpracovávat. Činnost, při které se získávají dosud neznámá a ukrytá data, která pro nás mohou být velmi užitečná, se nazývá Data mining | ||
| + | /dolování dat - více zde http://cs.wikipedia.org/wiki/Data_mining/ | ||
| + | |||
| + | Datový sklad lze v celém procesu dolování dat nazvat jedním z důležitých a ideálních vstupních zdrojů, ze kterých získáváme data. Před uložením dat do datového skladu musí data procházet procesem transformace a čištění, musí být již předpřipravená. | ||
| + | Dobře navržený a plně implementovaný datový sklad funguje tak, že pravidelně přebírá a zásobuje se daty z jednoho nebo více provozních informačních systémů, event. jiných zdrojů. Tato data potom ukládá v určité formě přímo do své primární databáze. Nepřebírají se tedy všechna data, ale jen taková, která souvisí s oblastmi, které budou předmětem dalšího zkoumání. V této primární databázi datového skladu jsou data uložena tak, aby poskytovala určitý obraz vybrané části provozního systému a uchovávají se zde včetně historie. | ||
| + | |||
| + | Pokud se na celý systém podíváme hierarchicky, je datový sklad podřízen produktům, které vznikají v oblasti dolování dat – tyto produkty datový sklad využívají. Na druhou stranu databáze, ve kterých jsou data původně uložena, jsou datovým skladům nadřazena – datový sklad uskladňuje pouze část z nich. | ||
| + | ---- | ||
| + | |||
| + | === '''Historie pojmu''' === | ||
| + | |||
| + | Počátky zavádění pojmu Data Warehouse jsou situovány do začátku 90. let minulého století a autorství pojmu je připisováno '''Williamu Inmonovi'''. Ten definoval datový sklad jako ''podnikově strukturovaný depozitář subjektově orientovaných, integrovaných, časově proměnlivých, historických dat použitých na získávání informací a podporu rozhodování. | ||
| + | V datovém skladu jsou uložena detailní a sumární data.'' | ||
| + | |||
| + | Datový sklad je centrální úložiště různorodých dat firmy - je určen pro řešení integračních efektů a je to jednotné místo uložení dat, které je určeno pro analytickou podporu rozhodování. Zahrnuje nejen data v databázi, ale i nástroje pro extrakci dat,nástroje pro reporting, analýzu dat, data mining. | ||
| + | ---- | ||
| + | |||
| + | === '''Rozdíl mezi datovým skladem a databází dle Williama Inmona''' === | ||
| + | |||
| + | '''Subjektová orientace'''<br/> | ||
| + | Údaje v datovém skladu jsou organizovány tak, že všechny údaje týkající se stejného předmětu zájmu, události nebo objektu jsou navzájem propojeny. Předmět zájmu je tedy nadřazen aplikaci, v níž data vznikají. Z pohledu uživatelů je tedy tento obsah organizovaný dle předmětových kategorií. | ||
| + | |||
| + | '''Časově variabilní'''<br/> | ||
| + | Změny dat v datovém skladu jsou sledovány a zaznamenávány tak, že znázorňující vývoj v čase. Předpokládá se časová závislost dat. Data poté reprezentují historii změn jednotlivých ukazatelů. Časové hledisko umožňuje porovnání dat v rámci několika různých období nebo vybraných časových period. | ||
| + | |||
| + | '''Nízká proměnlivost'''<br/> | ||
| + | Data v datovém skladu se nikdy nepřepisují nebo mažou – jak byla jednou pořízena, v tomto stavu zůstávají, jsou statická. Je možné je číst a jsou zachována pro budoucí podávání zpráv. | ||
| + | |||
| + | '''Integrovanost'''<br/> | ||
| + | Data v datovém skladu obsahují informace z mnoha různých zdrojů nebo operačních systému a tyto údaje je konzistentní. Data pro konkrétní předmět jsou v datovém skladu uložena vždy jen jednou a přesto, že jsou shromážděna z mnoha zdrojů, je možné je seskupit dle jejich logického významu. | ||
| + | ---- | ||
| + | |||
| + | |||
| + | === '''Typy datového skladu''' === | ||
| + | |||
| + | Datový sklad můžeme rozdělit na několik typů: | ||
| + | |||
| + | '''1. datový sklad 1.typu''' - datový sklad ve smyslu organizovaného, jednotného a | ||
| + | integrovaného úložiště dat. | ||
| + | |||
| + | '''2. datový sklad 2 .typu''' – datový sklad typu data warehouse, který bychom mohli | ||
| + | označit přívlastkem „analytický“ datový sklad, protože k jeho základním vlastnostem | ||
| + | patří vedle integrace dat z transakčních databází, jejich agregace a uložení | ||
| + | v multidimenzionálních strukturách, právě optimalizace z hlediska dotazování a | ||
| + | analýzy dat. | ||
| + | |||
| + | '''3. datový sklad 3.typu''' – datový sklad používaný pro ukládání originálních dat | ||
| + | v primární podobě ve formě multidimenzionální struktury především s cílem | ||
| + | vytvoření centrálního úložiště s přesným popisem originálních dat. Jde tedy o | ||
| + | transakční systém s multidimenzionální strukturou zpravidla typu hvězda. | ||
| + | ---- | ||
| + | |||
| + | === '''Návrh pro vybudování datového skladu''' === | ||
| + | |||
| + | - nejprve je nutné analyzovat současný stav – tj. jaké informační systémy jsou používany, jaká data jsou v nich obsažena, pro jaké slouží aplikace, jaký mají formát, jaké postupy a zpracování se používají | ||
| + | |||
| + | - poté je nutné stanovit požadavky, které si klademe od vytvoření datového skladu – je nutné specifikovat naše problémy, určit klady a nedostatky, které je nutné odstranit, stanovit cíl | ||
| + | |||
| + | - následně se navrhne sjednocení informačních systémů, někdy metodou systému jednotné evidence – toto nám usnadní fázi přenosu dat do datového skladu | ||
| + | |||
| + | - dále se stanoví návrh řešení – porovná se a vybere se vhodný systém, navrhne se struktura datového skladu a metoda data miningu | ||
| + | |||
| + | - posledním krokem je implementace datového skladu | ||
| + | ---- | ||
| + | |||
| + | === '''Datový sklad v knihovně''' === | ||
| + | |||
| + | Tvorba datového skladu v knihovně je úzce spojena s využitím databází a informačních systémů, kterými každá knihovna disponuje. Data transformovaná do datového skladu jsou následně zpracovávána a využívána formou data miningu /bibliominigu/. Ve fázi vytváření datového skladu jedná se o stanovení datových zdrojů. Určitá data jsou extrahována z příslušných systémů a jednoduše kombinována. S daty se nadále pracuje, jsou “vyčištěna“ a chybějící údaje jsou doplněny. Datový sklad je nutný předpoklad pro vytvoření a vuyžívání dat, které tvoří základ všech knihovních databází. | ||
| + | ---- | ||
| + | |||
| + | === '''Použitá literatura''' === | ||
| + | http://is.muni.cz/th/110973/ff_b/bc_BI_cs.doc | ||
| + | |||
| + | http://gis.vsb.cz/GIS_Ostrava/GIS_Ova_2007/sbornik/Referaty/Sekce3/hvezdaF4.pdf | ||
| + | |||
| + | http://en.wikipedia.org/wiki/Data_warehousing | ||
| + | |||
| + | |||
| + | |||
| + | [[File:OPVK MU rgb.jpg|600x115px|RTENOTITLE]] | ||
Aktuální verze z 27. 8. 2014, 11:00
Iva Zadražilová - závěrečná práce
Datový sklad
Základní charakteristiky
Datový sklad /název převzatý z anglického Data Warehouse/ není ani informačním systémem, ani databází, i když jak s databází, tak s informačním systémem určitým způsobem spolupracuje.
Datový sklad jakési úložiště velkého množství dat, které byly vyprodukovány za použití určitého informačního systému, programu či algoritmu. S těmito daty je poté nutno nadále nějakým způsobem pracovat – hledat mezi nimi určité vazby, analyzovat je, získávat z nich skryté údaje a ty posléze zpracovávat. Činnost, při které se získávají dosud neznámá a ukrytá data, která pro nás mohou být velmi užitečná, se nazývá Data mining /dolování dat - více zde http://cs.wikipedia.org/wiki/Data_mining/
Datový sklad lze v celém procesu dolování dat nazvat jedním z důležitých a ideálních vstupních zdrojů, ze kterých získáváme data. Před uložením dat do datového skladu musí data procházet procesem transformace a čištění, musí být již předpřipravená. Dobře navržený a plně implementovaný datový sklad funguje tak, že pravidelně přebírá a zásobuje se daty z jednoho nebo více provozních informačních systémů, event. jiných zdrojů. Tato data potom ukládá v určité formě přímo do své primární databáze. Nepřebírají se tedy všechna data, ale jen taková, která souvisí s oblastmi, které budou předmětem dalšího zkoumání. V této primární databázi datového skladu jsou data uložena tak, aby poskytovala určitý obraz vybrané části provozního systému a uchovávají se zde včetně historie.
Pokud se na celý systém podíváme hierarchicky, je datový sklad podřízen produktům, které vznikají v oblasti dolování dat – tyto produkty datový sklad využívají. Na druhou stranu databáze, ve kterých jsou data původně uložena, jsou datovým skladům nadřazena – datový sklad uskladňuje pouze část z nich.
Historie pojmu
Počátky zavádění pojmu Data Warehouse jsou situovány do začátku 90. let minulého století a autorství pojmu je připisováno Williamu Inmonovi. Ten definoval datový sklad jako podnikově strukturovaný depozitář subjektově orientovaných, integrovaných, časově proměnlivých, historických dat použitých na získávání informací a podporu rozhodování. V datovém skladu jsou uložena detailní a sumární data.
Datový sklad je centrální úložiště různorodých dat firmy - je určen pro řešení integračních efektů a je to jednotné místo uložení dat, které je určeno pro analytickou podporu rozhodování. Zahrnuje nejen data v databázi, ale i nástroje pro extrakci dat,nástroje pro reporting, analýzu dat, data mining.
Rozdíl mezi datovým skladem a databází dle Williama Inmona
Subjektová orientace
Údaje v datovém skladu jsou organizovány tak, že všechny údaje týkající se stejného předmětu zájmu, události nebo objektu jsou navzájem propojeny. Předmět zájmu je tedy nadřazen aplikaci, v níž data vznikají. Z pohledu uživatelů je tedy tento obsah organizovaný dle předmětových kategorií.
Časově variabilní
Změny dat v datovém skladu jsou sledovány a zaznamenávány tak, že znázorňující vývoj v čase. Předpokládá se časová závislost dat. Data poté reprezentují historii změn jednotlivých ukazatelů. Časové hledisko umožňuje porovnání dat v rámci několika různých období nebo vybraných časových period.
Nízká proměnlivost
Data v datovém skladu se nikdy nepřepisují nebo mažou – jak byla jednou pořízena, v tomto stavu zůstávají, jsou statická. Je možné je číst a jsou zachována pro budoucí podávání zpráv.
Integrovanost
Data v datovém skladu obsahují informace z mnoha různých zdrojů nebo operačních systému a tyto údaje je konzistentní. Data pro konkrétní předmět jsou v datovém skladu uložena vždy jen jednou a přesto, že jsou shromážděna z mnoha zdrojů, je možné je seskupit dle jejich logického významu.
Typy datového skladu
Datový sklad můžeme rozdělit na několik typů:
1. datový sklad 1.typu - datový sklad ve smyslu organizovaného, jednotného a integrovaného úložiště dat.
2. datový sklad 2 .typu – datový sklad typu data warehouse, který bychom mohli označit přívlastkem „analytický“ datový sklad, protože k jeho základním vlastnostem patří vedle integrace dat z transakčních databází, jejich agregace a uložení v multidimenzionálních strukturách, právě optimalizace z hlediska dotazování a analýzy dat.
3. datový sklad 3.typu – datový sklad používaný pro ukládání originálních dat v primární podobě ve formě multidimenzionální struktury především s cílem vytvoření centrálního úložiště s přesným popisem originálních dat. Jde tedy o transakční systém s multidimenzionální strukturou zpravidla typu hvězda.
Návrh pro vybudování datového skladu
- nejprve je nutné analyzovat současný stav – tj. jaké informační systémy jsou používany, jaká data jsou v nich obsažena, pro jaké slouží aplikace, jaký mají formát, jaké postupy a zpracování se používají
- poté je nutné stanovit požadavky, které si klademe od vytvoření datového skladu – je nutné specifikovat naše problémy, určit klady a nedostatky, které je nutné odstranit, stanovit cíl
- následně se navrhne sjednocení informačních systémů, někdy metodou systému jednotné evidence – toto nám usnadní fázi přenosu dat do datového skladu
- dále se stanoví návrh řešení – porovná se a vybere se vhodný systém, navrhne se struktura datového skladu a metoda data miningu
- posledním krokem je implementace datového skladu
Datový sklad v knihovně
Tvorba datového skladu v knihovně je úzce spojena s využitím databází a informačních systémů, kterými každá knihovna disponuje. Data transformovaná do datového skladu jsou následně zpracovávána a využívána formou data miningu /bibliominigu/. Ve fázi vytváření datového skladu jedná se o stanovení datových zdrojů. Určitá data jsou extrahována z příslušných systémů a jednoduše kombinována. S daty se nadále pracuje, jsou “vyčištěna“ a chybějící údaje jsou doplněny. Datový sklad je nutný předpoklad pro vytvoření a vuyžívání dat, které tvoří základ všech knihovních databází.
Použitá literatura
http://is.muni.cz/th/110973/ff_b/bc_BI_cs.doc
http://gis.vsb.cz/GIS_Ostrava/GIS_Ova_2007/sbornik/Referaty/Sekce3/hvezdaF4.pdf
http://en.wikipedia.org/wiki/Data_warehousing