Datový sklad: Porovnání verzí

Z WikiKnihovna
(Nová stránka: Iva Zadražilová - závěrečná práce)
 
m (3 revize: IMPORT D-F: import stránek z hlavního jmenného prostoru z KiskWiki (http://kisk.phil.muni.cz/))
(Nejsou zobrazeny 2 mezilehlé verze od stejného uživatele.)
Řádek 1: Řádek 1:
 
Iva Zadražilová - závěrečná práce
 
Iva Zadražilová - závěrečná práce
 +
 +
== '''Datový sklad''' ==
 +
 +
=== '''Základní charakteristiky''' ===
 +
 +
'''Datový sklad''' /název převzatý z anglického '''Data Warehouse'''/ není ani informačním systémem, ani databází, i když  jak s databází, tak s informačním systémem určitým způsobem spolupracuje.
 +
 +
'''Datový sklad''' jakési úložiště velkého množství dat, které byly vyprodukovány za použití určitého informačního systému, programu či algoritmu. S těmito daty je poté nutno nadále nějakým způsobem pracovat – hledat mezi nimi určité vazby, analyzovat je, získávat z nich skryté údaje a ty posléze zpracovávat. Činnost, při které se získávají dosud neznámá a ukrytá data, která pro nás mohou být velmi užitečná, se nazývá Data mining
 +
/dolování dat - více zde http://cs.wikipedia.org/wiki/Data_mining/
 +
 +
Datový sklad lze v celém procesu dolování dat nazvat jedním z důležitých a ideálních vstupních zdrojů, ze kterých získáváme data. Před uložením dat do datového skladu musí data procházet procesem transformace a čištění, musí být již předpřipravená.
 +
Dobře navržený a plně implementovaný datový sklad funguje tak, že pravidelně přebírá a zásobuje se daty z jednoho nebo více provozních informačních systémů, event. jiných zdrojů. Tato data potom ukládá v určité formě přímo do své primární databáze. Nepřebírají se tedy všechna data, ale jen taková, která souvisí s oblastmi, které budou předmětem dalšího zkoumání. V této primární databázi datového skladu jsou data uložena tak, aby poskytovala určitý obraz vybrané části provozního systému a uchovávají se zde včetně historie.
 +
 +
Pokud se na celý systém podíváme hierarchicky, je datový sklad podřízen produktům, které vznikají v oblasti dolování dat – tyto produkty datový sklad využívají. Na druhou stranu databáze, ve kterých  jsou data původně uložena, jsou datovým skladům nadřazena – datový sklad uskladňuje pouze část z nich.
 +
----
 +
 +
=== '''Historie pojmu''' ===
 +
 +
Počátky zavádění pojmu Data Warehouse jsou situovány do začátku 90. let minulého století a autorství pojmu je připisováno '''Williamu Inmonovi'''. Ten definoval datový sklad jako ''podnikově strukturovaný depozitář subjektově orientovaných, integrovaných, časově proměnlivých, historických dat použitých na získávání informací a podporu rozhodování.
 +
V datovém skladu jsou uložena detailní a sumární data.''
 +
 +
Datový sklad je centrální úložiště různorodých dat firmy - je určen pro řešení integračních efektů a je to jednotné místo uložení dat, které je určeno pro analytickou podporu rozhodování. Zahrnuje nejen data v databázi, ale i nástroje pro extrakci dat,nástroje pro reporting, analýzu dat, data mining.
 +
----
 +
 +
=== '''Rozdíl mezi datovým skladem a databází dle Williama Inmona''' ===
 +
 +
'''Subjektová orientace'''<br/>
 +
Údaje v datovém skladu jsou organizovány  tak, že všechny údaje týkající se stejného předmětu zájmu, události nebo objektu jsou navzájem propojeny. Předmět zájmu je tedy nadřazen aplikaci, v níž data vznikají.  Z pohledu uživatelů je tedy tento obsah organizovaný dle předmětových kategorií.
 +
 +
'''Časově variabilní'''<br/>
 +
Změny dat v datovém skladu jsou sledovány a zaznamenávány tak, že znázorňující vývoj v čase. Předpokládá se časová závislost dat.  Data poté reprezentují historii změn jednotlivých ukazatelů. Časové hledisko umožňuje porovnání dat v rámci několika různých období nebo vybraných časových period.
 +
 +
'''Nízká proměnlivost'''<br/>
 +
Data v datovém skladu se nikdy nepřepisují nebo mažou – jak byla jednou pořízena, v tomto stavu zůstávají, jsou statická. Je možné je číst a jsou zachována pro budoucí podávání zpráv.
 +
 +
'''Integrovanost'''<br/>
 +
Data v datovém skladu obsahují informace z mnoha různých zdrojů nebo operačních systému a tyto údaje je konzistentní. Data pro konkrétní předmět jsou v datovém skladu uložena vždy jen jednou a přesto, že jsou shromážděna z mnoha zdrojů, je možné je seskupit dle jejich logického významu.
 +
----
 +
 +
 +
=== '''Typy datového skladu''' ===
 +
 +
Datový sklad můžeme rozdělit na několik typů:
 +
 +
'''1. datový sklad 1.typu''' - datový sklad ve smyslu organizovaného, jednotného a
 +
integrovaného úložiště dat.
 +
 +
'''2. datový sklad 2 .typu''' – datový sklad typu data warehouse, který bychom mohli
 +
označit přívlastkem „analytický“ datový sklad, protože k jeho základním vlastnostem
 +
patří vedle integrace dat z transakčních databází, jejich agregace a uložení
 +
v multidimenzionálních strukturách, právě optimalizace z hlediska dotazování a
 +
analýzy dat.
 +
 +
'''3. datový sklad 3.typu''' – datový sklad používaný pro ukládání originálních dat
 +
v primární podobě ve formě multidimenzionální struktury především s cílem
 +
vytvoření centrálního úložiště s přesným popisem originálních dat. Jde tedy o
 +
transakční systém s multidimenzionální strukturou zpravidla typu hvězda.
 +
----
 +
 +
=== '''Návrh pro vybudování datového skladu''' ===
 +
 +
- nejprve je nutné analyzovat současný stav – tj. jaké informační systémy jsou používany, jaká data jsou v nich obsažena, pro jaké slouží aplikace, jaký mají formát, jaké postupy a zpracování se používají
 +
 +
- poté je nutné stanovit požadavky, které si klademe od vytvoření datového skladu – je nutné specifikovat naše problémy, určit klady a nedostatky, které je nutné odstranit, stanovit cíl
 +
 +
- následně se navrhne sjednocení informačních systémů, někdy metodou systému jednotné evidence – toto nám usnadní fázi přenosu dat do datového skladu
 +
 +
- dále se stanoví návrh řešení – porovná se a vybere se vhodný systém, navrhne se struktura datového skladu a metoda data miningu
 +
 +
- posledním krokem je implementace datového skladu
 +
----
 +
 +
=== '''Datový sklad v knihovně''' ===
 +
 +
Tvorba datového skladu v knihovně je úzce spojena s využitím databází a informačních systémů, kterými každá knihovna disponuje. Data transformovaná do datového skladu jsou následně zpracovávána a využívána formou data miningu /bibliominigu/. Ve fázi vytváření datového skladu jedná se o stanovení datových zdrojů. Určitá data jsou extrahována z příslušných systémů a jednoduše kombinována. S daty se nadále pracuje, jsou “vyčištěna“ a chybějící údaje jsou doplněny. Datový sklad je nutný předpoklad pro vytvoření a vuyžívání dat, které tvoří základ všech knihovních databází.
 +
----
 +
 +
=== '''Použitá literatura''' ===
 +
http://is.muni.cz/th/110973/ff_b/bc_BI_cs.doc
 +
 +
http://gis.vsb.cz/GIS_Ostrava/GIS_Ova_2007/sbornik/Referaty/Sekce3/hvezdaF4.pdf
 +
 +
http://en.wikipedia.org/wiki/Data_warehousing

Verze z 6. 2. 2012, 11:06

Iva Zadražilová - závěrečná práce

Datový sklad

Základní charakteristiky

Datový sklad /název převzatý z anglického Data Warehouse/ není ani informačním systémem, ani databází, i když jak s databází, tak s informačním systémem určitým způsobem spolupracuje.

Datový sklad jakési úložiště velkého množství dat, které byly vyprodukovány za použití určitého informačního systému, programu či algoritmu. S těmito daty je poté nutno nadále nějakým způsobem pracovat – hledat mezi nimi určité vazby, analyzovat je, získávat z nich skryté údaje a ty posléze zpracovávat. Činnost, při které se získávají dosud neznámá a ukrytá data, která pro nás mohou být velmi užitečná, se nazývá Data mining /dolování dat - více zde http://cs.wikipedia.org/wiki/Data_mining/

Datový sklad lze v celém procesu dolování dat nazvat jedním z důležitých a ideálních vstupních zdrojů, ze kterých získáváme data. Před uložením dat do datového skladu musí data procházet procesem transformace a čištění, musí být již předpřipravená. Dobře navržený a plně implementovaný datový sklad funguje tak, že pravidelně přebírá a zásobuje se daty z jednoho nebo více provozních informačních systémů, event. jiných zdrojů. Tato data potom ukládá v určité formě přímo do své primární databáze. Nepřebírají se tedy všechna data, ale jen taková, která souvisí s oblastmi, které budou předmětem dalšího zkoumání. V této primární databázi datového skladu jsou data uložena tak, aby poskytovala určitý obraz vybrané části provozního systému a uchovávají se zde včetně historie.

Pokud se na celý systém podíváme hierarchicky, je datový sklad podřízen produktům, které vznikají v oblasti dolování dat – tyto produkty datový sklad využívají. Na druhou stranu databáze, ve kterých jsou data původně uložena, jsou datovým skladům nadřazena – datový sklad uskladňuje pouze část z nich.


Historie pojmu

Počátky zavádění pojmu Data Warehouse jsou situovány do začátku 90. let minulého století a autorství pojmu je připisováno Williamu Inmonovi. Ten definoval datový sklad jako podnikově strukturovaný depozitář subjektově orientovaných, integrovaných, časově proměnlivých, historických dat použitých na získávání informací a podporu rozhodování. V datovém skladu jsou uložena detailní a sumární data.

Datový sklad je centrální úložiště různorodých dat firmy - je určen pro řešení integračních efektů a je to jednotné místo uložení dat, které je určeno pro analytickou podporu rozhodování. Zahrnuje nejen data v databázi, ale i nástroje pro extrakci dat,nástroje pro reporting, analýzu dat, data mining.


Rozdíl mezi datovým skladem a databází dle Williama Inmona

Subjektová orientace
Údaje v datovém skladu jsou organizovány tak, že všechny údaje týkající se stejného předmětu zájmu, události nebo objektu jsou navzájem propojeny. Předmět zájmu je tedy nadřazen aplikaci, v níž data vznikají. Z pohledu uživatelů je tedy tento obsah organizovaný dle předmětových kategorií.

Časově variabilní
Změny dat v datovém skladu jsou sledovány a zaznamenávány tak, že znázorňující vývoj v čase. Předpokládá se časová závislost dat. Data poté reprezentují historii změn jednotlivých ukazatelů. Časové hledisko umožňuje porovnání dat v rámci několika různých období nebo vybraných časových period.

Nízká proměnlivost
Data v datovém skladu se nikdy nepřepisují nebo mažou – jak byla jednou pořízena, v tomto stavu zůstávají, jsou statická. Je možné je číst a jsou zachována pro budoucí podávání zpráv.

Integrovanost
Data v datovém skladu obsahují informace z mnoha různých zdrojů nebo operačních systému a tyto údaje je konzistentní. Data pro konkrétní předmět jsou v datovém skladu uložena vždy jen jednou a přesto, že jsou shromážděna z mnoha zdrojů, je možné je seskupit dle jejich logického významu.



Typy datového skladu

Datový sklad můžeme rozdělit na několik typů:

1. datový sklad 1.typu - datový sklad ve smyslu organizovaného, jednotného a integrovaného úložiště dat.

2. datový sklad 2 .typu – datový sklad typu data warehouse, který bychom mohli označit přívlastkem „analytický“ datový sklad, protože k jeho základním vlastnostem patří vedle integrace dat z transakčních databází, jejich agregace a uložení v multidimenzionálních strukturách, právě optimalizace z hlediska dotazování a analýzy dat.

3. datový sklad 3.typu – datový sklad používaný pro ukládání originálních dat v primární podobě ve formě multidimenzionální struktury především s cílem vytvoření centrálního úložiště s přesným popisem originálních dat. Jde tedy o transakční systém s multidimenzionální strukturou zpravidla typu hvězda.


Návrh pro vybudování datového skladu

- nejprve je nutné analyzovat současný stav – tj. jaké informační systémy jsou používany, jaká data jsou v nich obsažena, pro jaké slouží aplikace, jaký mají formát, jaké postupy a zpracování se používají

- poté je nutné stanovit požadavky, které si klademe od vytvoření datového skladu – je nutné specifikovat naše problémy, určit klady a nedostatky, které je nutné odstranit, stanovit cíl

- následně se navrhne sjednocení informačních systémů, někdy metodou systému jednotné evidence – toto nám usnadní fázi přenosu dat do datového skladu

- dále se stanoví návrh řešení – porovná se a vybere se vhodný systém, navrhne se struktura datového skladu a metoda data miningu

- posledním krokem je implementace datového skladu


Datový sklad v knihovně

Tvorba datového skladu v knihovně je úzce spojena s využitím databází a informačních systémů, kterými každá knihovna disponuje. Data transformovaná do datového skladu jsou následně zpracovávána a využívána formou data miningu /bibliominigu/. Ve fázi vytváření datového skladu jedná se o stanovení datových zdrojů. Určitá data jsou extrahována z příslušných systémů a jednoduše kombinována. S daty se nadále pracuje, jsou “vyčištěna“ a chybějící údaje jsou doplněny. Datový sklad je nutný předpoklad pro vytvoření a vuyžívání dat, které tvoří základ všech knihovních databází.


Použitá literatura

http://is.muni.cz/th/110973/ff_b/bc_BI_cs.doc

http://gis.vsb.cz/GIS_Ostrava/GIS_Ova_2007/sbornik/Referaty/Sekce3/hvezdaF4.pdf

http://en.wikipedia.org/wiki/Data_warehousing