Datový sklad: Porovnání verzí

Z WikiKnihovna
m (3 revize: IMPORT D-F: import stránek z hlavního jmenného prostoru z KiskWiki (http://kisk.phil.muni.cz/))
 
 
Řádek 1: Řádek 1:
 +
[[File:OPVK MU rgb.jpg|600x115px|RTENOTITLE]]
 +
 +
 +
 
Iva Zadražilová - závěrečná práce
 
Iva Zadražilová - závěrečná práce
  
Řádek 83: Řádek 87:
  
 
http://en.wikipedia.org/wiki/Data_warehousing
 
http://en.wikipedia.org/wiki/Data_warehousing
 +
 +
 +
 +
[[File:OPVK MU rgb.jpg|600x115px|RTENOTITLE]]

Aktuální verze z 27. 8. 2014, 11:00

RTENOTITLE


Iva Zadražilová - závěrečná práce

Datový sklad

Základní charakteristiky

Datový sklad /název převzatý z anglického Data Warehouse/ není ani informačním systémem, ani databází, i když jak s databází, tak s informačním systémem určitým způsobem spolupracuje.

Datový sklad jakési úložiště velkého množství dat, které byly vyprodukovány za použití určitého informačního systému, programu či algoritmu. S těmito daty je poté nutno nadále nějakým způsobem pracovat – hledat mezi nimi určité vazby, analyzovat je, získávat z nich skryté údaje a ty posléze zpracovávat. Činnost, při které se získávají dosud neznámá a ukrytá data, která pro nás mohou být velmi užitečná, se nazývá Data mining /dolování dat - více zde http://cs.wikipedia.org/wiki/Data_mining/

Datový sklad lze v celém procesu dolování dat nazvat jedním z důležitých a ideálních vstupních zdrojů, ze kterých získáváme data. Před uložením dat do datového skladu musí data procházet procesem transformace a čištění, musí být již předpřipravená. Dobře navržený a plně implementovaný datový sklad funguje tak, že pravidelně přebírá a zásobuje se daty z jednoho nebo více provozních informačních systémů, event. jiných zdrojů. Tato data potom ukládá v určité formě přímo do své primární databáze. Nepřebírají se tedy všechna data, ale jen taková, která souvisí s oblastmi, které budou předmětem dalšího zkoumání. V této primární databázi datového skladu jsou data uložena tak, aby poskytovala určitý obraz vybrané části provozního systému a uchovávají se zde včetně historie.

Pokud se na celý systém podíváme hierarchicky, je datový sklad podřízen produktům, které vznikají v oblasti dolování dat – tyto produkty datový sklad využívají. Na druhou stranu databáze, ve kterých jsou data původně uložena, jsou datovým skladům nadřazena – datový sklad uskladňuje pouze část z nich.


Historie pojmu

Počátky zavádění pojmu Data Warehouse jsou situovány do začátku 90. let minulého století a autorství pojmu je připisováno Williamu Inmonovi. Ten definoval datový sklad jako podnikově strukturovaný depozitář subjektově orientovaných, integrovaných, časově proměnlivých, historických dat použitých na získávání informací a podporu rozhodování. V datovém skladu jsou uložena detailní a sumární data.

Datový sklad je centrální úložiště různorodých dat firmy - je určen pro řešení integračních efektů a je to jednotné místo uložení dat, které je určeno pro analytickou podporu rozhodování. Zahrnuje nejen data v databázi, ale i nástroje pro extrakci dat,nástroje pro reporting, analýzu dat, data mining.


Rozdíl mezi datovým skladem a databází dle Williama Inmona

Subjektová orientace
Údaje v datovém skladu jsou organizovány tak, že všechny údaje týkající se stejného předmětu zájmu, události nebo objektu jsou navzájem propojeny. Předmět zájmu je tedy nadřazen aplikaci, v níž data vznikají. Z pohledu uživatelů je tedy tento obsah organizovaný dle předmětových kategorií.

Časově variabilní
Změny dat v datovém skladu jsou sledovány a zaznamenávány tak, že znázorňující vývoj v čase. Předpokládá se časová závislost dat. Data poté reprezentují historii změn jednotlivých ukazatelů. Časové hledisko umožňuje porovnání dat v rámci několika různých období nebo vybraných časových period.

Nízká proměnlivost
Data v datovém skladu se nikdy nepřepisují nebo mažou – jak byla jednou pořízena, v tomto stavu zůstávají, jsou statická. Je možné je číst a jsou zachována pro budoucí podávání zpráv.

Integrovanost
Data v datovém skladu obsahují informace z mnoha různých zdrojů nebo operačních systému a tyto údaje je konzistentní. Data pro konkrétní předmět jsou v datovém skladu uložena vždy jen jednou a přesto, že jsou shromážděna z mnoha zdrojů, je možné je seskupit dle jejich logického významu.



Typy datového skladu

Datový sklad můžeme rozdělit na několik typů:

1. datový sklad 1.typu - datový sklad ve smyslu organizovaného, jednotného a integrovaného úložiště dat.

2. datový sklad 2 .typu – datový sklad typu data warehouse, který bychom mohli označit přívlastkem „analytický“ datový sklad, protože k jeho základním vlastnostem patří vedle integrace dat z transakčních databází, jejich agregace a uložení v multidimenzionálních strukturách, právě optimalizace z hlediska dotazování a analýzy dat.

3. datový sklad 3.typu – datový sklad používaný pro ukládání originálních dat v primární podobě ve formě multidimenzionální struktury především s cílem vytvoření centrálního úložiště s přesným popisem originálních dat. Jde tedy o transakční systém s multidimenzionální strukturou zpravidla typu hvězda.


Návrh pro vybudování datového skladu

- nejprve je nutné analyzovat současný stav – tj. jaké informační systémy jsou používany, jaká data jsou v nich obsažena, pro jaké slouží aplikace, jaký mají formát, jaké postupy a zpracování se používají

- poté je nutné stanovit požadavky, které si klademe od vytvoření datového skladu – je nutné specifikovat naše problémy, určit klady a nedostatky, které je nutné odstranit, stanovit cíl

- následně se navrhne sjednocení informačních systémů, někdy metodou systému jednotné evidence – toto nám usnadní fázi přenosu dat do datového skladu

- dále se stanoví návrh řešení – porovná se a vybere se vhodný systém, navrhne se struktura datového skladu a metoda data miningu

- posledním krokem je implementace datového skladu


Datový sklad v knihovně

Tvorba datového skladu v knihovně je úzce spojena s využitím databází a informačních systémů, kterými každá knihovna disponuje. Data transformovaná do datového skladu jsou následně zpracovávána a využívána formou data miningu /bibliominigu/. Ve fázi vytváření datového skladu jedná se o stanovení datových zdrojů. Určitá data jsou extrahována z příslušných systémů a jednoduše kombinována. S daty se nadále pracuje, jsou “vyčištěna“ a chybějící údaje jsou doplněny. Datový sklad je nutný předpoklad pro vytvoření a vuyžívání dat, které tvoří základ všech knihovních databází.


Použitá literatura

http://is.muni.cz/th/110973/ff_b/bc_BI_cs.doc

http://gis.vsb.cz/GIS_Ostrava/GIS_Ova_2007/sbornik/Referaty/Sekce3/hvezdaF4.pdf

http://en.wikipedia.org/wiki/Data_warehousing


RTENOTITLE