Data mining

Z WikiKnihovna
Přejít na: navigace, hledání

Autor: Paulína Kosturáková

Kľúčové slová: databázové sklady, štatistika

Synonymá: dolovanie z dát

Súvisiace pojmy:

nadradené - databázy
podradené - CRISP-DM, Data Miner



Charakteristika

Data Mining (DM) alebo dolovanie z dát umožňuje pomocou špeciálnych algoritmov automaticky objavovať v dátach strategické informácie. Je to analytická technika pevne prepojená s dátovými skladmi ako veľmi kvalitným zdrojom pre tieto špeciálne analýzy. Data Mining možno charakterizovať ako proces extrakcie relevantných, vopred neznámych alebo nedefinovaných informácií z veľmi rozsiahlych databází. Dôležitou vlastnosťou DM je, že sa jedná o analýzy odvodené z obsahu dát, ktoré nie sú vopred dané užívateľom alebo implementátorom. Jedná sa predovšetkým o odvodzovanie prediktívnych informácií, nie len deskriptívnych. To znamená, že proces DM možno definovať ako netriviálne získavanie implicitných, skôr neznámych a potenciálne užitočných informácií z dát. Data minig slúži manažérom k objavovaniu nových skutočností, ktoré pomáhajú zamerať ich pozornosť na podstatné faktory podnikania, umožňujú testovať hypotézy, odhaľujú v stále zrýchľujúcom sa a zložitejšom obchodnom prostredí skryté korelácie medzi ekonomickými premennými apod.[1]

Vývoj

Označenie Data Mining sa pôvodne používalo pre exploračné štatistické metódy. V oblasti informačných technológií sa začal tento termín používať hlavne v súvislosti s intenzivnou analýzou dátových súborov extrémne veľkého rozsahu, ktoré sú k dispozícii ako dôsledok budovaných dátových skladov. Dnes sa data mining chápe akosúčasť procesu vyhľadávania znalosti z dát. Prvýkrát tieto metódy popísal už na začiatku 70. rokov Tukey, ktorého práce sa stali veľmi známe. Podobné myšlienky už predtým rozvíjali českí autori ako Hájek, Havel, Chytil, neskôr Havránek a iný. Navrhli metódu GUHA (Generalized unary hypotheses automaton), ktorú popísali už v roku 1966. Metóda vychádza z princípov logiky a štatistiky a zaoberá sa formulovaním a overovaním všetkých hypotéz, vytvorených na základe dát.[2]

Techniky

DM je založený na množstve matematických a štatistických techník. Príklady niektorých z nich:

  • Rozhodovacie stromy (RS) - prediktivný model, ktorý zobrazuje dáta v podobe stromu, kde každý uzol určuje kritérium pre následné rozdelenie dát do jednotlivých vetví. Strom tak rozdeľuje všetky zdrojové dáta do segmentov, kde každý list odpovedá určitému segmentu definovanému predchadzajúcimi uzlami.
  • Neuronové siete (NS) - sú založené na obdobných princípoch, ktoré napodobňujú organizáciu alebo spôsob chovania ľudského mozgu, založeného na systéme neurónov
  • Genetické algoritmy (GA) - simulujú biologickú evolúciu pre určenie, ako by mali byť atribúty formulované, vyvíjané, modifikované atď.
  • Zhlukovanie a klasifikácia - zhlukovanie je technika slúžiaca k rozdeleniu dát do skupín s podobnými charakteristikami. Klasifikácia definuje podstatné atribúty skupín v podobe klasifikačných kritérií.

CRISP-DM

Metodika CRISP-DM (CRoss-Industry Standard Process for Data Mining) vznikla v rámci Európskeho výskumného prjektu. Cieľom tohto projektu bolo navrhnúť univerzálny postup (tvz. štandartný model procesu dobývania znalostí z databází), ktorý bude použiteľný v najrôznejších komerčných aplikáciách. Vytvorenie takejto metodiky umožní riešiť rozsiahle úlohy dobývania znalostí rýchlejšie, efektívnejšie, spoľahlivejšie a s nižšími nákladmi.

Fázy CRISP-DM

Životný cyklus projektu DM je podľa metodiky CRISP-DM tvorený následujúcimi 6 fázami:

1. porozumenie problému

2. porozumenie dátam

3. príprava dát

4. modelovanie

5. hodnotenie

6. využitie v praxi [3]

Data Miner

Data Miner je rozsiahly komplexný systém, ktorý obsahuje nie len najväčší výber štatistických metód, ale najdete v ňom takiež aj všetky nástroje potrebné v data-miningovom procese, začínajúc získavaním dát a končiac uložením výsledkov. Je to graficky orientovaný systém. Jeho užívateľské prostredie je založené na ovládaní štýlom ťahaj-a-pusť (drag-and-drop), ktorý je ľahko zrozumiteľný aj pre začínajúcich užívateľov, ale pritom umožňuje okamžitý prístup ku skriptám, ktorými sú jednotlivé uzly definované.[4]

Citácie

  1. PETR, Pavel. Data Mining. Pardubice: Univerzita Pardubice, 2008, s. 2-3. ISBN 978-80-7395-098-9
  2. SKALSKÁ, Hana. Data Mining a klasifikačné systémy. Hradec Králové: Univerzita Hradec Králové, 2010, s. 12-13. ISBN 978-80-7435-088-7
  3. PETR, Pavel. Data Mining. Pardubice: Univerzita Pardubice, 2008, s. 10. ISBN 978-80-7395-098-9
  4. SMOLOŇOVÁ, Renáta. Štatistika a Data Mining vo vedeckom výskume a výuke: zborník k seminárom. Praha, Bratislava: StatSoft, 2002, s.23. ISBN 80-238-9409-9

Použitá literatúra

  • SKALSKÁ, Hana. Data Mining a klasifikačné systémy. Hradec Králové: Univerzita Hradec Králové, 2010, s. 12-13. ISBN 978-80-7435-088-7
  • PETR, Pavel. Data Mining. Pardubice: Univerzita Pardubice, 2008, s. 10. ISBN 978-80-7395-098-9
  • SMOLOŇOVÁ, Renáta. Štatistika a Data Mining vo vedeckom výskume a výuke: zborník k seminárom. Praha, Bratislava: StatSoft, 2002, s.23. ISBN 80-238-9409-9