Data mining

Z WikiKnihovna

Autor: Paulína Kosturáková

Kľúčové slová: dolovanie z dát

Synonymá: -

Súvisiace pojmy:

nadradené -
podradené -



Charakteristika

Data Mining (DM) alebo dolovanie z dát umožňuje pomocou špeciálnych algoritmov automaticky objavovať v dátach strategické informácie. Je to analytická technika pevne prepojená s dátovými skladmi ako veľmi kvalitným zdrojom pre tieto špeciálne analýzy. Data Mining možno charakterizovať ako proces extrakcie relevantných, vopred neznámych alebo nedefinovaných informácií z veľmi rozsiahlych databází. Dôležitou vlastnosťou DM je, že sa jedná o analýzy odvodené z obsahu dát, ktoré nie sú vopred dané užívateľom alebo implementátorom. Jedná sa predovšetkým o odvodzovanie prediktivných informácií, nie len deskriptívnych. To znamená, že proces Dm možno definovať ako netriviálne získavanie implicitných, skôr neznámych a potenciálne užitočných informácií z dát. Data minig slúži manažérom k objavovaniu nových skutočností, ktoré pomáhajú zamerať ich pozornosť na podstatné faktory podnikania, umožňujú testovať hypotézy, odhaľujú v stále zrýchľujúcom sa a zložitejšom obchodnom prostredí skryté korelácie medzi ekonomickými premennými apod.


Techniky

DM je založený na množstve matematických a štatistických techník. Príklady niektorých z nich:

  • Rozhodovacie stromy (RS) - prediktivný model, ktorý zobrazuje dáta v podobe stromu, kde každý uzol určuje kritérium pre následné rozdelenie dát do jednotlivých vetví. Strom tak rozdeľuje všetky zdrojové dáta do segmentov, kde každý list odpovedá určitému segmentu definovanému predchadzajúcimi uzlami.
  • Neuronové siete (NS) - sú založené na obdobných princípoch, ktoré napodobňujú organizáciu alebo spôsob chovania ľudského mozgu, založeného na systéme neurónov
  • Genetické algoritmy (GA) - simulujú biologickú evolúciu pre určenie, ako by mali byť atributy formulované, vyvíjané, modifikované atď.
  • Zhlukovanie a klasifikácia - zhlukovanie je technika slúžiaca k rozdeleniu dát do skupín s podobnými charakteristikami. Klasifikácia definuje podstatné atribúty skupín v podobe klasifikačných kritérií.


CRISP-DM

Metodika CRISP-DM (CRoss-Industry Standard Process for Data Mining) vznikla v rámci Európskeho výskumného prjektu. Cieľom tohto projektu bolo navrhnúť univerzálny postup (tvz. štandartný model procesu dobývania znalostí z databází), ktorý bude použoteľný v najrôznejších komerčných aplikáciách. Vytvorenie takejto metodiky umožní rišiť rozsiahle úlohy dobývania znalostí rýchlejšie, efektívnejšie, spoľahlivejšie a s nižšími nákladmi.

Fázy CRISP-DM

Životný cyklus projektu DM je podľa metodiky CRISP-DM tvorený následujúcimi 6 fázami:

1. porozumenie problému

2. porozumenie dátam

3. príprava dát

4. modelovanie

5. hodnotenie

6. využitie v praxi [1]

  1. PETR, Pavel. Data Mining. Pardubice: Univerzita Pardubice, 2008. ISBN 978-80-7395-098-9