Data mining: Porovnání verzí
| (Není zobrazeno 23 mezilehlých verzí od stejného uživatele.) | |||
| Řádek 1: | Řádek 1: | ||
'''Autor''': Paulína Kosturáková | '''Autor''': Paulína Kosturáková | ||
| − | '''Kľúčové slová''': | + | '''Kľúčové slová''': databázové sklady, [[štatistika]] |
| − | '''Synonymá''': | + | '''Synonymá''': dolovanie z dát |
'''Súvisiace pojmy''': | '''Súvisiace pojmy''': | ||
| − | ::''nadradené'' - | + | ::''nadradené'' - databázy |
| − | ::''podradené'' - | + | ::''podradené'' - CRISP-DM, Data Miner |
| Řádek 16: | Řádek 16: | ||
== Charakteristika == | == Charakteristika == | ||
Data Mining (DM) alebo dolovanie z dát umožňuje pomocou špeciálnych algoritmov automaticky objavovať v dátach strategické informácie. Je to analytická technika pevne prepojená s [[dátovými skladmi]] ako veľmi kvalitným zdrojom pre tieto špeciálne analýzy. | Data Mining (DM) alebo dolovanie z dát umožňuje pomocou špeciálnych algoritmov automaticky objavovať v dátach strategické informácie. Je to analytická technika pevne prepojená s [[dátovými skladmi]] ako veľmi kvalitným zdrojom pre tieto špeciálne analýzy. | ||
| − | Data Mining možno charakterizovať ako proces extrakcie relevantných, vopred neznámych alebo nedefinovaných informácií z veľmi rozsiahlych databází. Dôležitou vlastnosťou DM je, že sa jedná o analýzy odvodené z obsahu dát, ktoré nie sú vopred dané užívateľom alebo implementátorom. Jedná sa predovšetkým o odvodzovanie | + | Data Mining možno charakterizovať ako proces extrakcie relevantných, vopred neznámych alebo nedefinovaných informácií z veľmi rozsiahlych databází. Dôležitou vlastnosťou DM je, že sa jedná o analýzy odvodené z obsahu dát, ktoré nie sú vopred dané užívateľom alebo implementátorom. Jedná sa predovšetkým o odvodzovanie prediktívnych informácií, nie len deskriptívnych. To znamená, že proces DM možno definovať ako netriviálne získavanie implicitných, skôr neznámych a potenciálne užitočných informácií z dát. |
| − | Data minig slúži manažérom k objavovaniu nových skutočností, ktoré pomáhajú zamerať ich pozornosť na podstatné faktory podnikania, umožňujú testovať hypotézy, odhaľujú v stále zrýchľujúcom sa a zložitejšom obchodnom prostredí skryté korelácie medzi ekonomickými premennými apod. | + | Data minig slúži manažérom k objavovaniu nových skutočností, ktoré pomáhajú zamerať ich pozornosť na podstatné faktory podnikania, umožňujú testovať hypotézy, odhaľujú v stále zrýchľujúcom sa a zložitejšom obchodnom prostredí skryté korelácie medzi ekonomickými premennými apod.<ref>PETR, Pavel. Data Mining. Pardubice: Univerzita Pardubice, 2008, s. 2-3. ISBN 978-80-7395-098-9</ref> |
| + | == Vývoj == | ||
| + | Označenie Data Mining sa pôvodne používalo pre exploračné štatistické metódy. V oblasti informačných technológií sa začal tento termín používať hlavne v súvislosti s intenzivnou analýzou dátových súborov extrémne veľkého rozsahu, ktoré sú k dispozícii ako dôsledok budovaných dátových skladov. Dnes sa data mining chápe akosúčasť procesu vyhľadávania znalosti z dát. Prvýkrát tieto metódy popísal už na začiatku 70. rokov [[Tukey]], ktorého práce sa stali veľmi známe. Podobné myšlienky už predtým rozvíjali českí autori ako Hájek, Havel, Chytil, neskôr Havránek a iný. Navrhli metódu [[GUHA]] (Generalized unary hypotheses automaton), ktorú popísali už v roku 1966. Metóda vychádza z princípov logiky a štatistiky a zaoberá sa formulovaním a overovaním všetkých hypotéz, vytvorených na základe dát.<ref>SKALSKÁ, Hana. Data Mining a klasifikačné systémy. Hradec Králové: Univerzita Hradec Králové, 2010, s. 12-13. ISBN 978-80-7435-088-7</ref> | ||
== Techniky == | == Techniky == | ||
| Řádek 24: | Řádek 26: | ||
* Rozhodovacie stromy (RS) - prediktivný model, ktorý zobrazuje dáta v podobe stromu, kde každý uzol určuje kritérium pre následné rozdelenie dát do jednotlivých vetví. Strom tak rozdeľuje všetky zdrojové dáta do segmentov, kde každý list odpovedá určitému segmentu definovanému predchadzajúcimi uzlami. | * Rozhodovacie stromy (RS) - prediktivný model, ktorý zobrazuje dáta v podobe stromu, kde každý uzol určuje kritérium pre následné rozdelenie dát do jednotlivých vetví. Strom tak rozdeľuje všetky zdrojové dáta do segmentov, kde každý list odpovedá určitému segmentu definovanému predchadzajúcimi uzlami. | ||
* Neuronové siete (NS) - sú založené na obdobných princípoch, ktoré napodobňujú organizáciu alebo spôsob chovania ľudského mozgu, založeného na systéme [[neurónov]] | * Neuronové siete (NS) - sú založené na obdobných princípoch, ktoré napodobňujú organizáciu alebo spôsob chovania ľudského mozgu, založeného na systéme [[neurónov]] | ||
| − | * Genetické algoritmy (GA) - simulujú biologickú evolúciu pre určenie, ako by mali byť | + | * Genetické algoritmy (GA) - simulujú biologickú evolúciu pre určenie, ako by mali byť atribúty formulované, vyvíjané, modifikované atď. |
* Zhlukovanie a klasifikácia - zhlukovanie je technika slúžiaca k rozdeleniu dát do skupín s podobnými charakteristikami. Klasifikácia definuje podstatné atribúty skupín v podobe klasifikačných kritérií. | * Zhlukovanie a klasifikácia - zhlukovanie je technika slúžiaca k rozdeleniu dát do skupín s podobnými charakteristikami. Klasifikácia definuje podstatné atribúty skupín v podobe klasifikačných kritérií. | ||
| − | |||
== CRISP-DM == | == CRISP-DM == | ||
| − | Metodika CRISP-DM (CRoss-Industry Standard Process for Data Mining) vznikla v rámci Európskeho výskumného prjektu. Cieľom tohto projektu bolo navrhnúť univerzálny postup (tvz. štandartný model procesu dobývania znalostí z databází), ktorý bude | + | Metodika CRISP-DM (CRoss-Industry Standard Process for Data Mining) vznikla v rámci Európskeho výskumného prjektu. Cieľom tohto projektu bolo navrhnúť univerzálny postup (tvz. štandartný model procesu dobývania znalostí z databází), ktorý bude použiteľný v najrôznejších komerčných aplikáciách. Vytvorenie takejto metodiky umožní riešiť rozsiahle úlohy dobývania znalostí rýchlejšie, efektívnejšie, spoľahlivejšie a s nižšími nákladmi. |
=== Fázy CRISP-DM=== | === Fázy CRISP-DM=== | ||
| Řádek 44: | Řádek 45: | ||
5. hodnotenie | 5. hodnotenie | ||
| − | 6. využitie v praxi <ref>PETR, Pavel. Data Mining. Pardubice: Univerzita Pardubice, 2008. ISBN 978-80-7395-098-9 | + | 6. využitie v praxi <ref>PETR, Pavel. Data Mining. Pardubice: Univerzita Pardubice, 2008, s. 10. ISBN 978-80-7395-098-9</ref> |
| + | |||
| + | == Data Miner == | ||
| + | Data Miner je rozsiahly komplexný systém, ktorý obsahuje nie len najväčší výber štatistických metód, ale najdete v ňom takiež aj všetky nástroje potrebné v data-miningovom procese, začínajúc získavaním dát a končiac uložením výsledkov. | ||
| + | Je to graficky orientovaný systém. Jeho užívateľské prostredie je založené na ovládaní štýlom ťahaj-a-pusť (drag-and-drop), ktorý je ľahko zrozumiteľný aj pre začínajúcich užívateľov, ale pritom umožňuje okamžitý prístup ku skriptám, ktorými sú jednotlivé uzly definované.<ref>SMOLOŇOVÁ, Renáta. Štatistika a Data Mining vo vedeckom výskume a výuke: zborník k seminárom. Praha, Bratislava: StatSoft, 2002, s.23. ISBN 80-238-9409-9</ref> | ||
| + | |||
| + | == Citácie == | ||
| + | <references/> | ||
| + | |||
| + | == Použitá literatúra == | ||
| + | * SKALSKÁ, Hana. Data Mining a klasifikačné systémy. Hradec Králové: Univerzita Hradec Králové, 2010, s. 12-13. ISBN 978-80-7435-088-7 | ||
| + | * PETR, Pavel. Data Mining. Pardubice: Univerzita Pardubice, 2008, s. 10. ISBN 978-80-7395-098-9 | ||
| + | * SMOLOŇOVÁ, Renáta. Štatistika a Data Mining vo vedeckom výskume a výuke: zborník k seminárom. Praha, Bratislava: StatSoft, 2002, s.23. ISBN 80-238-9409-9 | ||
Aktuální verze z 29. 5. 2014, 14:14
Autor: Paulína Kosturáková
Kľúčové slová: databázové sklady, štatistika
Synonymá: dolovanie z dát
Súvisiace pojmy:
- nadradené - databázy
- podradené - CRISP-DM, Data Miner
Charakteristika
Data Mining (DM) alebo dolovanie z dát umožňuje pomocou špeciálnych algoritmov automaticky objavovať v dátach strategické informácie. Je to analytická technika pevne prepojená s dátovými skladmi ako veľmi kvalitným zdrojom pre tieto špeciálne analýzy. Data Mining možno charakterizovať ako proces extrakcie relevantných, vopred neznámych alebo nedefinovaných informácií z veľmi rozsiahlych databází. Dôležitou vlastnosťou DM je, že sa jedná o analýzy odvodené z obsahu dát, ktoré nie sú vopred dané užívateľom alebo implementátorom. Jedná sa predovšetkým o odvodzovanie prediktívnych informácií, nie len deskriptívnych. To znamená, že proces DM možno definovať ako netriviálne získavanie implicitných, skôr neznámych a potenciálne užitočných informácií z dát. Data minig slúži manažérom k objavovaniu nových skutočností, ktoré pomáhajú zamerať ich pozornosť na podstatné faktory podnikania, umožňujú testovať hypotézy, odhaľujú v stále zrýchľujúcom sa a zložitejšom obchodnom prostredí skryté korelácie medzi ekonomickými premennými apod.[1]
Vývoj
Označenie Data Mining sa pôvodne používalo pre exploračné štatistické metódy. V oblasti informačných technológií sa začal tento termín používať hlavne v súvislosti s intenzivnou analýzou dátových súborov extrémne veľkého rozsahu, ktoré sú k dispozícii ako dôsledok budovaných dátových skladov. Dnes sa data mining chápe akosúčasť procesu vyhľadávania znalosti z dát. Prvýkrát tieto metódy popísal už na začiatku 70. rokov Tukey, ktorého práce sa stali veľmi známe. Podobné myšlienky už predtým rozvíjali českí autori ako Hájek, Havel, Chytil, neskôr Havránek a iný. Navrhli metódu GUHA (Generalized unary hypotheses automaton), ktorú popísali už v roku 1966. Metóda vychádza z princípov logiky a štatistiky a zaoberá sa formulovaním a overovaním všetkých hypotéz, vytvorených na základe dát.[2]
Techniky
DM je založený na množstve matematických a štatistických techník. Príklady niektorých z nich:
- Rozhodovacie stromy (RS) - prediktivný model, ktorý zobrazuje dáta v podobe stromu, kde každý uzol určuje kritérium pre následné rozdelenie dát do jednotlivých vetví. Strom tak rozdeľuje všetky zdrojové dáta do segmentov, kde každý list odpovedá určitému segmentu definovanému predchadzajúcimi uzlami.
- Neuronové siete (NS) - sú založené na obdobných princípoch, ktoré napodobňujú organizáciu alebo spôsob chovania ľudského mozgu, založeného na systéme neurónov
- Genetické algoritmy (GA) - simulujú biologickú evolúciu pre určenie, ako by mali byť atribúty formulované, vyvíjané, modifikované atď.
- Zhlukovanie a klasifikácia - zhlukovanie je technika slúžiaca k rozdeleniu dát do skupín s podobnými charakteristikami. Klasifikácia definuje podstatné atribúty skupín v podobe klasifikačných kritérií.
CRISP-DM
Metodika CRISP-DM (CRoss-Industry Standard Process for Data Mining) vznikla v rámci Európskeho výskumného prjektu. Cieľom tohto projektu bolo navrhnúť univerzálny postup (tvz. štandartný model procesu dobývania znalostí z databází), ktorý bude použiteľný v najrôznejších komerčných aplikáciách. Vytvorenie takejto metodiky umožní riešiť rozsiahle úlohy dobývania znalostí rýchlejšie, efektívnejšie, spoľahlivejšie a s nižšími nákladmi.
Fázy CRISP-DM
Životný cyklus projektu DM je podľa metodiky CRISP-DM tvorený následujúcimi 6 fázami:
1. porozumenie problému
2. porozumenie dátam
3. príprava dát
4. modelovanie
5. hodnotenie
6. využitie v praxi [3]
Data Miner
Data Miner je rozsiahly komplexný systém, ktorý obsahuje nie len najväčší výber štatistických metód, ale najdete v ňom takiež aj všetky nástroje potrebné v data-miningovom procese, začínajúc získavaním dát a končiac uložením výsledkov. Je to graficky orientovaný systém. Jeho užívateľské prostredie je založené na ovládaní štýlom ťahaj-a-pusť (drag-and-drop), ktorý je ľahko zrozumiteľný aj pre začínajúcich užívateľov, ale pritom umožňuje okamžitý prístup ku skriptám, ktorými sú jednotlivé uzly definované.[4]
Citácie
- ↑ PETR, Pavel. Data Mining. Pardubice: Univerzita Pardubice, 2008, s. 2-3. ISBN 978-80-7395-098-9
- ↑ SKALSKÁ, Hana. Data Mining a klasifikačné systémy. Hradec Králové: Univerzita Hradec Králové, 2010, s. 12-13. ISBN 978-80-7435-088-7
- ↑ PETR, Pavel. Data Mining. Pardubice: Univerzita Pardubice, 2008, s. 10. ISBN 978-80-7395-098-9
- ↑ SMOLOŇOVÁ, Renáta. Štatistika a Data Mining vo vedeckom výskume a výuke: zborník k seminárom. Praha, Bratislava: StatSoft, 2002, s.23. ISBN 80-238-9409-9
Použitá literatúra
- SKALSKÁ, Hana. Data Mining a klasifikačné systémy. Hradec Králové: Univerzita Hradec Králové, 2010, s. 12-13. ISBN 978-80-7435-088-7
- PETR, Pavel. Data Mining. Pardubice: Univerzita Pardubice, 2008, s. 10. ISBN 978-80-7395-098-9
- SMOLOŇOVÁ, Renáta. Štatistika a Data Mining vo vedeckom výskume a výuke: zborník k seminárom. Praha, Bratislava: StatSoft, 2002, s.23. ISBN 80-238-9409-9