Data Mining

Z WikiKnihovna
Přejít na: navigace, hledání

Autor: Kristýna Svobodová

Klíčová slova: Data mining, dobývání dat, zpracování dat, modelování dat, vztahy mezi daty

Synonyma: Vytěžování dat

Nadřazené pojmy: Business Intelligence, KDD (Knowledge Discovery in Databases – dobývání znalostí z databází)

Podřazené pojmy: -

Definice Data Miningu

Data mining ([dejta majnyn], angl. dolování z dat, vytěžování dat) bývá definován jako sada automatizovaných postupů používaných k nalezení dosud neznámých vzorů a vztahů v datech. Jedná se o pojem z oblasti Business Intelligence, kde tyto vzory a vztahy mohou být použity, aby dokázaly předpovědět chování zákazníka. Definic data miningu je velmi mnoho. Mnozí odborníci považují data mining za synonymum pojmu KDD (Knowledge Discovery in Databases – dobývání znalostí z databází), jiní zase tvrdí, že data mining je pouze jednou součástí tohoto širšího procesu. Profesor Berka ve své knize Dobývání znalostí z databází píše o Data Miningu jako o kroku, který zahrnuje aplikaci vybraných analytických metod pro vyhledávání zajímavých vztahů v datech [2, s. 18]. Pojetí data miningu jako součásti KDD potvrzuje také první mezinárodní konference KDD z roku 1995, která se konala v Montrealu.

Data mining je do značné míry, ne-li zcela, využit k obchodním účelům. Nejčastějšími uživateli jsou bankovní, finanční a telekomunikační průmysl, velmi rychle však proniká i do dalších oblastí.

Klíčem k uspění v tomto rychle se měnícím odvětví je porozumět zákazníkovi nebo trhu, který zákazník představuje. Prostřednictvím data miningu je toto možné.

Kategorie úloh dolování dat

Data mining můžeme použít na řešení tisíců různých problémů. Podle povahy problému je můžeme seskupit do určitých skupin, jejichž cílem je postižení neznámých vztahů v datech. Setkat se můžeme s různými druhy dělení, jednotná podoba dána není. Následující dělení vytvořil jeden z předních světových expertů na data mining Usama Fayyad [4, s. 44].

Dvěma primárními cíly data miningu v praxi jsou predikce a deskripce.

Predikce (Prediction) – umožňuje předvídat budoucí hodnoty atributů na základě nalezených vzorů v datech

Deskripce (Description) – popisuje nalezené vzory a vztahy v datech, které mohou ovlivnit rozhodování


Cílů predikce a deskripce je dosaženo pomocí následujících úkolů:

Klasifikace (Classification) – podstatou klasifikace je rozdělit objekty s určitými charakteristickými rysy do jednotlivých tříd na základě modelu vybudovaného podle tréninkové množiny dat (třídy jsou dány předem a každý objekt je možné zařadit).

Regrese (Regression) – řada již dříve zjištěných hodnot, která slouží k předpovězení toho, jaké další hodnoty budou následovat

Shlukování (Clustering) – rozdělení datového souboru do určitých skupin (počet skupin je většinou zjišťován v průběhu analýzy dat), čímž jsou vytvářeny shluky objektů. Užívanými metodami pro tento úkol jsou rozhodovací stromy, neuronové sítě, logistická regrese, diskriminační analýza.

Sumarizace (Summarization) – zahrnuje metody pro hledání uceleného popisu podmnožiny dat

Modelování závislostí (Dependency Modeling) – spočívá v nalezení modelu, který popisuje podstatné závislosti mezi proměnnými, rozdělujeme jej na dvě úrovně: 1. Strukturální úroveň modelu specifikuje (často graficky), které proměnné jsou na sobě lokálně závislé 2. Kvantitativní úroveň modelu specifikuje síly závislostí za použití číselné stupnice

Detekce změn a odchylek (Change and Deviation Detection) – se zaměřuje na objevení nejpodstatnějších změn v datech od původně naměřených nebo normativních hodnot

Nejznámějšími metodami užívanými při řešení zmíněných úkolů jsou např. rozhodovací stromy, rozhodovací pravidla, asociační pravidla, neuronové sítě, statistické metody nebo nejbližší soused.

Postup při dolování dat

Aby mohl být data mining co nejefektivnější, bylo nezbytné vypracovat standardizovaný „návod“, který by po jednotlivých krocích popisoval, jak během celého procesu postupovat. Proto v rámci výzkumného projektu Evropské komise vznikla metodologie CRISP-DM (CRoss-Industry Standard Proces for Data Mining). Metodologie CRISP-DM [3] rozděluje proces do následujících etap:

Porozumění problematice (Business Understanding) Tato počáteční fáze se zaměřuje na pochopení cílů projektu a požadavků z manažerského hlediska a poté převedení těchto poznatků do definování problému data miningu a předběžný plán sestavený k dosažení určených cílů.

Porozumění datům (Data Understanding) Fáze porozumění datům začíná prvotním sběrem dat a pokračuje aktivitami vedoucími k seznámení se s daty, určením kvality dat, prvním „nahlédnutím“ do dat nebo odhalením zajímavých podmnožin k vytváření hypotéz pro skryté informace.

Příprava dat (Data Preparation) Fáze přípravy dat zahrnuje všechny aktivity na vybudování konečného datového souboru, který bude zpracováván jednotlivými analytickými metodami. Tato data by tedy měla obsahovat údaje relevantní k dané úloze a mít podobu, která je vyžadována vlastními analytickými algoritmy.

Modelování (Modeling) V této fázi jsou zvoleny a aplikovány různé modelovací techniky a jejich parametry jsou kalibrovány na optimální hodnoty. Obvykle existuje řada různých metod pro řešení dané úlohy, je tedy třeba vybrat ty nejvhodnější (doporučuje se použít více různých metod a jejich výsledky kombinovat) a vhodně nastavit jejich parametry. Některé techniky mají specifické požadavky na podobu dat. Pak je tedy často potřeba přistoupit zpět k fázi přípravy dat.

Vyhodnocení (Evaluation) V této fázi máme sestavený model (nebo modely), který se zdá mít z hlediska analýzy dat vysokou kvalitu. Před konečným využitím modelu je důležité důkladněji vyhodnotit model a přezkoumat kroky vedoucí ke stavbě modelu k nabytí jistoty, že skutečně dosáhneme daných cílů. Hlavním cílem je zjistit, zda existuje nějaká důležitá záležitost, která nebyla dostatečně zahrnuta. Na konci této fáze by mělo být dosaženo rozhodnutí o využití výsledků data miningu.

Využití výsledků (Deployment) Vytvoření modelu obecně není konec projektu. Získané znalosti budou muset být zorganizovány a prezentovány způsobem, aby je zákazník mohl využít. V závislosti na úkolu může být tato fáze zcela prostá – pouhé sepsání závěrečné zprávy, nebo také složitá – zavedení systému pro automatickou klasifikaci nových případů.

Použitá literatura

[1] BERKA, Petr. Aplikace systémů dobývání znalostí pro analýzu medicínských dat [online]. 2001, poslední revize 30.5.2003 [cit. 2010-06-09]. Dostupné z: <http://euromise.vse.cz/kdd>.

[2] BERKA, Petr. Dobývání znalostí z databází. 1.vyd. Praha: Academia, 2003. 366 s. ISBN 80-200-1062-9.

[3] CRoss Industry Standard Process for Data Mining [online]. [cit. 2010-06-09]. Dostupné z: <http://www.crisp-dm.org/Process/index.htm>.

[4] FAYYAD, Usama M.: Data Mining and Knowledge Discovery. An International Journal. [online]. [1996]. vol. 1. is. 1 [cit. 2010-06-09]. Dostupné z: <http://www.kdnuggets.com/gpspubs/aimag-kdd-overview-1996-Fayyad.pdf>.

[5] SOŠKOVÁ, Michala. Analýza a vyhodnocení činností uživatelů souborného on-line katalogu Masarykovy univerzity. Brno: Masarykova univerzita, Filozofická fakulta, Ústav české literatury a knihovnictví, 2006. 58 s. Vedoucí diplomové práce Dr. Ing. Zdeněk Kadlec.

[6] WANG, John. Data mining : opportunities and challenges. Hershey : IRM Press, 2003. xiii, 468 s. ISBN 1-931777-83-7.