Text Mining

Z WikiKnihovna
Přejít na: navigace, hledání

Autor: Kateřina Hořínková

Klíčová slova: informace, databáze, vyhledávání informací

Synonyma: - dolování v textech

Související pojmy: data mining, web mining

nadřazené - ---
podřazené - extrakce informací, sumarizace, shlukování, clustering, sumarizace



Text mining - výklad pojmu

Možno přeložit jako "dolování v textech".

Text mining lze definovat jako proces objevování (získávání) znalostí, který má za cíl identifikovat a analyzovat užitečné informace v textech, jež jsou zajímavé pro uživatele. Dolování v textech lze také definovat jako netriviální extrakci implicitních, předem neznámých a potencionálně užitečných informací z (velkého množství) textových dat. [5]

Cílem text miningu je usnadnění vyhledávání a zpracování informací. Výstupem jsou smysluplné informace.

Někdy může být alternativně nazýván data miningem. Rozdíl mezi data miningem a text miningem je ten, že v text miningu vychází vzory z přirozeného jazyka textu spíše než ze strukturovaných databází faktů.


Důsledek efektivnějšího využívání informací může být například zvýšení ziskovosti, efektivity práce, aj.[5]

Úlohy text miningu

Nejdůležitější úlohy text miningu:

Kategorizace - zařazení dokumentů do předem definovaných tříd. Každý text může být v několika, jedné nebo žádné třídě. Třídy jsou děleny například podle autora, názvu, klíčového slova, tématu atp.

Shlukování - je automatická činnost sloužící ke sloučení objektů do shluků, které si jsou podobné podle zadaných parametrů. Cílem je, aby si jednotky uvnitř shluků (clusterů) byly co nejvíce podobné a a zároveň aby si shluky a jednotky patřící do různých shluků byly podobné co nejméně.


Extrakce informací - cílem je automaticky získat strukturované informace z daného dokumentu.

Sumarizace - shrnutí obsahu textu. "Umožňuje uživateli v krátkém čase porozumět obsahu daného dokumentu."[1]


Soubor:Text mining.jpg

Proces text miningu - ilustrativní schéma[2]

Typické využití

Pár příkladů možného využití text miningu:

Zkoumání konkurence - "crawling" (procházení) webových stránek konkurence – užití text miningu s velkým potenciálem. Je to automatické zpracovávání obsahů webových stránek, které slouží jako velmi efektivní způsob získávání důležitých obchodních informací o aktivitách konkurentů. Například prozkoumáním stránek konkurenční společnosti můžeme automaticky odvodit pojmy a dokumenty, které jsou na dané stránce k dispozici, a díky tomu určit nejdůležitější funkce a zaměření společnosti.

Analýza odpovědí z otevřeného průzkumu – pomocí této analýzy můžeme objevit soubory slov a termínů používaných respondenty při popisu plusů a záporů produktu nebo služby. V dotaznících se obvykle používají tzv. "otevřené" otázky a odpovědi. Jejich smyslem je dát respondentovi prostor k vyjádření pohledu nebo názoru bez omezení hranicemi nebo formátem odpovědi. K utřídění těchto odpovědí je vhodný právě text mining.

Užití ve SPAM filtrech - automatické zpracování zpráv, emailů apod. – tato aplikace pomáhá s automatickým tříděním textů, emailů atp. Využití je hlavně při filtrování nevyžádané pošty či přesměrování emailů na správná oddělení (například emaily s požadavky na městský úřad atp.). Může také sloužit jako určitá bariéra či screening příchozích emailů a odflitrovat či vrátit emaily, kde jsou použita nevhodná či vulgární slova.

Analýzy reklamací, pojistných škod, vstupních pohovorů atp. - analýza záznamů a otevřených textů z komerčních sfér. Při aplikaci text miningového algoritmu jsou poznámky zpracovány a jako výstup poskytují například shluky problémů a stížností na určité produkty nebo služby (například z reklamací, stížností). Stejně tak lze použít i v lékařském oboru při určování diagnóz (vstupní lékařské prohlídky).

Literatura

  1. KOPÁČKOVÁ, Hana. Podpora manažerského rozhodování s využitím strojového učení : (výsledná publikace z grantu GAČR 402/05/P155). Pardubice : Univerzita Pardubice, 2007. 74 s. ISBN 978-80-7395-031-6.
  2. MAHMOUD AL-AYYOUB, Munyaradzi Chiwara, et al. Stony Brook University : Department of Computer Science [online]. 2009 [cit. 2010-12-28]. Text mining. Dostupné z WWW: <http://www.cs.sunysb.edu/~cse634/presentations/TextMining.pdf>.
  3. SAS [online]. 2009-09-15 [cit. 2010-12-23]. Introduction to Text Mining and SAS Text Miner 4.1. Dostupné z WWW: <http://support.sas.com/documentation/cdl/en/tmgs/62416/HTML/default/p1vvxc2tdb3s79n1jigfqwhjguiy.htm>.
  4. SKLENÁK, Vilém Vyhledávání informací v prostředí webu – mírný pokrok v mezích zákona. In Automatizace knihovnických procesů – 10 : sborník z 10. ročníku semináře pořádaného ve dnech 3.–4. května 2005 v Liberci. Praha : ČVUT, 2005. s. 6. Dostupné z WWW: <http://www.akvs.cz/akp-2005/10-sklenak.pdf>. ISBN 80-01-03228-0.
  5. SEDLÁČEK, Petr. Faculty of Informatics MU [online]. 2003 [cit. 2010-12-27]. Text mining a jeho možnosti (aplikace). Dostupné z WWW: <http://www.fi.muni.cz/usr/jkucera/pv109/2003p/xsedlac5.htm>.
  6. StatSoft [online]. c2010 [cit. 2010-12-11]. Text mining. Dostupné z WWW: <http://www.statsoft.com/textbook/text-mining/>.