Text Mining: Porovnání verzí
m (75 revizí: IMPORT T-V: import stránek z hlavního jmenného prostoru z KiskWiki (http://kisk.phil.muni.cz/)) |
|
(Žádný rozdíl)
|
Aktuální verze z 20. 2. 2012, 12:08
Autor: Kateřina Hořínková
Klíčová slova: informace, databáze, vyhledávání informací
Synonyma: - dolování v textech
Související pojmy: data mining, web mining
nadřazené - ---
podřazené - extrakce informací, sumarizace, shlukování, clustering, sumarizace
Text mining - výklad pojmu
Možno přeložit jako "dolování v textech".
Text mining lze definovat jako proces objevování (získávání) znalostí, který má za cíl identifikovat a analyzovat užitečné informace v textech, jež jsou zajímavé pro uživatele. Dolování v textech lze také definovat jako netriviální extrakci implicitních, předem neznámých a potencionálně užitečných informací z (velkého množství) textových dat. [5]
Cílem text miningu je usnadnění vyhledávání a zpracování informací. Výstupem jsou smysluplné informace.
Někdy může být alternativně nazýván data miningem. Rozdíl mezi data miningem a text miningem je ten, že v text miningu vychází vzory z přirozeného jazyka textu spíše než ze strukturovaných databází faktů.
Důsledek efektivnějšího využívání informací může být například zvýšení ziskovosti, efektivity práce, aj.[5]
Úlohy text miningu
Nejdůležitější úlohy text miningu:
Kategorizace - zařazení dokumentů do předem definovaných tříd. Každý text může být v několika, jedné nebo žádné třídě. Třídy jsou děleny například podle autora, názvu, klíčového slova, tématu atp.
Shlukování - je automatická činnost sloužící ke sloučení objektů do shluků, které si jsou podobné podle zadaných parametrů. Cílem je, aby si jednotky uvnitř shluků (clusterů) byly co nejvíce podobné a a zároveň aby si shluky a jednotky patřící do různých shluků byly podobné co nejméně.
Extrakce informací - cílem je automaticky získat strukturované informace z daného dokumentu.
Sumarizace - shrnutí obsahu textu. "Umožňuje uživateli v krátkém čase porozumět obsahu daného dokumentu."[1]
Proces text miningu - ilustrativní schéma[2]
Typické využití
Pár příkladů možného využití text miningu:
Zkoumání konkurence - "crawling" (procházení) webových stránek konkurence – užití text miningu s velkým potenciálem. Je to automatické zpracovávání obsahů webových stránek, které slouží jako velmi efektivní způsob získávání důležitých obchodních informací o aktivitách konkurentů. Například prozkoumáním stránek konkurenční společnosti můžeme automaticky odvodit pojmy a dokumenty, které jsou na dané stránce k dispozici, a díky tomu určit nejdůležitější funkce a zaměření společnosti.
Analýza odpovědí z otevřeného průzkumu – pomocí této analýzy můžeme objevit soubory slov a termínů používaných respondenty při popisu plusů a záporů produktu nebo služby. V dotaznících se obvykle používají tzv. "otevřené" otázky a odpovědi. Jejich smyslem je dát respondentovi prostor k vyjádření pohledu nebo názoru bez omezení hranicemi nebo formátem odpovědi. K utřídění těchto odpovědí je vhodný právě text mining.
Užití ve SPAM filtrech - automatické zpracování zpráv, emailů apod. – tato aplikace pomáhá s automatickým tříděním textů, emailů atp. Využití je hlavně při filtrování nevyžádané pošty či přesměrování emailů na správná oddělení (například emaily s požadavky na městský úřad atp.). Může také sloužit jako určitá bariéra či screening příchozích emailů a odflitrovat či vrátit emaily, kde jsou použita nevhodná či vulgární slova.
Analýzy reklamací, pojistných škod, vstupních pohovorů atp. - analýza záznamů a otevřených textů z komerčních sfér. Při aplikaci text miningového algoritmu jsou poznámky zpracovány a jako výstup poskytují například shluky problémů a stížností na určité produkty nebo služby (například z reklamací, stížností). Stejně tak lze použít i v lékařském oboru při určování diagnóz (vstupní lékařské prohlídky).
Literatura
- KOPÁČKOVÁ, Hana. Podpora manažerského rozhodování s využitím strojového učení : (výsledná publikace z grantu GAČR 402/05/P155). Pardubice : Univerzita Pardubice, 2007. 74 s. ISBN 978-80-7395-031-6.
- MAHMOUD AL-AYYOUB, Munyaradzi Chiwara, et al. Stony Brook University : Department of Computer Science [online]. 2009 [cit. 2010-12-28]. Text mining. Dostupné z WWW: <http://www.cs.sunysb.edu/~cse634/presentations/TextMining.pdf>.
- SAS [online]. 2009-09-15 [cit. 2010-12-23]. Introduction to Text Mining and SAS Text Miner 4.1. Dostupné z WWW: <http://support.sas.com/documentation/cdl/en/tmgs/62416/HTML/default/p1vvxc2tdb3s79n1jigfqwhjguiy.htm>.
- SKLENÁK, Vilém Vyhledávání informací v prostředí webu – mírný pokrok v mezích zákona. In Automatizace knihovnických procesů – 10 : sborník z 10. ročníku semináře pořádaného ve dnech 3.–4. května 2005 v Liberci. Praha : ČVUT, 2005. s. 6. Dostupné z WWW: <http://www.akvs.cz/akp-2005/10-sklenak.pdf>. ISBN 80-01-03228-0.
- SEDLÁČEK, Petr. Faculty of Informatics MU [online]. 2003 [cit. 2010-12-27]. Text mining a jeho možnosti (aplikace). Dostupné z WWW: <http://www.fi.muni.cz/usr/jkucera/pv109/2003p/xsedlac5.htm>.
- StatSoft [online]. c2010 [cit. 2010-12-11]. Text mining. Dostupné z WWW: <http://www.statsoft.com/textbook/text-mining/>.