Text Mining: Porovnání verzí
| Řádek 48: | Řádek 48: | ||
== Literatura == | == Literatura == | ||
# KOPÁČKOVÁ, Hana. ''Podpora manažerského rozhodování s využitím strojového učení : (výsledná publikace z grantu GAČR 402/05/P155).'' Pardubice : Univerzita Pardubice, 2007. 74 s. ISBN 978-80-7395-031-6. | # KOPÁČKOVÁ, Hana. ''Podpora manažerského rozhodování s využitím strojového učení : (výsledná publikace z grantu GAČR 402/05/P155).'' Pardubice : Univerzita Pardubice, 2007. 74 s. ISBN 978-80-7395-031-6. | ||
| + | # MAHMOUD AL-AYYOUB, Munyaradzi Chiwara, et al. ''Stony Brook University : Department of Computer Science'' [online]. 2009 [cit. 2010-12-28]. Text mining. Dostupné z WWW: <http://www.cs.sunysb.edu/~cse634/presentations/TextMining.pdf>. | ||
# ''SAS'' [online]. 2009-09-15 [cit. 2010-12-23]. Introduction to Text Mining and SAS Text Miner 4.1. Dostupné z WWW: <http://support.sas.com/documentation/cdl/en/tmgs/62416/HTML/default/p1vvxc2tdb3s79n1jigfqwhjguiy.htm>. | # ''SAS'' [online]. 2009-09-15 [cit. 2010-12-23]. Introduction to Text Mining and SAS Text Miner 4.1. Dostupné z WWW: <http://support.sas.com/documentation/cdl/en/tmgs/62416/HTML/default/p1vvxc2tdb3s79n1jigfqwhjguiy.htm>. | ||
# SKLENÁK, Vilém Vyhledávání informací v prostředí webu – mírný pokrok v mezích zákona. In ''Automatizace knihovnických procesů – 10 : sborník z 10. ročníku semináře pořádaného ve dnech 3.–4. května 2005 v Liberci.'' Praha : ČVUT, 2005. s. 6. Dostupné z WWW: <http://www.akvs.cz/akp-2005/10-sklenak.pdf>. ISBN 80-01-03228-0. | # SKLENÁK, Vilém Vyhledávání informací v prostředí webu – mírný pokrok v mezích zákona. In ''Automatizace knihovnických procesů – 10 : sborník z 10. ročníku semináře pořádaného ve dnech 3.–4. května 2005 v Liberci.'' Praha : ČVUT, 2005. s. 6. Dostupné z WWW: <http://www.akvs.cz/akp-2005/10-sklenak.pdf>. ISBN 80-01-03228-0. | ||
Verze z 28. 12. 2010, 12:53
Autor: Kateřina Hořínková
Klíčová slova: informace, databáze, vyhledávání informací
Synonyma: ---
Související pojmy: data mining, web mining
nadřazené - ---
podřazené - ---
Text mining - výklad pojmu
Možno přeložit jako "dolování v textech".
Text mining je proces hledání, shromažďování a odvozování velmi užitečného materiálu z textových zdrojů. To znamená nastavování vzorů v textových souborech, odvozování pravidel vzorů, jejich aplikace na text a extrakce výstupu ve formě smysluplných informací. [6]
Text mining je dobývání znalostí z textů. Je to proces získávání skrytých faktů, z nestrukturovaných či semistrukturovaných (textových) databází.
Může být obšírně definován jako znalostně-intenzivní proces, ve kterém uživatel vzájemně působí v průběhu času za pomoci souboru analytických nástrojů se sbírkou dokumentů. Někdy může být alternativně nazýván data miningem. Rozdíl mezi data miningem a text miningem je ten, že v text miningu vychází vzory z přirozeného jazyka textu, spíše než ze strukturovaných databází faktů.
Úlohy text miningu
Nejdůležitější úlohy text miningu:
Kategorizace - zařazení dokumentů do předem definovaných tříd. Každý text může být v několika, jedné nebo žádné třídě. Třídy jsou děleny například podle autora, názvu, klíčového slova, tématu atp.
Shlukování - je automatická činnost, sloužící ke sloučení objektů do shluků, které si jsou podobné podle zadaných parametrů. Cílem je, aby si jednotky uvnitř shluků (clusterů) byly co nejvíce podobné a přitom zároveň si shluky a jednotky patřící do různých shluků, byly podobné co nejméně.
Extrakce informací - cílem je automaticky získat strukturované informace z daného dokumentu.
Sumarizace - shrnutí obsahu textu. "Umožňuje uživateli v krátkém čase porozumět obsahu daného dokumentu."[1]
Typické využití
Pár příkladů možného využití text miningu:
Zkoumání konkurence - "crawling" (procházení) webových stránek konkurence – užití text miningu s velkým potenciálem. Je to automatické zpracovávání obsahů webových stránek, které slouží jako velmi efektivní způsob získávání důležitých obchodních informací o aktivitách konkurentů. Například prozkoumáním stránek konkurentní společnosti můžeme automaticky odvodit pojmy a dokumenty, které jsou na dané stránce k dispozici a díky tomu určit nejdůležitější funkce a zaměření společnosti.
Analýza odpovědí z otevřeného průzkumu – pomocí této analýzy můžeme objevit soubory slov a termínů, používaných respondenty při popisu plusů a záporů produktu nebo služby. V dotaznících se obvykle používají tzv. "otevřené" otázky a odpovědi. Jejich smyslem je dát respondentovi prostor k vyjádření pohledu nebo názoru bez omezení hranic a formátu odpovědi. K utřídění těchto odpovědí je právě vhodný text mining.
Užití ve SPAM filtrech - automatické zpracování zpráv, emailů apod. – tato aplikace pomáhá s automatickým tříděním textů, emailů atp. Využití je hlavně při filtrování nevyžádané pošty či přesměrování emailů na správná oddělení (například emaily s požadavky na městský úřad atp.). Může také sloužit jako určitá bariéra či screening příchozích emailů a odflitrovat či vrátit emaily, kde jsou použita nevhodná či vulgární slova.
Analýzy reklamací, pojistných škod, vstupních pohovorů atp. - analýza záznamů a otevřených textů z komerčních sfér. Při aplikaci text miningového algoritmu jsou poznámky zpracovány a jako výstup poskytují například shluky problémů a stížností na určité produkty nebo služby (například z reklamací, stížností). Stejně tak lze použít i v lékařském oboru při určování diagnóz (vstupní lékařské prohlídky).
Literatura
- KOPÁČKOVÁ, Hana. Podpora manažerského rozhodování s využitím strojového učení : (výsledná publikace z grantu GAČR 402/05/P155). Pardubice : Univerzita Pardubice, 2007. 74 s. ISBN 978-80-7395-031-6.
- MAHMOUD AL-AYYOUB, Munyaradzi Chiwara, et al. Stony Brook University : Department of Computer Science [online]. 2009 [cit. 2010-12-28]. Text mining. Dostupné z WWW: <http://www.cs.sunysb.edu/~cse634/presentations/TextMining.pdf>.
- SAS [online]. 2009-09-15 [cit. 2010-12-23]. Introduction to Text Mining and SAS Text Miner 4.1. Dostupné z WWW: <http://support.sas.com/documentation/cdl/en/tmgs/62416/HTML/default/p1vvxc2tdb3s79n1jigfqwhjguiy.htm>.
- SKLENÁK, Vilém Vyhledávání informací v prostředí webu – mírný pokrok v mezích zákona. In Automatizace knihovnických procesů – 10 : sborník z 10. ročníku semináře pořádaného ve dnech 3.–4. května 2005 v Liberci. Praha : ČVUT, 2005. s. 6. Dostupné z WWW: <http://www.akvs.cz/akp-2005/10-sklenak.pdf>. ISBN 80-01-03228-0.
- SEDLÁČEK, Petr. Faculty of Informatics MU [online]. 2003 [cit. 2010-12-27]. Text mining a jeho možnosti (aplikace). Dostupné z WWW: <http://www.fi.muni.cz/usr/jkucera/pv109/2003p/xsedlac5.htm>.
- StatSoft [online]. c2010 [cit. 2010-12-11]. Text mining. Dostupné z WWW: <http://www.statsoft.com/textbook/text-mining/>.
- Toolbox.com [online]. 29.1.2009 [cit. 2010-12-11]. Text mining. Dostupné z WWW: <http://it.toolbox.com/wiki/index.php/Text_Mining>.