Text Mining: Porovnání verzí

Aktuální verze z 20. 2. 2012, 12:08

Autor: Kateřina Hořínková

Klíčová slova: informace, databáze, vyhledávání informací

Synonyma: - dolování v textech

Související pojmy: data mining, web mining

nadřazené - ---

podřazené - extrakce informací, sumarizace, shlukování, clustering, sumarizace

Text mining - výklad pojmu

Možno přeložit jako "dolování v textech".

Text mining lze definovat jako proces objevování (získávání) znalostí, který má za cíl identifikovat a analyzovat užitečné informace v textech, jež jsou zajímavé pro uživatele. Dolování v textech lze také definovat jako netriviální extrakci implicitních, předem neznámých a potencionálně užitečných informací z (velkého množství) textových dat. [5]

Cílem text miningu je usnadnění vyhledávání a zpracování informací. Výstupem jsou smysluplné informace.

Někdy může být alternativně nazýván data miningem. Rozdíl mezi data miningem a text miningem je ten, že v text miningu vychází vzory z přirozeného jazyka textu spíše než ze strukturovaných databází faktů.

Důsledek efektivnějšího využívání informací může být například zvýšení ziskovosti, efektivity práce, aj.[5]

Úlohy text miningu

Nejdůležitější úlohy text miningu:

Kategorizace - zařazení dokumentů do předem definovaných tříd. Každý text může být v několika, jedné nebo žádné třídě. Třídy jsou děleny například podle autora, názvu, klíčového slova, tématu atp.

Shlukování - je automatická činnost sloužící ke sloučení objektů do shluků, které si jsou podobné podle zadaných parametrů. Cílem je, aby si jednotky uvnitř shluků (clusterů) byly co nejvíce podobné a a zároveň aby si shluky a jednotky patřící do různých shluků byly podobné co nejméně.

Extrakce informací - cílem je automaticky získat strukturované informace z daného dokumentu.

Sumarizace - shrnutí obsahu textu. "Umožňuje uživateli v krátkém čase porozumět obsahu daného dokumentu."[1]

Soubor:Text mining.jpg

Proces text miningu - ilustrativní schéma[2]

Typické využití

Pár příkladů možného využití text miningu:

Zkoumání konkurence - "crawling" (procházení) webových stránek konkurence – užití text miningu s velkým potenciálem. Je to automatické zpracovávání obsahů webových stránek, které slouží jako velmi efektivní způsob získávání důležitých obchodních informací o aktivitách konkurentů. Například prozkoumáním stránek konkurenční společnosti můžeme automaticky odvodit pojmy a dokumenty, které jsou na dané stránce k dispozici, a díky tomu určit nejdůležitější funkce a zaměření společnosti.

Analýza odpovědí z otevřeného průzkumu – pomocí této analýzy můžeme objevit soubory slov a termínů používaných respondenty při popisu plusů a záporů produktu nebo služby. V dotaznících se obvykle používají tzv. "otevřené" otázky a odpovědi. Jejich smyslem je dát respondentovi prostor k vyjádření pohledu nebo názoru bez omezení hranicemi nebo formátem odpovědi. K utřídění těchto odpovědí je vhodný právě text mining.

Užití ve SPAM filtrech - automatické zpracování zpráv, emailů apod. – tato aplikace pomáhá s automatickým tříděním textů, emailů atp. Využití je hlavně při filtrování nevyžádané pošty či přesměrování emailů na správná oddělení (například emaily s požadavky na městský úřad atp.). Může také sloužit jako určitá bariéra či screening příchozích emailů a odflitrovat či vrátit emaily, kde jsou použita nevhodná či vulgární slova.

Analýzy reklamací, pojistných škod, vstupních pohovorů atp. - analýza záznamů a otevřených textů z komerčních sfér. Při aplikaci text miningového algoritmu jsou poznámky zpracovány a jako výstup poskytují například shluky problémů a stížností na určité produkty nebo služby (například z reklamací, stížností). Stejně tak lze použít i v lékařském oboru při určování diagnóz (vstupní lékařské prohlídky).

Literatura

KOPÁČKOVÁ, Hana. Podpora manažerského rozhodování s využitím strojového učení : (výsledná publikace z grantu GAČR 402/05/P155). Pardubice : Univerzita Pardubice, 2007. 74 s. ISBN 978-80-7395-031-6.
MAHMOUD AL-AYYOUB, Munyaradzi Chiwara, et al. Stony Brook University : Department of Computer Science [online]. 2009 [cit. 2010-12-28]. Text mining. Dostupné z WWW: <http://www.cs.sunysb.edu/~cse634/presentations/TextMining.pdf>.
SAS [online]. 2009-09-15 [cit. 2010-12-23]. Introduction to Text Mining and SAS Text Miner 4.1. Dostupné z WWW: <http://support.sas.com/documentation/cdl/en/tmgs/62416/HTML/default/p1vvxc2tdb3s79n1jigfqwhjguiy.htm>.
SKLENÁK, Vilém Vyhledávání informací v prostředí webu – mírný pokrok v mezích zákona. In Automatizace knihovnických procesů – 10 : sborník z 10. ročníku semináře pořádaného ve dnech 3.–4. května 2005 v Liberci. Praha : ČVUT, 2005. s. 6. Dostupné z WWW: <http://www.akvs.cz/akp-2005/10-sklenak.pdf>. ISBN 80-01-03228-0.
SEDLÁČEK, Petr. Faculty of Informatics MU [online]. 2003 [cit. 2010-12-27]. Text mining a jeho možnosti (aplikace). Dostupné z WWW: <http://www.fi.muni.cz/usr/jkucera/pv109/2003p/xsedlac5.htm>.
StatSoft [online]. c2010 [cit. 2010-12-11]. Text mining. Dostupné z WWW: <http://www.statsoft.com/textbook/text-mining/>.

@@ Řádek 3: / Řádek 3: @@
 '''Klíčová slova:''' informace, databáze, vyhledávání informací
-'''Synonyma:''' ---
+'''Synonyma:''' - dolování v textech
 '''Související pojmy:''' data mining, web mining
@@ Řádek 9: / Řádek 9: @@
 ''nadřazené'' - ---</blockquote>
 <blockquote>
-''podřazené'' - ---</blockquote>
+''podřazené'' - extrakce informací, sumarizace, shlukování, clustering, sumarizace</blockquote>
@@ Řádek 18: / Řádek 18: @@
 Možno přeložit jako "dolování v textech".
-Text mining je proces hledání, shromažďování a odvozování velmi užitečného materiálu z textových zdrojů. To znamená nastavování vzorů v textových souborech, odvozování pravidel vzorů, jejich aplikace na text a extrakce výstupu ve formě smysluplných informací. [[#Literatura|[6]]]
+Text mining lze definovat jako proces objevování (získávání) znalostí, který má za cíl identifikovat a analyzovat užitečné informace v textech, jež jsou zajímavé pro uživatele. Dolování v textech lze také definovat jako netriviální extrakci implicitních, předem neznámých a potencionálně užitečných informací z (velkého množství) textových dat. [[#Literatura|[5]]]
-Text mining je dobývání znalostí z textů. Je to proces získávání skrytých faktů, z nestrukturovaných či semistrukturovaných (textových) databází.
+Cílem text miningu je usnadnění vyhledávání a zpracování informací. Výstupem jsou smysluplné informace.
-Může být obšírně definován jako znalostně-intenzivní proces, ve kterém uživatel vzájemně působí v průběhu času za pomoci souboru analytických nástrojů se sbírkou dokumentů. Někdy může být alternativně nazýván data miningem. Rozdíl mezi data miningem a text miningem je ten, že v text miningu vychází vzory z přirozeného jazyka textu, spíše než ze strukturovaných databází faktů.
+Někdy může být alternativně nazýván data miningem. Rozdíl mezi data miningem a text miningem je ten, že v text miningu vychází vzory z přirozeného jazyka textu spíše než ze strukturovaných databází faktů.
+Důsledek efektivnějšího využívání informací může být například zvýšení ziskovosti, efektivity práce, aj.[[#Literatura|[5]]]
 == Úlohy text miningu ==
-'''''Nejdůležitější úlohy text miningu:'''''
+'''Nejdůležitější úlohy text miningu:'''
 '''Kategorizace''' - zařazení dokumentů do předem definovaných tříd. Každý text může být v několika, jedné nebo žádné třídě. Třídy jsou děleny například podle autora, názvu, klíčového slova, tématu atp.
-'''Shlukování''' - je automatická činnost, sloužící ke sloučení objektů do shluků, které si jsou podobné podle zadaných parametrů. Cílem je, aby si jednotky uvnitř shluků (clusterů) byly co nejvíce podobné a přitom zároveň si shluky a jednotky patřící do různých shluků, byly podobné co nejméně.
+'''Shlukování''' - je automatická činnost sloužící ke sloučení objektů do shluků, které si jsou podobné podle zadaných parametrů. Cílem je, aby si jednotky uvnitř shluků (clusterů) byly co nejvíce podobné a a zároveň aby si shluky a jednotky patřící do různých shluků byly podobné co nejméně.
 '''Extrakce informací''' - cílem je automaticky získat strukturované informace z daného dokumentu.
 '''Sumarizace''' - shrnutí obsahu textu. ''"Umožňuje uživateli v krátkém čase porozumět obsahu daného dokumentu."''[[#Literatura|[1]]]
+[[Soubor:text mining.jpg]]
+'''Proces text miningu - ilustrativní schéma[[#Literatura|[2]]]'''
 == Typické využití ==
-'''''Pár příkladů možného využití text miningu:'''''
+'''Pár příkladů možného využití text miningu:'''
-'''Zkoumání konkurence - "crawling" (procházení) webových stránek konkurence''' – užití text miningu s velkým potenciálem. Je to automatické zpracovávání obsahů webových stránek, které slouží jako velmi efektivní způsob získávání důležitých obchodních informací o aktivitách konkurentů. Například prozkoumáním stránek konkurentní společnosti můžeme automaticky odvodit pojmy a dokumenty, které jsou na dané stránce k dispozici a díky tomu určit nejdůležitější funkce a zaměření společnosti.
+'''Zkoumání konkurence - "crawling" (procházení) webových stránek konkurence''' – užití text miningu s velkým potenciálem. Je to automatické zpracovávání obsahů webových stránek, které slouží jako velmi efektivní způsob získávání důležitých obchodních informací o aktivitách konkurentů. Například prozkoumáním stránek konkurenční společnosti můžeme automaticky odvodit pojmy a dokumenty, které jsou na dané stránce k dispozici, a díky tomu určit nejdůležitější funkce a zaměření společnosti.
-'''Analýza odpovědí z otevřeného průzkumu''' – pomocí této analýzy můžeme objevit soubory slov a termínů, používaných respondenty při popisu plusů a záporů produktu nebo služby. V dotaznících se obvykle používají tzv. "otevřené" otázky a odpovědi. Jejich smyslem je dát respondentovi prostor k vyjádření pohledu nebo názoru bez omezení hranic a formátu odpovědi. K utřídění těchto odpovědí je právě vhodný text mining.
+'''Analýza odpovědí z otevřeného průzkumu''' – pomocí této analýzy můžeme objevit soubory slov a termínů používaných respondenty při popisu plusů a záporů produktu nebo služby. V dotaznících se obvykle používají tzv. "otevřené" otázky a odpovědi. Jejich smyslem je dát respondentovi prostor k vyjádření pohledu nebo názoru bez omezení hranicemi nebo formátem odpovědi. K utřídění těchto odpovědí je vhodný právě text mining.
 '''Užití ve SPAM filtrech - automatické zpracování zpráv, emailů apod.''' – tato aplikace pomáhá s automatickým tříděním textů, emailů atp. Využití je hlavně při filtrování nevyžádané pošty či přesměrování emailů na správná oddělení (například emaily s požadavky na městský úřad atp.). Může také sloužit jako určitá bariéra či screening příchozích emailů a odflitrovat či vrátit emaily, kde jsou použita nevhodná či vulgární slova.
@@ Řádek 48: / Řádek 57: @@
 == Literatura ==
 # KOPÁČKOVÁ, Hana. ''Podpora manažerského rozhodování s využitím strojového učení : (výsledná publikace z grantu GAČR 402/05/P155).'' Pardubice : Univerzita Pardubice, 2007. 74 s. ISBN 978-80-7395-031-6.
+# MAHMOUD AL-AYYOUB, Munyaradzi Chiwara, et al. ''Stony Brook University : Department of Computer Science'' [online]. 2009 [cit. 2010-12-28]. Text mining. Dostupné z WWW: <http://www.cs.sunysb.edu/~cse634/presentations/TextMining.pdf>.
 # ''SAS'' [online]. 2009-09-15 [cit. 2010-12-23]. Introduction to Text Mining and SAS Text Miner 4.1. Dostupné z WWW: <http://support.sas.com/documentation/cdl/en/tmgs/62416/HTML/default/p1vvxc2tdb3s79n1jigfqwhjguiy.htm>.
 # SKLENÁK, Vilém Vyhledávání informací v prostředí webu – mírný pokrok v mezích zákona. In ''Automatizace knihovnických procesů – 10 : sborník z 10. ročníku semináře pořádaného ve dnech 3.–4. května 2005 v Liberci.'' Praha : ČVUT, 2005. s. 6. Dostupné z WWW: <http://www.akvs.cz/akp-2005/10-sklenak.pdf>. ISBN 80-01-03228-0.
 # SEDLÁČEK, Petr. ''Faculty of Informatics MU'' [online]. 2003 [cit. 2010-12-27]. Text mining a jeho možnosti (aplikace). Dostupné z WWW: <http://www.fi.muni.cz/usr/jkucera/pv109/2003p/xsedlac5.htm>.
 # ''StatSoft'' [online]. c2010 [cit. 2010-12-11]. Text mining. Dostupné z WWW: <http://www.statsoft.com/textbook/text-mining/>.
-# ''Toolbox.com'' [online]. 29.1.2009 [cit. 2010-12-11]. Text mining. Dostupné z WWW: <http://it.toolbox.com/wiki/index.php/Text_Mining>.

Neregistrovaný

Hledat

Text Mining: Porovnání verzí

Jmenné prostory

Více

Možnosti stránky

Aktuální verze z 20. 2. 2012, 12:08

Obsah

Text mining - výklad pojmu

Úlohy text miningu

Typické využití

Literatura

Navigace

Navigace

Pracovní prostory

Wiki nástroje

Wiki nástroje

Neregistrovaný

Hledat

Text Mining: Porovnání verzí

Aktuální verze z 20. 2. 2012, 12:08

Text mining - výklad pojmu

Úlohy text miningu

Typické využití

Literatura

Navigace

Wiki nástroje

Nástroje ke stránkám

Kategorie