Text Mining: Porovnání verzí

Z WikiKnihovna
m (75 revizí: IMPORT T-V: import stránek z hlavního jmenného prostoru z KiskWiki (http://kisk.phil.muni.cz/))
 
(Není zobrazeno 23 mezilehlých verzí od jednoho dalšího uživatele.)
Řádek 3: Řádek 3:
 
'''Klíčová slova:''' informace, databáze, vyhledávání informací
 
'''Klíčová slova:''' informace, databáze, vyhledávání informací
  
'''Synonyma:''' ---
+
'''Synonyma:''' - dolování v textech
  
 
'''Související pojmy:''' data mining, web mining
 
'''Související pojmy:''' data mining, web mining
Řádek 9: Řádek 9:
 
''nadřazené'' - ---</blockquote>
 
''nadřazené'' - ---</blockquote>
 
<blockquote>
 
<blockquote>
''podřazené'' - ---</blockquote>
+
''podřazené'' - extrakce informací, sumarizace, shlukování, clustering, sumarizace</blockquote>
  
  
Řádek 18: Řádek 18:
 
Možno přeložit jako "dolování v textech".
 
Možno přeložit jako "dolování v textech".
  
Text mining je proces hledání, shromažďování a odvozování velmi užitečného materiálu z textových zdrojů. To znamená nastavování vzorů v textových souborech, odvozování pravidel vzorů, jejich aplikace na text a extrakce výstupu ve formě smysluplných informací. [[#Literatura|[6]]]
+
Text mining lze definovat jako proces objevování (získávání) znalostí, který má za cíl identifikovat a analyzovat užitečné informace v textech, jež jsou zajímavé pro uživatele. Dolování v textech lze také definovat jako netriviální extrakci implicitních, předem neznámých a potencionálně užitečných informací z (velkého množství) textových dat. [[#Literatura|[5]]]
  
Text mining je dobývání znalostí z textů. Je to proces získávání skrytých faktů, z nestrukturovaných či semistrukturovaných (textových) databází.
+
Cílem text miningu je usnadnění vyhledávání a zpracování informací. Výstupem jsou smysluplné informace.
  
Může být obšírně definován jako znalostně-intenzivní proces, ve kterém uživatel vzájemně působí v průběhu času za pomoci souboru analytických nástrojů se sbírkou dokumentů. Někdy může být alternativně nazýván data miningem. Rozdíl mezi data miningem a text miningem je ten, že v text miningu vychází vzory z přirozeného jazyka textu, spíše než ze strukturovaných databází faktů.
+
Někdy může být alternativně nazýván data miningem. Rozdíl mezi data miningem a text miningem je ten, že v text miningu vychází vzory z přirozeného jazyka textu spíše než ze strukturovaných databází faktů.
 +
 
 +
 
 +
Důsledek efektivnějšího využívání informací může být například zvýšení ziskovosti, efektivity práce, aj.[[#Literatura|[5]]]
  
 
== Úlohy text miningu ==
 
== Úlohy text miningu ==
'''''Nejdůležitější úlohy text miningu:'''''
+
'''Nejdůležitější úlohy text miningu:'''
  
 
'''Kategorizace''' - zařazení dokumentů do předem definovaných tříd. Každý text může být v několika, jedné nebo žádné třídě. Třídy jsou děleny například podle autora, názvu, klíčového slova, tématu atp.
 
'''Kategorizace''' - zařazení dokumentů do předem definovaných tříd. Každý text může být v několika, jedné nebo žádné třídě. Třídy jsou děleny například podle autora, názvu, klíčového slova, tématu atp.
  
'''Shlukování''' - je automatická činnost, sloužící ke sloučení objektů do shluků, které si jsou podobné podle zadaných parametrů. Cílem je, aby si jednotky uvnitř shluků (clusterů) byly co nejvíce podobné a přitom zároveň si shluky a jednotky patřící do různých shluků, byly podobné co nejméně.
+
'''Shlukování''' - je automatická činnost sloužící ke sloučení objektů do shluků, které si jsou podobné podle zadaných parametrů. Cílem je, aby si jednotky uvnitř shluků (clusterů) byly co nejvíce podobné a a zároveň aby si shluky a jednotky patřící do různých shluků byly podobné co nejméně.  
 +
 
  
 
'''Extrakce informací''' - cílem je automaticky získat strukturované informace z daného dokumentu.  
 
'''Extrakce informací''' - cílem je automaticky získat strukturované informace z daného dokumentu.  
  
 
'''Sumarizace''' - shrnutí obsahu textu. ''"Umožňuje uživateli v krátkém čase porozumět obsahu daného dokumentu."''[[#Literatura|[1]]]
 
'''Sumarizace''' - shrnutí obsahu textu. ''"Umožňuje uživateli v krátkém čase porozumět obsahu daného dokumentu."''[[#Literatura|[1]]]
 +
 +
 +
[[Soubor:text mining.jpg]]
 +
 +
'''Proces text miningu - ilustrativní schéma[[#Literatura|[2]]]'''
  
 
== Typické využití ==
 
== Typické využití ==
'''''Pár příkladů možného využití text miningu:'''''
+
'''Pár příkladů možného využití text miningu:'''
  
'''Zkoumání konkurence - "crawling" (procházení) webových stránek konkurence''' – užití text miningu s velkým potenciálem. Je to automatické zpracovávání obsahů webových stránek, které slouží jako velmi efektivní způsob získávání důležitých obchodních informací o aktivitách konkurentů. Například prozkoumáním stránek konkurentní společnosti můžeme automaticky odvodit pojmy a dokumenty, které jsou na dané stránce k dispozici a díky tomu určit nejdůležitější funkce a zaměření společnosti.
+
'''Zkoumání konkurence - "crawling" (procházení) webových stránek konkurence''' – užití text miningu s velkým potenciálem. Je to automatické zpracovávání obsahů webových stránek, které slouží jako velmi efektivní způsob získávání důležitých obchodních informací o aktivitách konkurentů. Například prozkoumáním stránek konkurenční společnosti můžeme automaticky odvodit pojmy a dokumenty, které jsou na dané stránce k dispozici, a díky tomu určit nejdůležitější funkce a zaměření společnosti.
  
'''Analýza odpovědí z otevřeného průzkumu''' – pomocí této analýzy můžeme objevit soubory slov a termínů, používaných respondenty při popisu plusů a záporů produktu nebo služby. V dotaznících se obvykle používají tzv. "otevřené" otázky a odpovědi. Jejich smyslem je dát respondentovi prostor k vyjádření pohledu nebo názoru bez omezení hranic a formátu odpovědi. K utřídění těchto odpovědí je právě vhodný text mining.
+
'''Analýza odpovědí z otevřeného průzkumu''' – pomocí této analýzy můžeme objevit soubory slov a termínů používaných respondenty při popisu plusů a záporů produktu nebo služby. V dotaznících se obvykle používají tzv. "otevřené" otázky a odpovědi. Jejich smyslem je dát respondentovi prostor k vyjádření pohledu nebo názoru bez omezení hranicemi nebo formátem odpovědi. K utřídění těchto odpovědí je vhodný právě text mining.
  
 
'''Užití ve SPAM filtrech - automatické zpracování zpráv, emailů apod.''' – tato aplikace pomáhá s automatickým tříděním textů, emailů atp. Využití je hlavně při filtrování nevyžádané pošty či přesměrování emailů na správná oddělení (například emaily s požadavky na městský úřad atp.). Může také sloužit jako určitá bariéra či screening příchozích emailů a odflitrovat či vrátit emaily, kde jsou použita nevhodná či vulgární slova.
 
'''Užití ve SPAM filtrech - automatické zpracování zpráv, emailů apod.''' – tato aplikace pomáhá s automatickým tříděním textů, emailů atp. Využití je hlavně při filtrování nevyžádané pošty či přesměrování emailů na správná oddělení (například emaily s požadavky na městský úřad atp.). Může také sloužit jako určitá bariéra či screening příchozích emailů a odflitrovat či vrátit emaily, kde jsou použita nevhodná či vulgární slova.
Řádek 48: Řádek 57:
 
== Literatura ==
 
== Literatura ==
 
# KOPÁČKOVÁ, Hana. ''Podpora manažerského rozhodování s využitím strojového učení : (výsledná publikace z grantu GAČR 402/05/P155).'' Pardubice : Univerzita Pardubice, 2007. 74 s. ISBN 978-80-7395-031-6.
 
# KOPÁČKOVÁ, Hana. ''Podpora manažerského rozhodování s využitím strojového učení : (výsledná publikace z grantu GAČR 402/05/P155).'' Pardubice : Univerzita Pardubice, 2007. 74 s. ISBN 978-80-7395-031-6.
 +
# MAHMOUD AL-AYYOUB, Munyaradzi Chiwara, et al. ''Stony Brook University : Department of Computer Science'' [online]. 2009 [cit. 2010-12-28]. Text mining. Dostupné z WWW: <http://www.cs.sunysb.edu/~cse634/presentations/TextMining.pdf>.
 
# ''SAS'' [online]. 2009-09-15 [cit. 2010-12-23]. Introduction to Text Mining and SAS Text Miner 4.1. Dostupné z WWW: <http://support.sas.com/documentation/cdl/en/tmgs/62416/HTML/default/p1vvxc2tdb3s79n1jigfqwhjguiy.htm>.
 
# ''SAS'' [online]. 2009-09-15 [cit. 2010-12-23]. Introduction to Text Mining and SAS Text Miner 4.1. Dostupné z WWW: <http://support.sas.com/documentation/cdl/en/tmgs/62416/HTML/default/p1vvxc2tdb3s79n1jigfqwhjguiy.htm>.
 
# SKLENÁK, Vilém Vyhledávání informací v prostředí webu – mírný pokrok v mezích zákona. In ''Automatizace knihovnických procesů – 10 : sborník z 10. ročníku semináře pořádaného ve dnech 3.–4. května 2005 v Liberci.'' Praha : ČVUT, 2005. s. 6. Dostupné z WWW: <http://www.akvs.cz/akp-2005/10-sklenak.pdf>. ISBN 80-01-03228-0.
 
# SKLENÁK, Vilém Vyhledávání informací v prostředí webu – mírný pokrok v mezích zákona. In ''Automatizace knihovnických procesů – 10 : sborník z 10. ročníku semináře pořádaného ve dnech 3.–4. května 2005 v Liberci.'' Praha : ČVUT, 2005. s. 6. Dostupné z WWW: <http://www.akvs.cz/akp-2005/10-sklenak.pdf>. ISBN 80-01-03228-0.
 
# SEDLÁČEK, Petr. ''Faculty of Informatics MU'' [online]. 2003 [cit. 2010-12-27]. Text mining a jeho možnosti (aplikace). Dostupné z WWW: <http://www.fi.muni.cz/usr/jkucera/pv109/2003p/xsedlac5.htm>.
 
# SEDLÁČEK, Petr. ''Faculty of Informatics MU'' [online]. 2003 [cit. 2010-12-27]. Text mining a jeho možnosti (aplikace). Dostupné z WWW: <http://www.fi.muni.cz/usr/jkucera/pv109/2003p/xsedlac5.htm>.
 
# ''StatSoft'' [online]. c2010 [cit. 2010-12-11]. Text mining. Dostupné z WWW: <http://www.statsoft.com/textbook/text-mining/>.
 
# ''StatSoft'' [online]. c2010 [cit. 2010-12-11]. Text mining. Dostupné z WWW: <http://www.statsoft.com/textbook/text-mining/>.
# ''Toolbox.com'' [online]. 29.1.2009 [cit. 2010-12-11]. Text mining. Dostupné z WWW: <http://it.toolbox.com/wiki/index.php/Text_Mining>.
 

Aktuální verze z 20. 2. 2012, 12:08

Autor: Kateřina Hořínková

Klíčová slova: informace, databáze, vyhledávání informací

Synonyma: - dolování v textech

Související pojmy: data mining, web mining

nadřazené - ---

podřazené - extrakce informací, sumarizace, shlukování, clustering, sumarizace



Text mining - výklad pojmu

Možno přeložit jako "dolování v textech".

Text mining lze definovat jako proces objevování (získávání) znalostí, který má za cíl identifikovat a analyzovat užitečné informace v textech, jež jsou zajímavé pro uživatele. Dolování v textech lze také definovat jako netriviální extrakci implicitních, předem neznámých a potencionálně užitečných informací z (velkého množství) textových dat. [5]

Cílem text miningu je usnadnění vyhledávání a zpracování informací. Výstupem jsou smysluplné informace.

Někdy může být alternativně nazýván data miningem. Rozdíl mezi data miningem a text miningem je ten, že v text miningu vychází vzory z přirozeného jazyka textu spíše než ze strukturovaných databází faktů.


Důsledek efektivnějšího využívání informací může být například zvýšení ziskovosti, efektivity práce, aj.[5]

Úlohy text miningu

Nejdůležitější úlohy text miningu:

Kategorizace - zařazení dokumentů do předem definovaných tříd. Každý text může být v několika, jedné nebo žádné třídě. Třídy jsou děleny například podle autora, názvu, klíčového slova, tématu atp.

Shlukování - je automatická činnost sloužící ke sloučení objektů do shluků, které si jsou podobné podle zadaných parametrů. Cílem je, aby si jednotky uvnitř shluků (clusterů) byly co nejvíce podobné a a zároveň aby si shluky a jednotky patřící do různých shluků byly podobné co nejméně.


Extrakce informací - cílem je automaticky získat strukturované informace z daného dokumentu.

Sumarizace - shrnutí obsahu textu. "Umožňuje uživateli v krátkém čase porozumět obsahu daného dokumentu."[1]


Soubor:Text mining.jpg

Proces text miningu - ilustrativní schéma[2]

Typické využití

Pár příkladů možného využití text miningu:

Zkoumání konkurence - "crawling" (procházení) webových stránek konkurence – užití text miningu s velkým potenciálem. Je to automatické zpracovávání obsahů webových stránek, které slouží jako velmi efektivní způsob získávání důležitých obchodních informací o aktivitách konkurentů. Například prozkoumáním stránek konkurenční společnosti můžeme automaticky odvodit pojmy a dokumenty, které jsou na dané stránce k dispozici, a díky tomu určit nejdůležitější funkce a zaměření společnosti.

Analýza odpovědí z otevřeného průzkumu – pomocí této analýzy můžeme objevit soubory slov a termínů používaných respondenty při popisu plusů a záporů produktu nebo služby. V dotaznících se obvykle používají tzv. "otevřené" otázky a odpovědi. Jejich smyslem je dát respondentovi prostor k vyjádření pohledu nebo názoru bez omezení hranicemi nebo formátem odpovědi. K utřídění těchto odpovědí je vhodný právě text mining.

Užití ve SPAM filtrech - automatické zpracování zpráv, emailů apod. – tato aplikace pomáhá s automatickým tříděním textů, emailů atp. Využití je hlavně při filtrování nevyžádané pošty či přesměrování emailů na správná oddělení (například emaily s požadavky na městský úřad atp.). Může také sloužit jako určitá bariéra či screening příchozích emailů a odflitrovat či vrátit emaily, kde jsou použita nevhodná či vulgární slova.

Analýzy reklamací, pojistných škod, vstupních pohovorů atp. - analýza záznamů a otevřených textů z komerčních sfér. Při aplikaci text miningového algoritmu jsou poznámky zpracovány a jako výstup poskytují například shluky problémů a stížností na určité produkty nebo služby (například z reklamací, stížností). Stejně tak lze použít i v lékařském oboru při určování diagnóz (vstupní lékařské prohlídky).

Literatura

  1. KOPÁČKOVÁ, Hana. Podpora manažerského rozhodování s využitím strojového učení : (výsledná publikace z grantu GAČR 402/05/P155). Pardubice : Univerzita Pardubice, 2007. 74 s. ISBN 978-80-7395-031-6.
  2. MAHMOUD AL-AYYOUB, Munyaradzi Chiwara, et al. Stony Brook University : Department of Computer Science [online]. 2009 [cit. 2010-12-28]. Text mining. Dostupné z WWW: <http://www.cs.sunysb.edu/~cse634/presentations/TextMining.pdf>.
  3. SAS [online]. 2009-09-15 [cit. 2010-12-23]. Introduction to Text Mining and SAS Text Miner 4.1. Dostupné z WWW: <http://support.sas.com/documentation/cdl/en/tmgs/62416/HTML/default/p1vvxc2tdb3s79n1jigfqwhjguiy.htm>.
  4. SKLENÁK, Vilém Vyhledávání informací v prostředí webu – mírný pokrok v mezích zákona. In Automatizace knihovnických procesů – 10 : sborník z 10. ročníku semináře pořádaného ve dnech 3.–4. května 2005 v Liberci. Praha : ČVUT, 2005. s. 6. Dostupné z WWW: <http://www.akvs.cz/akp-2005/10-sklenak.pdf>. ISBN 80-01-03228-0.
  5. SEDLÁČEK, Petr. Faculty of Informatics MU [online]. 2003 [cit. 2010-12-27]. Text mining a jeho možnosti (aplikace). Dostupné z WWW: <http://www.fi.muni.cz/usr/jkucera/pv109/2003p/xsedlac5.htm>.
  6. StatSoft [online]. c2010 [cit. 2010-12-11]. Text mining. Dostupné z WWW: <http://www.statsoft.com/textbook/text-mining/>.