Text Mining: Porovnání verzí

Z WikiKnihovna
m (75 revizí: IMPORT T-V: import stránek z hlavního jmenného prostoru z KiskWiki (http://kisk.phil.muni.cz/))
 
(Není zobrazeno 28 mezilehlých verzí od jednoho dalšího uživatele.)
Řádek 3: Řádek 3:
 
'''Klíčová slova:''' informace, databáze, vyhledávání informací
 
'''Klíčová slova:''' informace, databáze, vyhledávání informací
  
'''Synonyma:''' ---
+
'''Synonyma:''' - dolování v textech
  
 
'''Související pojmy:''' data mining, web mining
 
'''Související pojmy:''' data mining, web mining
Řádek 9: Řádek 9:
 
''nadřazené'' - ---</blockquote>
 
''nadřazené'' - ---</blockquote>
 
<blockquote>
 
<blockquote>
''podřazené'' - ---</blockquote>
+
''podřazené'' - extrakce informací, sumarizace, shlukování, clustering, sumarizace</blockquote>
  
  
Řádek 16: Řádek 16:
  
 
== Text mining - výklad pojmu ==
 
== Text mining - výklad pojmu ==
Možno přeložit jako "dolování v textech"
+
Možno přeložit jako "dolování v textech".
Text mining je proces hledání, shromažďování a odvozování velmi užitečného materiálu z textových zdrojů. To znamená nastavování vzorů v textových souborech, odvozování pravidel vzorů, jejich aplikace na text a extrakce výstupu ve formě smysluplných informací. [[#Literatura|[6]]]
 
  
Text mining je dobývání znalostí z textů. Je to proces získávání skrytých faktů, z nestrukturovaných či semistrukturovaných (textových) databází.
+
Text mining lze definovat jako proces objevování (získávání) znalostí, který má za cíl identifikovat a analyzovat užitečné informace v textech, jež jsou zajímavé pro uživatele. Dolování v textech lze také definovat jako netriviální extrakci implicitních, předem neznámých a potencionálně užitečných informací z (velkého množství) textových dat. [[#Literatura|[5]]]
  
Může být obšírně definován jako znalostně-intenzivní proces, ve kterém uživatel vzájemně působí v průběhu času za pomoci souboru analytických nástrojů se sbírkou dokumentů. Někdy může být alternativně nazýván data miningem. Rozdíl mezi data miningem a text miningem je ten, že v text miningu vychází vzory z přirozeného jazyka textu, spíše než ze strukturovaných databází faktů.
+
Cílem text miningu je usnadnění vyhledávání a zpracování informací. Výstupem jsou smysluplné informace.
 +
 
 +
Někdy může být alternativně nazýván data miningem. Rozdíl mezi data miningem a text miningem je ten, že v text miningu vychází vzory z přirozeného jazyka textu spíše než ze strukturovaných databází faktů.
 +
 
 +
 
 +
Důsledek efektivnějšího využívání informací může být například zvýšení ziskovosti, efektivity práce, aj.[[#Literatura|[5]]]
  
 
== Úlohy text miningu ==
 
== Úlohy text miningu ==
'''''Nejdůležitější úlohy text miningu:'''''
+
'''Nejdůležitější úlohy text miningu:'''
  
 
'''Kategorizace''' - zařazení dokumentů do předem definovaných tříd. Každý text může být v několika, jedné nebo žádné třídě. Třídy jsou děleny například podle autora, názvu, klíčového slova, tématu atp.
 
'''Kategorizace''' - zařazení dokumentů do předem definovaných tříd. Každý text může být v několika, jedné nebo žádné třídě. Třídy jsou děleny například podle autora, názvu, klíčového slova, tématu atp.
  
'''Shlukování''' - je automatická činnost, sloužící ke sloučení objektů do shluků, které si jsou podobné podle zadaných parametrů. Cílem je, aby si jednotky uvnitř shluků (clusterů) byly co nejvíce podobné a přitom zároveň si shluky a jednotky patřící do různých shluků, byly podobné co nejméně.
+
'''Shlukování''' - je automatická činnost sloužící ke sloučení objektů do shluků, které si jsou podobné podle zadaných parametrů. Cílem je, aby si jednotky uvnitř shluků (clusterů) byly co nejvíce podobné a a zároveň aby si shluky a jednotky patřící do různých shluků byly podobné co nejméně.  
 +
 
  
 
'''Extrakce informací''' - cílem je automaticky získat strukturované informace z daného dokumentu.  
 
'''Extrakce informací''' - cílem je automaticky získat strukturované informace z daného dokumentu.  
  
 
'''Sumarizace''' - shrnutí obsahu textu. ''"Umožňuje uživateli v krátkém čase porozumět obsahu daného dokumentu."''[[#Literatura|[1]]]
 
'''Sumarizace''' - shrnutí obsahu textu. ''"Umožňuje uživateli v krátkém čase porozumět obsahu daného dokumentu."''[[#Literatura|[1]]]
 +
 +
 +
[[Soubor:text mining.jpg]]
 +
 +
'''Proces text miningu - ilustrativní schéma[[#Literatura|[2]]]'''
  
 
== Typické využití ==
 
== Typické využití ==
 +
'''Pár příkladů možného využití text miningu:'''
  
'''Analýza odpovědí z otevřeného průzkumu''' – pomocí této analýzy můžeme objevit soubor slov a termínů, používaných respondenty při popisu plusů a záporů produktu nebo služby. V dotaznících se obvykle používají tzv. "otevřené" otázky. Jejich smyslem je dát respondentovi prostor k vyjádření pohledu nebo názoru bez omezení hranic a formátu odpovědi.  
+
'''Zkoumání konkurence - "crawling" (procházení) webových stránek konkurence''' – užití text miningu s velkým potenciálem. Je to automatické zpracovávání obsahů webových stránek, které slouží jako velmi efektivní způsob získávání důležitých obchodních informací o aktivitách konkurentů. Například prozkoumáním stránek konkurenční společnosti můžeme automaticky odvodit pojmy a dokumenty, které jsou na dané stránce k dispozici, a díky tomu určit nejdůležitější funkce a zaměření společnosti.
  
'''Automatické zpracování zpráv, emailů apod.''' – tato aplikace pomáhá s automatickým tříděním textu. Využití je hlavně při filtrování nevyžádaná pošty či přesměrování emailu na správná oddělení (například emaily se požadavky na městský úřad atp.).
+
'''Analýza odpovědí z otevřeného průzkumu''' – pomocí této analýzy můžeme objevit soubory slov a termínů používaných respondenty při popisu plusů a záporů produktu nebo služby. V dotaznících se obvykle používají tzv. "otevřené" otázky a odpovědi. Jejich smyslem je dát respondentovi prostor k vyjádření pohledu nebo názoru bez omezení hranicemi nebo formátem odpovědi. K utřídění těchto odpovědí je vhodný právě text mining.
  
'''Analýza záruky nebo pojistných škod, vstupních pohovorů atp.''' -  v některých komerčních sférách je většina informací sbírána otevřenou textovou formou. Například požadavky na záruku, hlášení pojistných škod, vstupní lékařské prohlídky. Tyto mohou být shrnuty do krátkých vyprávění. Tyto poznámky jsou elektronicky zpracovávány, takže tato “vyprávění” jsou pak kdykoliv k dispozici pro aplikaci algoritmů text miningu. Tyto informace mohou být užitečně využity například, k identifikaci běžných shluků problémů nebo stížností na určité automobily atp. Nápodobně v lékařském oboru, pacientův popis příznaků nám může přinést užitečná vodítka vedoucí ke konečné diagnóze.
+
'''Užití ve SPAM filtrech - automatické zpracování zpráv, emailů apod.''' – tato aplikace pomáhá s automatickým tříděním textů, emailů atp. Využití je hlavně při filtrování nevyžádané pošty či přesměrování emailů na správná oddělení (například emaily s požadavky na městský úřad atp.). Může také sloužit jako určitá bariéra či screening příchozích emailů a odflitrovat či vrátit emaily, kde jsou použita nevhodná či vulgární slova.
  
'''Zkoumání konkurence - "crawling"(procházení) webových stránek konkurence''' – potenciálně velmi užitečné využití text miningu. Je to automatické zpracovávání obsahů webových stránek. Je to velmi efektivní způsob získávání důležitých obchodních informací o aktivitách konkurentů. Například prozkoumáním stránek konkurentní společnosti můžeme automaticky odvodit pojmy a dokumenty, které jsou na dané stránce k dispozici a díky tomu určit nejdůležitější funkce a zaměření společnosti.
+
'''Analýzy reklamací, pojistných škod, vstupních pohovorů atp.''' -  analýza záznamů a otevřených textů z komerčních sfér. Při aplikaci text miningového algoritmu jsou poznámky zpracovány a jako výstup poskytují například shluky problémů a stížností na určité produkty nebo služby (například z reklamací, stížností). Stejně tak lze použít i v lékařském oboru při určování diagnóz (vstupní lékařské prohlídky).
  
 
== Literatura ==
 
== Literatura ==
 
# KOPÁČKOVÁ, Hana. ''Podpora manažerského rozhodování s využitím strojového učení : (výsledná publikace z grantu GAČR 402/05/P155).'' Pardubice : Univerzita Pardubice, 2007. 74 s. ISBN 978-80-7395-031-6.
 
# KOPÁČKOVÁ, Hana. ''Podpora manažerského rozhodování s využitím strojového učení : (výsledná publikace z grantu GAČR 402/05/P155).'' Pardubice : Univerzita Pardubice, 2007. 74 s. ISBN 978-80-7395-031-6.
 +
# MAHMOUD AL-AYYOUB, Munyaradzi Chiwara, et al. ''Stony Brook University : Department of Computer Science'' [online]. 2009 [cit. 2010-12-28]. Text mining. Dostupné z WWW: <http://www.cs.sunysb.edu/~cse634/presentations/TextMining.pdf>.
 
# ''SAS'' [online]. 2009-09-15 [cit. 2010-12-23]. Introduction to Text Mining and SAS Text Miner 4.1. Dostupné z WWW: <http://support.sas.com/documentation/cdl/en/tmgs/62416/HTML/default/p1vvxc2tdb3s79n1jigfqwhjguiy.htm>.
 
# ''SAS'' [online]. 2009-09-15 [cit. 2010-12-23]. Introduction to Text Mining and SAS Text Miner 4.1. Dostupné z WWW: <http://support.sas.com/documentation/cdl/en/tmgs/62416/HTML/default/p1vvxc2tdb3s79n1jigfqwhjguiy.htm>.
 
# SKLENÁK, Vilém Vyhledávání informací v prostředí webu – mírný pokrok v mezích zákona. In ''Automatizace knihovnických procesů – 10 : sborník z 10. ročníku semináře pořádaného ve dnech 3.–4. května 2005 v Liberci.'' Praha : ČVUT, 2005. s. 6. Dostupné z WWW: <http://www.akvs.cz/akp-2005/10-sklenak.pdf>. ISBN 80-01-03228-0.
 
# SKLENÁK, Vilém Vyhledávání informací v prostředí webu – mírný pokrok v mezích zákona. In ''Automatizace knihovnických procesů – 10 : sborník z 10. ročníku semináře pořádaného ve dnech 3.–4. května 2005 v Liberci.'' Praha : ČVUT, 2005. s. 6. Dostupné z WWW: <http://www.akvs.cz/akp-2005/10-sklenak.pdf>. ISBN 80-01-03228-0.
 
# SEDLÁČEK, Petr. ''Faculty of Informatics MU'' [online]. 2003 [cit. 2010-12-27]. Text mining a jeho možnosti (aplikace). Dostupné z WWW: <http://www.fi.muni.cz/usr/jkucera/pv109/2003p/xsedlac5.htm>.
 
# SEDLÁČEK, Petr. ''Faculty of Informatics MU'' [online]. 2003 [cit. 2010-12-27]. Text mining a jeho možnosti (aplikace). Dostupné z WWW: <http://www.fi.muni.cz/usr/jkucera/pv109/2003p/xsedlac5.htm>.
 
# ''StatSoft'' [online]. c2010 [cit. 2010-12-11]. Text mining. Dostupné z WWW: <http://www.statsoft.com/textbook/text-mining/>.
 
# ''StatSoft'' [online]. c2010 [cit. 2010-12-11]. Text mining. Dostupné z WWW: <http://www.statsoft.com/textbook/text-mining/>.
# ''Toolbox.com'' [online]. 29.1.2009 [cit. 2010-12-11]. Text mining. Dostupné z WWW: <http://it.toolbox.com/wiki/index.php/Text_Mining>.
 

Aktuální verze z 20. 2. 2012, 12:08

Autor: Kateřina Hořínková

Klíčová slova: informace, databáze, vyhledávání informací

Synonyma: - dolování v textech

Související pojmy: data mining, web mining

nadřazené - ---

podřazené - extrakce informací, sumarizace, shlukování, clustering, sumarizace



Text mining - výklad pojmu

Možno přeložit jako "dolování v textech".

Text mining lze definovat jako proces objevování (získávání) znalostí, který má za cíl identifikovat a analyzovat užitečné informace v textech, jež jsou zajímavé pro uživatele. Dolování v textech lze také definovat jako netriviální extrakci implicitních, předem neznámých a potencionálně užitečných informací z (velkého množství) textových dat. [5]

Cílem text miningu je usnadnění vyhledávání a zpracování informací. Výstupem jsou smysluplné informace.

Někdy může být alternativně nazýván data miningem. Rozdíl mezi data miningem a text miningem je ten, že v text miningu vychází vzory z přirozeného jazyka textu spíše než ze strukturovaných databází faktů.


Důsledek efektivnějšího využívání informací může být například zvýšení ziskovosti, efektivity práce, aj.[5]

Úlohy text miningu

Nejdůležitější úlohy text miningu:

Kategorizace - zařazení dokumentů do předem definovaných tříd. Každý text může být v několika, jedné nebo žádné třídě. Třídy jsou děleny například podle autora, názvu, klíčového slova, tématu atp.

Shlukování - je automatická činnost sloužící ke sloučení objektů do shluků, které si jsou podobné podle zadaných parametrů. Cílem je, aby si jednotky uvnitř shluků (clusterů) byly co nejvíce podobné a a zároveň aby si shluky a jednotky patřící do různých shluků byly podobné co nejméně.


Extrakce informací - cílem je automaticky získat strukturované informace z daného dokumentu.

Sumarizace - shrnutí obsahu textu. "Umožňuje uživateli v krátkém čase porozumět obsahu daného dokumentu."[1]


Soubor:Text mining.jpg

Proces text miningu - ilustrativní schéma[2]

Typické využití

Pár příkladů možného využití text miningu:

Zkoumání konkurence - "crawling" (procházení) webových stránek konkurence – užití text miningu s velkým potenciálem. Je to automatické zpracovávání obsahů webových stránek, které slouží jako velmi efektivní způsob získávání důležitých obchodních informací o aktivitách konkurentů. Například prozkoumáním stránek konkurenční společnosti můžeme automaticky odvodit pojmy a dokumenty, které jsou na dané stránce k dispozici, a díky tomu určit nejdůležitější funkce a zaměření společnosti.

Analýza odpovědí z otevřeného průzkumu – pomocí této analýzy můžeme objevit soubory slov a termínů používaných respondenty při popisu plusů a záporů produktu nebo služby. V dotaznících se obvykle používají tzv. "otevřené" otázky a odpovědi. Jejich smyslem je dát respondentovi prostor k vyjádření pohledu nebo názoru bez omezení hranicemi nebo formátem odpovědi. K utřídění těchto odpovědí je vhodný právě text mining.

Užití ve SPAM filtrech - automatické zpracování zpráv, emailů apod. – tato aplikace pomáhá s automatickým tříděním textů, emailů atp. Využití je hlavně při filtrování nevyžádané pošty či přesměrování emailů na správná oddělení (například emaily s požadavky na městský úřad atp.). Může také sloužit jako určitá bariéra či screening příchozích emailů a odflitrovat či vrátit emaily, kde jsou použita nevhodná či vulgární slova.

Analýzy reklamací, pojistných škod, vstupních pohovorů atp. - analýza záznamů a otevřených textů z komerčních sfér. Při aplikaci text miningového algoritmu jsou poznámky zpracovány a jako výstup poskytují například shluky problémů a stížností na určité produkty nebo služby (například z reklamací, stížností). Stejně tak lze použít i v lékařském oboru při určování diagnóz (vstupní lékařské prohlídky).

Literatura

  1. KOPÁČKOVÁ, Hana. Podpora manažerského rozhodování s využitím strojového učení : (výsledná publikace z grantu GAČR 402/05/P155). Pardubice : Univerzita Pardubice, 2007. 74 s. ISBN 978-80-7395-031-6.
  2. MAHMOUD AL-AYYOUB, Munyaradzi Chiwara, et al. Stony Brook University : Department of Computer Science [online]. 2009 [cit. 2010-12-28]. Text mining. Dostupné z WWW: <http://www.cs.sunysb.edu/~cse634/presentations/TextMining.pdf>.
  3. SAS [online]. 2009-09-15 [cit. 2010-12-23]. Introduction to Text Mining and SAS Text Miner 4.1. Dostupné z WWW: <http://support.sas.com/documentation/cdl/en/tmgs/62416/HTML/default/p1vvxc2tdb3s79n1jigfqwhjguiy.htm>.
  4. SKLENÁK, Vilém Vyhledávání informací v prostředí webu – mírný pokrok v mezích zákona. In Automatizace knihovnických procesů – 10 : sborník z 10. ročníku semináře pořádaného ve dnech 3.–4. května 2005 v Liberci. Praha : ČVUT, 2005. s. 6. Dostupné z WWW: <http://www.akvs.cz/akp-2005/10-sklenak.pdf>. ISBN 80-01-03228-0.
  5. SEDLÁČEK, Petr. Faculty of Informatics MU [online]. 2003 [cit. 2010-12-27]. Text mining a jeho možnosti (aplikace). Dostupné z WWW: <http://www.fi.muni.cz/usr/jkucera/pv109/2003p/xsedlac5.htm>.
  6. StatSoft [online]. c2010 [cit. 2010-12-11]. Text mining. Dostupné z WWW: <http://www.statsoft.com/textbook/text-mining/>.