Text Mining

Z WikiKnihovna

Autor: Kateřina Hořínková

Klíčová slova: informace, databáze, vyhledávání informací

Synonyma: ---

Související pojmy: data mining, web mining

nadřazené - ---

podřazené - ---



Text mining - výklad pojmu

Možno přeložit jako "dolování v textech" Text mining je proces hledání, shromažďování a odvozování velmi užitečného materiálu z textových zdrojů. To znamená nastavování vzorů v textových souborech, odvozování pravidel vzorů, jejich aplikace na text a extrakce výstupu ve formě smysluplných informací. [6]

Text mining je dobývání znalostí z textů. Je to proces získávání skrytých faktů, z nestrukturovaných či semistrukturovaných (textových) databází.

Může být obšírně definován jako znalostně-intenzivní proces, ve kterém uživatel vzájemně působí v průběhu času za pomoci souboru analytických nástrojů se sbírkou dokumentů. Někdy může být alternativně nazýván data miningem. Rozdíl mezi data miningem a text miningem je ten, že v text miningu vychází vzory z přirozeného jazyka textu, spíše než ze strukturovaných databází faktů.

Úlohy text miningu

Nejdůležitější úlohy text miningu:

Kategorizace - zařazení dokumentů do předem definovaných tříd. Každý text může být v několika, jedné nebo žádné třídě. Třídy jsou děleny například podle autora, názvu, klíčového slova, tématu atp.

Shlukování - je automatická činnost, sloužící ke sloučení objektů do shluků, které si jsou podobné podle zadaných parametrů. Cílem je, aby si jednotky uvnitř shluků (clusterů) byly co nejvíce podobné a přitom zároveň si shluky a jednotky patřící do různých shluků, byly podobné co nejméně.

Extrakce informací - cílem je automaticky získat strukturované informace z daného dokumentu.

Sumarizace - shrnutí obsahu textu. "Umožňuje uživateli v krátkém čase porozumět obsahu daného dokumentu."[1]

Typické využití

Pár příkladů možného využití text miningu:

Zkoumání konkurence - "crawling" (procházení) webových stránek konkurence – potenciálně velmi užitečné využití text miningu. Je to automatické zpracovávání obsahů webových stránek. Je to velmi efektivní způsob získávání důležitých obchodních informací o aktivitách konkurentů. Například prozkoumáním stránek konkurentní společnosti můžeme automaticky odvodit pojmy a dokumenty, které jsou na dané stránce k dispozici a díky tomu určit nejdůležitější funkce a zaměření společnosti.

Analýza odpovědí z otevřeného průzkumu – pomocí této analýzy můžeme objevit soubor slov a termínů, používaných respondenty při popisu plusů a záporů produktu nebo služby. V dotaznících se obvykle používají tzv. "otevřené" otázky. Jejich smyslem je dát respondentovi prostor k vyjádření pohledu nebo názoru bez omezení hranic a formátu odpovědi.

Automatické zpracování zpráv, emailů apod. – tato aplikace pomáhá s automatickým tříděním textu. Využití je hlavně při filtrování nevyžádaná pošty či přesměrování emailu na správná oddělení (například emaily se požadavky na městský úřad atp.).

Analýzy reklamací, pojistných škod, vstupních pohovorů atp. - analýza záznamů a otevřených textů z komerčních sfér. Při aplikaci text miningového algoritmu jsou poznámky zpracovány a jako výstup poskytují například shluky problémů a stížností na určité produkty nebo služby. Stejně tak lze použít i v lékařském oboru při určování diagnóz. Lze využít také při předpovídání trendů.

Literatura

  1. KOPÁČKOVÁ, Hana. Podpora manažerského rozhodování s využitím strojového učení : (výsledná publikace z grantu GAČR 402/05/P155). Pardubice : Univerzita Pardubice, 2007. 74 s. ISBN 978-80-7395-031-6.
  2. SAS [online]. 2009-09-15 [cit. 2010-12-23]. Introduction to Text Mining and SAS Text Miner 4.1. Dostupné z WWW: <http://support.sas.com/documentation/cdl/en/tmgs/62416/HTML/default/p1vvxc2tdb3s79n1jigfqwhjguiy.htm>.
  3. SKLENÁK, Vilém Vyhledávání informací v prostředí webu – mírný pokrok v mezích zákona. In Automatizace knihovnických procesů – 10 : sborník z 10. ročníku semináře pořádaného ve dnech 3.–4. května 2005 v Liberci. Praha : ČVUT, 2005. s. 6. Dostupné z WWW: <http://www.akvs.cz/akp-2005/10-sklenak.pdf>. ISBN 80-01-03228-0.
  4. SEDLÁČEK, Petr. Faculty of Informatics MU [online]. 2003 [cit. 2010-12-27]. Text mining a jeho možnosti (aplikace). Dostupné z WWW: <http://www.fi.muni.cz/usr/jkucera/pv109/2003p/xsedlac5.htm>.
  5. StatSoft [online]. c2010 [cit. 2010-12-11]. Text mining. Dostupné z WWW: <http://www.statsoft.com/textbook/text-mining/>.
  6. Toolbox.com [online]. 29.1.2009 [cit. 2010-12-11]. Text mining. Dostupné z WWW: <http://it.toolbox.com/wiki/index.php/Text_Mining>.