Text Mining: Porovnání verzí
| Řádek 28: | Řádek 28: | ||
'''Kategorizace''' - zařazení dokumentů do předem definovaných tříd. Každý text může být v několika, jedné nebo žádné třídě. Třídy jsou děleny například podle autora, názvu, klíčového slova, tématu atp. | '''Kategorizace''' - zařazení dokumentů do předem definovaných tříd. Každý text může být v několika, jedné nebo žádné třídě. Třídy jsou děleny například podle autora, názvu, klíčového slova, tématu atp. | ||
| − | '''Shlukování''' - je automatická činnost, sloužící ke sloučení objektů do shluků, které si jsou podobné podle zadaných parametrů. Cílem je, aby si jednotky uvnitř shluků (clusterů) byly co nejvíce podobné a přitom zároveň shluky a jednotky patřící do různých shluků, byly podobné co nejméně. | + | '''Shlukování''' - je automatická činnost, sloužící ke sloučení objektů do shluků, které si jsou podobné podle zadaných parametrů. Cílem je, aby si jednotky uvnitř shluků (clusterů) byly co nejvíce podobné a přitom zároveň si shluky a jednotky patřící do různých shluků, byly podobné co nejméně. |
'''Extrakce informací''' - cílem je automaticky získat strukturované informace z daného dokumentu. | '''Extrakce informací''' - cílem je automaticky získat strukturované informace z daného dokumentu. | ||
Verze z 28. 12. 2010, 09:01
Autor: Kateřina Hořínková
Klíčová slova: informace, databáze, vyhledávání informací
Synonyma: ---
Související pojmy: data mining, web mining
nadřazené - ---
podřazené - ---
Text mining - výklad pojmu
Možno přeložit jako "dolování v textech" Text mining je proces hledání, shromažďování a odvozování velmi užitečného materiálu z textových zdrojů. To znamená nastavování vzorů v textových souborech, odvozování pravidel vzorů, jejich aplikace na text a extrakce výstupu ve formě smysluplných informací. [6]
Text mining je dobývání znalostí z textů. Je to proces získávání skrytých faktů, z nestrukturovaných či semistrukturovaných (textových) databází.
Může být obšírně definován jako znalostně-intenzivní proces, ve kterém uživatel vzájemně působí v průběhu času za pomoci souboru analytických nástrojů se sbírkou dokumentů. Někdy může být alternativně nazýván data miningem. Rozdíl mezi data miningem a text miningem je ten, že v text miningu vychází vzory z přirozeného jazyka textu, spíše než ze strukturovaných databází faktů.
Úlohy text miningu
Nejdůležitější úlohy text miningu:
Kategorizace - zařazení dokumentů do předem definovaných tříd. Každý text může být v několika, jedné nebo žádné třídě. Třídy jsou děleny například podle autora, názvu, klíčového slova, tématu atp.
Shlukování - je automatická činnost, sloužící ke sloučení objektů do shluků, které si jsou podobné podle zadaných parametrů. Cílem je, aby si jednotky uvnitř shluků (clusterů) byly co nejvíce podobné a přitom zároveň si shluky a jednotky patřící do různých shluků, byly podobné co nejméně.
Extrakce informací - cílem je automaticky získat strukturované informace z daného dokumentu.
Sumarizace - shrnutí obsahu textu. "Umožňuje uživateli v krátkém čase porozumět obsahu daného dokumentu."[1]
Typické využití
Analýza odpovědí z otevřeného průzkumu – V dotaznících není neobvyklé použití tzv. “otevřených” otázek. Smyslem je dát respondentu prostor k vyjádření jeho pohledu nebo názoru bez omezení určitých hranic nebo určitého formátu odpovědi. Díky tomu můžeme získat náhled na zákazníkovy pohledy a názory, které by nám jinak zůstaly utajeny (v případě použití odborníky navrženého strukturovaného dotazníku). Například můžeme objevit určitý soubor slov nebo termínů, používaných běžne respondenty při popisu plusů a záporů produktu nebo služby.
Automatické zpracování zpráv, emailů apod. – další běžná aplikace text miningu je pomoci s automatickým tříděním textů. Například, je možné vyfiltrovat automaticky nechtěnou poštu (“junk mail”), na základě určitých termínů nebo slov, která se v běžných legitimních zprávách nevyskytují. Takto jsou takové nevyžádané zprávy automaticky odstraněny. Tyto automatické systémy mohou také být použity i tam, kde je třeba zprávy přesměrovat na nejpravděpodobněji odpovídající oddělení nebo agenturu (např. email se stížností nebo požadavkem na městský úřad). Zároveň jsou emaily kontrolovány, zda neobsahují nevhodné nebo obscéní výrazy, tyto pak jsou automaticky navráceny odesílateli s požadavkem na odstranění těchto nevhodných výrazů.
Analýza záruky nebo pojistných škod, vstupních pohovorů atp. - v některých komerčních sférách je většina informací sbírána otevřenou textovou formou. Například požadavky na záruku, hlášení pojistných škod, vstupní lékařské prohlídky. Tyto mohou být shrnuty do krátkých vyprávění. Tyto poznámky jsou elektronicky zpracovávány, takže tato “vyprávění” jsou pak kdykoliv k dispozici pro aplikaci algoritmů text miningu. Tyto informace mohou být užitečně využity například, k identifikaci běžných shluků problémů nebo stížností na určité automobily atp. Nápodobně v lékařském oboru, pacientův popis příznaků nám může přinést užitečná vodítka vedoucí ke konečné diagnóze.
Zkoumání konkurence - "crawling"(procházení)webových stránek konkurence – další typ potenciálně velmi užitecného využití text miningu je automatické zpracovávání obsahu webových stránek na určitých doménách. Například můžeme jít na webovou stránku a prozkoumávat odkazy, které zde najdeme a prozkoumat všechny webové stránky, které zde jsou uvedeny. Takto bysme mohli automaticky odvodit seznam pojmů a dokumentů, které jsou na dané stránce k dispozici a tím pádem rychle určit nejdůležitější pojmy a popisované funkce. Tímto způsobem můžeme velmi efektivně získat důležité obchodní informace o aktivitách našich konkurentů. [5]
Literatura
- KOPÁČKOVÁ, Hana. Podpora manažerského rozhodování s využitím strojového učení : (výsledná publikace z grantu GAČR 402/05/P155). Pardubice : Univerzita Pardubice, 2007. 74 s. ISBN 978-80-7395-031-6.
- SAS [online]. 2009-09-15 [cit. 2010-12-23]. Introduction to Text Mining and SAS Text Miner 4.1. Dostupné z WWW: <http://support.sas.com/documentation/cdl/en/tmgs/62416/HTML/default/p1vvxc2tdb3s79n1jigfqwhjguiy.htm>.
- SKLENÁK, Vilém Vyhledávání informací v prostředí webu – mírný pokrok v mezích zákona. In Automatizace knihovnických procesů – 10 : sborník z 10. ročníku semináře pořádaného ve dnech 3.–4. května 2005 v Liberci. Praha : ČVUT, 2005. s. 6. Dostupné z WWW: <http://www.akvs.cz/akp-2005/10-sklenak.pdf>. ISBN 80-01-03228-0.
- SEDLÁČEK, Petr. Faculty of Informatics MU [online]. 2003 [cit. 2010-12-27]. Text mining a jeho možnosti (aplikace). Dostupné z WWW: <http://www.fi.muni.cz/usr/jkucera/pv109/2003p/xsedlac5.htm>.
- StatSoft [online]. c2010 [cit. 2010-12-11]. Text mining. Dostupné z WWW: <http://www.statsoft.com/textbook/text-mining/>.
- Toolbox.com [online]. 29.1.2009 [cit. 2010-12-11]. Text mining. Dostupné z WWW: <http://it.toolbox.com/wiki/index.php/Text_Mining>.