Bibliomining
Závěrečná práce
Iva Zadražilová 18:18, 16. 4. 2008 (CEST)
Bibliomining
Základní charakteristiky
Bibliomining je poměrně nová disciplína, spjatá s oborem knihovnictví. Vznikla nedávno z potřeby využívaní dat z databází, které shromažďují a spravují knihovny. Svůj původ má bibliomining v oboru zvaném data mining a může být definován jako aplikace data miningu v knihovnách.
Data mining
Data mining je metoda nebo spíše metodologie, která nám umožňuje získávat užitečné informace, které jsou skryté ve velkých objemech dat. V překladu se tedy jedná o určité „dolování dat“, o analytické získávání předem neznámých informací z různých databází. Data mining soustřeďuje mnoho různých postupů a algoritmů, které umožní odhalit a plně využít vztahy ukryté v datech. Díky výkonným analytickým metodám je možné objevit důležité informace. Metoda data miningu funguje na předpokladu, že určité informace jsou mezi sebou spojené mnoha různorodými vazbami, z nichž některé nejsou na první pohled viditelné a přitom jsou velmi přínosné. Aplikace data miningu předpokládá použití různých sofistikovaných metod a nástrojů – ať už statistických, predikativních nebo analytických.
Metoda data miningu se používá např. v oblastech bankovnictví, ekonomické sféře, průmyslu a informace získané touto metodou jsou mimo jiné ceněnou konkurenční výhodou. Je velmi zajímavým faktem, že často se před začátkem celého procesu vlastně ani nemusí vědět, jaké informace vlastně hledáme. Necháma data, aby nám sama ukázala, co je v nich skryto důležitého a zajímavého.
Více na http://cs.wikipedia.org/wiki/Data_mining
Bibliomining
Definice bibliominingu dle jednoho z jeho zakladatelů Scotta Nicholsona je následovná: "Bibliomining is the combination of data mining, bibliometrics, statistics, and reporting tools used to extract patterns of behavior-based artifacts from library systems"
Bibliomining lze tedy chápat jako kombinaci data miningových technik, bibliometrie, statistiky a nástrojů pro podávání zpráv určených pro získání schématu porozumění optimálního fungování knihoven a jejich služeb.
Knihovní katalog /OPAC/ sám o sobě je určitou databází, ve které se shromažďují data. Jsou to data o knihovním fondu, výpůjčkách, vrácených knihách, rezervacích, prodloužených publikacích, údaje o čtenářích, vyhledávání apod. Některá z těchto dat se dají získat snadno, jiná, zajímavá, data by šla „vydolovat“ právě pomocí bibliominingu.
KDD a postupy při bibliominingu
Bibliomining také souvisí s metodou zvanou Knowledge Discovery in Databases (KDD).
více na http://www.aaai.org/aitopics/assets/PDF/AIMag17-03-2-article.pdf
Jedná se o disciplínu získávání znalostí z databází, jejíž fáze a postupy se dají aplikovat na bibliomining:
1. První krok určuje obsah projektu. Existují dva druhu bibliominignu /BM/ – prediktivní a deskriptivní. Prediktivní BM může používat predikci, kdy předpokládáme, že pokud se data v minulosti chovala podle nějakého vzoru, budou se podle tohoto vzoru chovat i nadále. Prediktivní BM také může předpokládat současnou událost, kterou je obtížné zjistit jen z malé skupiny vzorků nebo nebo provedených minulých zjištění. Deskriptivní BM vyhledává a popisuje současné situace.
2. Vytvoření datového skladu – jedná se o stanovení datových zdrojů. Určitá data jsou extrahována z příslušných systémů a jednoduše kombinována. S daty se nadále pracuje, jsou “vyčištěna“ a chybějící údaje jsou doplněny. Tento krok zabírá cca 80% celého procesu, nicméně závěrečné výsledky silně závisí právě na úspěšném splnění tohoto kroku.
3. Doladění dat – v tomto bodě se vybírají vhodné proměnné. Nové proměnné jako např. poměry nebo klasifikace, mohou být vytvořeny z originálních proměnných.
4. Prozkoumání dat – zde dochází ke skutečnému bibliominingu. Podle druhu dosažených výsledků a typu dat jsou použity různé techniky a procesy pro objevení nových a funkčních vzorců, se kterými je možné nadále pracovat.
5. Evaluování výsledků – vzorce, které byly zjištěny, by měly knihovníkovi dávat smysl. Pokud se vzorce zdají být překvapující nebo jsou v protikladu, je možné, že pravděpodobně obsahují chybu v datech. Pokud se to stane, měl by se knihovník podívat nebo vrátit k výchozím záznamům a zjistit, proč a jak chybný vzorce vznikl. Pokud byl v úvodu vytvořen prediktivní model, může být nyní použit pro ověření hodnověrnosti a správnosti celého modelu.
6. Zpráva a implementace – pokud byly použity správné prediktivní modely, přichází chvíle jejich implementace. Pokud je potřeba, mohou být užity na malém vzorku reálných dat, čímž snadno otestujeme výkonnost celého modelu předtím, než se spustí v plnohodnotné verzi. Následně je vytvořena zpráva, která se prezentuje ostatním zaměstnancům.
Shrnutí postupu
Postupujeme tedy na základě následujícího procesu:
- Porozumění problému
- Vyhledání a příprava dat pro analýzu
- Vytváření statistických a operačních modelů spolu se samotným hledáním informací
- Uvedení získaných poznatků do praxe
- Zajištění prezentace a zpětné vazby.
Datový sklad
Důležitou součástí metody bibliominingu je vytvoření datového skladu. Jedná se vlastně o archivaci důležitých dat, která jsou vybrána s ohledem na následné hledání za pomoci využití jednodušších vzorců. Data jsou sjednocována a uchovávána v tzv. institucionální paměti knihovny. Datový sklad je interní databáze knihovny, ve které jsou spravována předem vybraná a očištěná data. Datový sklad se následně může využít pro bibliomining, kdy lze jeho pomocí odhalit informacní potřeby a informační chování uživatelů. Data v datovém skladu je také možné uchovávat pro další použití.
Cíle data a bibilominingu
Výsledkem data miningu by měla být zjištěna nová srozumitelná data, která by měla být prezentována co nejpřístupnější formou koncovému uživateli.
Bibliomining v kombinaci s datovým skladem umožní managemetu knihovny mít k dispozici rozsáhlé zdroje různých informací, díky kterým mohou nastavit rozhodovací a řídící systém co nejefektivněji. Současně bibliominig přináší možnost dostat se k datům, která mohou být rozhodující a přínosná pro správný chod knihovny.
Použitá literatura
- NICHOLSON, Scott. The Bibliomining Process. Bibliomining : data mining for libraries. Dostupné na WWW : http://web.archive.org/web/20080604171451/http://www.bibliomining.com/bibproc.html - Nicholson zde v 6 krocích popisuje proces bibliominingu.
- SOŠKOVÁ, Michala. Analýza a vyhodnocení činností uživatelů souborného on-line katalogu Masarykovy univerzity. Brno: Masarykova univerzita, Flozofická fakulta, Ústav české literatury a knihovnictví, kabinet knihovnictví, 2006. 58 s. Vedoucí diplomové práce Dr. Ing. Zdeněk Kadlec. Dostupné na WWW : http://is.muni.cz/th/108801/ff_b/Bakalarka_prace_Soskova.pdf - Diplomová práce se zabývá významem získávání znalostí z databází v organizacích, konkrétně pak v knihovnách. Zpracováním dat ze svých databází získá organizace další zdroj informací o svých uživatelích, o situaci na trhu a také o sobě samotné. Odnož metody získávání znalostí z databází bibliomining implementuje postupy klasického získávání znalostí do oblasti knihoven.
- SEDLÁČKOVÁ, Beata. Data mining a jeho uplatnění při poznávání knihovnických jevů a zákonitostí. Knižnica, roč. 8, 2007, č. 11-12, s. 21-22. ISSN 1335-7026; ISSN 1336-0965. Dostupné na WWW: http://www.snk.sk/swift_data/source/casopis_kniznica/2007/november-december/21.pdf - Příspěvek v časopisu Knižnica zmiňuje data mining jako nový nástroj zpracování a využívání informací a sleduje možnosti aplikace v knihovnicko- informační oblasti.
Další literatura k tématu
- NICHOLSON, Scott. Introduction to the Bibliomining Process. The Graduate School of Library and Information Science - University of Illinois at Urbana-Champaign. 2005. [cit. 2010-06-18]. Dostupné na WWW: http://groups.lis.illinois.edu/guest_lectures/bibliomining/img0.html - Prezentace k workshopu Scotta Nicholsona, který proběhl v rámci akce „Bibliomining across North America“. Workshop má pomoci porozumět: procesu bibliominingu (včetně skladování dat, data miningu a bibliometrie), roli procesu bibliominingu v knihovnickém měření a evaluaci nebo tomu, že data související s knihovními službami jsou prospěšné při rozhodování. Textová verze prezentace je přístupná zde: http://metadata-wg.mannlib.cornell.edu/forum/2005-05-06/nicholson.pdf . Zvukový záznam zde: http://waterfall.lis.illinois.edu/dl/classes/auditorium/lis000mar04_05.ram
- Scott Nicholson - Full Text Research and Scholarly Articles and Preprints. Bibliomining Bibliography (data mining in libraries). Scott Nicholson - Library science , data mining . 2006. [cit. 2010-06-18]. Dostupné na WWW : http://bibliomining.com/nicholson - články Scotta Nicholsona nejen o bibliominingu, ale i o dalších příbuzných tématech. Aktuální dění okolo Nicholsona v jeho osobním blogu (http://snicholson.livejournal.com)
- Data Mining Community's Top Resource. © 2010. [cit. 2010-06-18]. Dostupné na WWW : http://www.kdnuggets.com – Portál komunity zabývající se problematikou data miningu. Naleznete zde články, blogy k tématu, stejně jako nabídky kurzů a zaměstnání. Knihovny na stránce „Software: Libraries and Development Kits for Data Mining (Dostupné na WWW: http://www.kdnuggets.com/software/libraries.html ) naleznou software, který mohou v této oblasti využít.
- ZILLMAN, Marcus - Data Mining and Web Extraction Resources On the Internet. Virtual Private Library. 2008. [cit. 2010-06-18]. Dostupné na WWW : http://columns.virtualprivatelibrary.net/Data_Mining_Extraction_Apr08_Column.pdf - Marcus Zillman v tomto dokumentu předkládá odkazy na nepřeberné množství zdrojů týkající se bibliomingu, data miningu, web miningu aj.
- Bibliomining. Wikipedia, the free encyclopedia [online]. 2009. [cit. 2010-06-18]. Dostupné na WWW : http://en.wikipedia.org/wiki/Bibliomining - heslo z Wikipedie se základními informacemi
- CHAPPLE, Mike. Data Mining: An Introduction. About.com : Databases. ©2010. [cit. 2010-06-18]. Dostupné na WWW : http://databases.about.com/od/datamining/a/datamining.htm - Článek se zabývá základními věcmi o data miningu a spíš ujasňuje, co všechno se data miningu může týkat (data mining v obchodě, produkty data miningu, shromaždování dat). Na závěr přidává odkazy na další stránky s definicemi, recenzemi aj.
- SMITH, Gen. Is There Data Mining for Libraries? SirsiDynix OneSource. Vol. 1 (2005), is. 4. [cit. 2010-06-18]. Dostupné na WWW : http://www.imakenews.com/sirsi/e_article000487817.cfm?x=b11,0,w – Autor se v článku nezabývá data miningem v knihovnách obecně, ale zabývá se problémem, jak získat informace.
- LALUHOVÁ, Katarína. Bibliomining – data mining pre knižnice. In ITlib : Informačné technológie a knižnice. 2007, č. 4. ISSN 1336-0779. [cit. 2010-06-18]. Dostupné na WWW : http://www.cvtisr.sk/itlib/itlib074/laluhova.htm - Článek K. Laluhové podává výklad základních termínů týkající se bibliominingu.
- PRAKASH, K; CHAND, Prem; GOHEL, Umesh. Application of Data Mining in Library and Information Services. s. 168-177. [cit. 2010-06-18]. Dostupné na WWW : http://iam.inflibnet.ac.in:8080/dxml/bitstream/handle/1944/435/04Planner_22.pdf?sequence=1 – Autoři se vedle výkladu základních termínů zabývají také otázkami jako důvody vzrůstající popularity data miningu, jaké je požadovaná informační infrastruktur, jak pracovat s data miningem. Hovoří o aplikací data miningu obecně i se soustředí na aplikace pro knihovnictví. Autoři vychází i z článku Jasona Franda Data Mining: What is Data Mining?, kde uvádí též základné formace (Dostupné na WWW: http://www.anderson.ucla.edu/faculty/jason.frand/teacher/technologies/palace/datamining.htm )
- K-State Laboratory for Knowledge Discovery in Databases (KDD). 1999. [cit. 2010-06-18]. Dostupné na WWW : http://www.kddresearch.org/ - Stránky laboratoře zabývající se problematikou dobývání znalostí z databází. Nalezneme zde informace o práci laboratoře, dostaneme se také do veřejné části wiki, kde jsou k dispozici publikace pracovníků, články a konference k tématu.
- FAYYAD, Usama; PIATETSKY-SHAPIRO, Gregory; SMYTH ,Padhraic. From Data Mining to Knowledge Discovery in Databases. AI Magazine, vol. 17, 1996, no. 3, s. 37-54. [cit. 2010-06-18]. Dostupné z WWW: http://www.aaai.org/ojs/index.php/aimagazine/article/view/1230/1131 – Článek se vztahem data miningu a dobývání znalostí z databází. Pokládá otázky, proč potřebujeme dobývání znalostí z databází. Stejně jako problematikou data mining a dobývání znalostí v reálném světě či procesy problematikou data mining a dobývání znalostí.
- ŘÍMANOVÁ, Radka. Bibliomining - dobývání znalostí z knihovních databází a systémů. Prezentace k přednášce ze dne 3. 11. 2008. [cit. 2010-06-18]. Dostupné na WWW : http://uisk.ff.cuni.cz/detail.do?articleId=6569 - Přednáška Radky Římanové, která proběhla v rámci Jinonických informačních pondělků, provází jednotlivými kroky bibliomining procesu. V druhé části přednášky uvádí příklady využití bibliominingu v praxi - vzdálený přístup do databází elektronických časopisů. Dalšími příklady je bibliomining a OPAC - význam názvu nakladatele bibliomining a OPAC: porovnání dotazníku a bibliominingu z KIS Aleph. Přidává i zkušenosti z Tchaj-wanu. Zároveň uvádí odkazy na další literaturu.
- Data Mining Software | Guide to Data Mining Software. © 2005. [cit. 2010-06-18]. Dostupné na WWW : http://www.data-mining-guide.net - Bohužel neaktualizovaný portál nám může být užitečný jako výchozí bod hledání firem zabývající se data miningem.
- Data mining - MSPS.cz. MSPS: Matematika a statistika, Matematické a Statistické Projekty a Software, © 2008. [cit. 2010-06-18]. Dostupné na WWW : http://www.msps.cz/data-mining - informace o data miningu na stránkách firmy MSPS, která má jako jednu službu statistickým zpracováním a vyhledáváním souvislostí ve velkých datových souborech využitím metod dataminingu. Vyhodnocují například návratnosti kampaní či analyzují zákaznické databáze.
- Data mining, Analýzy dat, Marketingové analýzy - Data Mind s.r.o. 2009. [cit. 2010-06-18]. Dostupné na WWW : http://www.datamind.cz - Firma Data Mind s.r.o. provádí data mining a marketingové analýzy, zpracování dat. Poskytuje řešení otázek spojených s CRM, obsluhou zákazníka. Na stránce nalezneme též blog o tomto tématu (Dostupné z WWW: http://blog.datamind.cz).
- VOJNAR, Martin. Čtenářský katalog a zpětná vazba. Knihovny současnosti 2007. [cit. 2010-06-18]. Dostupné na WWW : http://www.sdruk.cz/sec/2007/b3/12_vojnar_bibliomining.pdf - Autor se v přednášce na čtenářský katalog se díval očima uživatele – ten by do knihovny nejraději vůbec nešel. Při získávání zpětné vazby je možné využít právě bibliomining – data mining aplikovaný na data uchovávaná v knihovnách. Při vyhledávání v katalogu je např. užitečná nejenom informace o tom, co uživatelé našli, ale také o tom, co nenašli.
- Zpětná vazba aneb děláme to dobře? CASLIN 2006. Český ráj, 11. – 15. 6. 2006, Česká republika. [cit. 2010-06-18]. Dostupné na WWW : http://www.lib.cas.cz/caslin-2006/ - Mezinárodní seminář Caslin měl v roce 2006 za téma sledování efektivnosti provedených investic a míru dosažení očekávaného výsledku, což přímo souvisí s data miningem. Zpráva z konference na Ikarosu : http://www.ikaros.cz/zprava-ze-seminare-caslin-2006
- Data Mining. [cit. 2010-06-18]. Dostupné na WWW : http://datamining.xf.cz/index.php - Bohužel další neaktualizovaný portál, který měl velký potenciál. Může sloužit pro ty, kteří chtějí základní termíny data miningu v češtině (členění data miningových úloh, rozhodovací stromy či vizualizační metody).
- PROCHÁZKA, Pavel. Techniky dobývání znalostí z databází. Sborník prací mezinárodní vědecké konference Agrární perspektivy XIII. Praha : Česká zemědělská univerzita v Praze, 2004, s. 519-521. [cit. 2010-06-18]. Dostupné na WWW : http://www.agris.cz/etc/textforwarder.php?iType=2&iId=139278&PHPSESSID=71 – Příspěvek uvádí základní informace o procesu dobývání znalostí z databází. Popisuje metody – neuronové sítě, fuzzy systémy. Na závěr uvádí krátký výhled do budoucna.
- BERKA, Petr. Dobývání znalostí z databází. Praha, Academia 2003. 366 s., 195 obr. ISBN 80-200-1062-9. [cit. 2010-06-18]. Dostupné na WWW : http://sorry.vse.cz/~berka/docs/izi456/ (dokumetny začínající "kap_) - Publikace podává základní informace o databázových systémech a o jejich principech, především o procesu dobývání znalostí, pojednává i o dobývání znalostí z textů a webových stránek. Je určena především vysokoškolským studentům a učitelům, odborníkům z praxe, programátorům a tvůrcům databázových informačních systémů a všem, kdo se zabývají informatikou a analýzou dat. Rececenze knihy: http://www.automatizace.cz/article.php?a=1715)
Zpracovala: Eva Husáková