Bibliomining
Závěrečná práce Iva Zadražilová 18:18, 16. 4. 2008 (CEST)
Bibliomining
Základní charakteristiky
Bibliomining je poměrně nová disciplína, spjatá s oborem knihovnictví. Vznikla nedávno z potřeby využívaní dat z databází, které shromažďují a spravují knihovny. Svůj původ má bibliomining v oboru zvaném data mining a může být definován jako aplikace data miningu v knihovnách.
Data mining
Data mining je metoda nebo spíše metodologie, která nám umožňuje získávat užitečné informace, které jsou skryté ve velkých objemech dat. V překladu se tedy jedná o určité „dolování dat“, o analytické získávání předem neznámých informací z různých databází. Data mining soustřeďuje mnoho různých postupů a algoritmů, které umožní odhalit a plně využít vztahy ukryté v datech. Díky výkonným analytickým metodám je možné objevit důležité informace. Metoda data miningu funguje na předpokladu, že určité informace jsou mezi sebou spojené mnoha různorodými vazbami, z nichž některé nejsou na první pohled viditelné a přitom jsou velmi přínosné. Aplikace data miningu předpokládá použití různých sofistikovaných metod a nástrojů – ať už statistických, predikativních nebo analytických.
Metoda data miningu se používá např. v oblastech bankovnictví, ekonomické sféře, průmyslu a informace získané touto metodou jsou mimo jiné ceněnou konkurenční výhodou. Je velmi zajímavým faktem, že často se před začátkem celého procesu vlastně ani nemusí vědět, jaké informace vlastně hledáme. Necháma data, aby nám sama ukázala, co je v nich skryto důležitého a zajímavého.
Více na http://cs.wikipedia.org/wiki/Data_mining
Bibliomining
Definice bibliominingu dle jednoho z jeho zakladatelů Scotta Nicholsona je následovná: "Bibliomining is the combination of data mining, bibliometrics, statistics, and reporting tools used to extract patterns of behavior-based artifacts from library systems"
Bibliomining lze tedy chápat jako kombinaci data miningových technik, bibliometrie, statistiky a nástrojů pro podávání zpráv určených pro získání schématu porozumění optimálního fungování knihoven a jejich služeb.
Knihovní katalog /OPAC/ sám o sobě je určitou databází, ve které se shromažďují data. Jsou to data o knihovním fondu, výpůjčkách, vrácených knihách, rezervacích, prodloužených publikacích, údaje o čtenářích, vyhledávání apod. Některá z těchto dat se dají získat snadno, jiná, zajímavá, data by šla „vydolovat“ právě pomocí bibliominingu.
KDD a postupy při bibliominingu
Bibliomining také souvisí s metodou zvanou Knowledge Discovery in Databases (KDD).
více na http://www.aaai.org/aitopics/assets/PDF/AIMag17-03-2-article.pdf
Jedná se o disciplínu získávání znalostí z databází, jejíž fáze a postupy se dají aplikovat na bibliomining:
1. První krok určuje obsah projektu. Existují dva druhu bibliominignu /BM/ – prediktivní a deskriptivní. Prediktivní BM může používat predikci, kdy předpokládáme, že pokud se data v minulosti chovala podle nějakého vzoru, budou se podle tohoto vzoru chovat i nadále. Prediktivní BM také může předpokládat současnou událost, kterou je obtížné zjistit jen z malé skupiny vzorků nebo nebo provedených minulých zjištění. Deskriptivní BM vyhledává a popisuje současné situace.
2. Vytvoření datového skladu – jedná se o stanovení datových zdrojů. Určitá data jsou extrahována z příslušných systémů a jednoduše kombinována. S daty se nadále pracuje, jsou “vyčištěna“ a chybějící údaje jsou doplněny. Tento krok zabírá cca 80% celého procesu, nicméně závěrečné výsledky silně závisí právě na úspěšném splnění tohoto kroku.
3. Doladění dat – v tomto bodě se vybírají vhodné proměnné. Nové proměnné jako např. poměry nebo klasifikace, mohou být vytvořeny z originálních proměnných.
4. Prozkoumání dat – zde dochází ke skutečnému bibliominingu. Podle druhu dosažených výsledků a typu dat jsou použity různé techniky a procesy pro objevení nových a funkčních vzorců, se kterými je možné nadále pracovat.
5. Evaluování výsledků – vzorce, které byly zjištěny, by měly knihovníkovi dávat smysl. Pokud se vzorce zdají být překvapující nebo jsou v protikladu, je možné, že pravděpodobně obsahují chybu v datech. Pokud se to stane, měl by se knihovník podívat nebo vrátit k výchozím záznamům a zjistit, proč a jak chybný vzorce vznikl. Pokud byl v úvodu vytvořen prediktivní model, může být nyní použit pro ověření hodnověrnosti a správnosti celého modelu.
6. Zpráva a implementace – pokud byly použity správné prediktivní modely, přichází chvíle jejich implementace. Pokud je potřeba, mohou být užity na malém vzorku reálných dat, čímž snadno otestujeme výkonnost celého modelu předtím, než se spustí v plnohodnotné verzi. Následně je vytvořena zpráva, která se prezentuje ostatním zaměstnancům.
Shrnutí postupu
Postupujeme tedy na základě následujícího procesu:
- Porozumění problému
- Vyhledání a příprava dat pro analýzu
- Vytváření statistických a operačních modelů spolu se samotným hledáním informací
- Uvedení získaných poznatků do praxe
- Zajištění prezentace a zpětné vazby.
Datový sklad
Důležitou součástí metody bibliominingu je vytvoření datového skladu. Jedná se vlastně o archivaci důležitých dat, která jsou vybrána s ohledem na následné hledání za pomoci využití jednodušších vzorců. Data jsou sjednocována a uchovávána v tzv. institucionální paměti knihovny. Datový sklad je interní databáze knihovny, ve které jsou spravována předem vybraná a očištěná data. Datový sklad se následně může využít pro bibliomining, kdy lze jeho pomocí odhalit informacní potřeby a informační chování uživatelů. Data v datovém skladu je také možné uchovávat pro další použití.
Cíle data a bibilominingu
Výsledkem data miningu by měla být zjištěna nová srozumitelná data, která by měla být prezentována co nejpřístupnější formou koncovému uživateli.
Bibliomining v kombinaci s datovým skladem umožní managemetu knihovny mít k dispozici rozsáhlé zdroje různých informací, díky kterým mohou nastavit rozhodovací a řídící systém co nejefektivněji. Současně bibliominig přináší možnost dostat se k datům, která mohou být rozhodující a přínosná pro správný chod knihovny.
Použitá literatura
http://www.bibliomining.com/bibproc.html
http://is.muni.cz/th/108801/ff_b/Bakalarka_prace_Soskova.pdf
http://www.snk.sk/swift_data/source/casopis_kniznica/2007/november-december/21.pdf