Proces bibiominingu: Porovnání verzí
Z WikiKnihovna
| (Není zobrazeno 27 mezilehlých verzí od stejného uživatele.) | |||
| Řádek 6: | Řádek 6: | ||
* Co chceme zjistit, cíl projektu | * Co chceme zjistit, cíl projektu | ||
| − | * Prediktivní metoda - předvídá budoucí hodnoty na základě zjištěných vlastností stávajících | + | * Prediktivní metoda - předvídá budoucí hodnoty na základě zjištěných vlastností stávajících, podle předpokladu, že data se chovala určitým způsobem v minulosti a budou se tak chovat i dál<ref name="ZADRAŽILOVÁ"> ZADRAŽILOVÁ, Iva. Bibliomining. In: Wiki knihovna.cz [online]. 2008 [cit. 2015-02-04]. Dostupné z: <http://wiki.knihovna.cz/index.php/Bibliomining></ref> |
| − | * Popisná metoda - přesné informace o současném stavu | + | * Popisná metoda - přesné informace o současném stavu<ref name="ŘÍMANOVÁ"> ŘÍMANOVÁ, Radka. Bibliomining. In: ÚISK: Ústav informačních studií a knihovnictví [online]. 2008 [cit. 2015-02-02]. Dostupné z: <http://uisk.ff.cuni.cz/detail.do?articleId=6569></ref><br /> |
| − | <ref name=" ŘÍMANOVÁ "> ŘÍMANOVÁ, Radka. Bibliomining. In: ÚISK: Ústav informačních studií a knihovnictví [online]. 2008 [cit. 2015-02-02]. Dostupné z: <http://uisk.ff.cuni.cz/detail.do?articleId=6569></ref><br /> | ||
| Řádek 14: | Řádek 13: | ||
| + | * databáze = datová báze (datová základna)je soubor dat, které mezi sebou mají logické vazby. Tím je umožněno s těmito daty efektivně pracovat (vyhledávat v nich, modifikovat je, udržovat tato data aktuální<ref name="JANOVSKÝ"> JANOVSKÝ, Dušan. Rejstřík pojmů (internetové pojmy) – Abecední. In: Absolut beginer on WWWeb [online]. 2003 [cit. 2015-02-04]. Dostupné z: <http://www.abowe.brbla.net/8/rejstrik.php></ref> | ||
* tradiční vyhledání vhodné množiny pro dat pro bibliomining <br /> | * tradiční vyhledání vhodné množiny pro dat pro bibliomining <br /> | ||
* identifikace datových zdrojů | * identifikace datových zdrojů | ||
* problém citlivé údaje – data o čtenářích a jejich údaje<ref name="KRČÁL"> KRČÁL, Martin. Bibliomining. In: IS: Informační systém Masarykovy Univerzity [online]. 2014 [cit. 2015-02-02]. Dostupné z: <https://is.muni.cz/auth/el/1421/podzim2014/VIKBA10/um/kss08-bibliomining.pdf></ref><br /> | * problém citlivé údaje – data o čtenářích a jejich údaje<ref name="KRČÁL"> KRČÁL, Martin. Bibliomining. In: IS: Informační systém Masarykovy Univerzity [online]. 2014 [cit. 2015-02-02]. Dostupné z: <https://is.muni.cz/auth/el/1421/podzim2014/VIKBA10/um/kss08-bibliomining.pdf></ref><br /> | ||
| − | |||
=='''3. datový sklad'''== | =='''3. datový sklad'''== | ||
| + | * datový sklad = Databáze zpracovávaná separátně od podnikové relační databáze, určená pro podporu v rozhodování – umožňuje zpracovávání informací díky velké platformě pevných historických dat pro analýzu<ref name="ŠČUGLÍK"> ŠČUGLÍK, František. Datové sklady a Technologie OLAP pro dolování dat. In: Vysoká učení technické v Brně [online]. 2014 [cit. 2015-02-04]. Dostupné z: <http://www.fit.vutbr.cz/study/courses/ZZD/public/seminar0203/DWandOLAP.pdf></ref> | ||
* nutností je zajištění ochrany dat | * nutností je zajištění ochrany dat | ||
| − | * data nejsou zpětně obnovitelná | + | * data o uživatelích nejsou zpětně obnovitelná |
| − | * čištění a příprava dat<br /> | + | * čištění a příprava dat |
| + | * interní data - data, která má knihovna k dispozici ve své vlastním systému | ||
| + | * externí data - data nemá knihovna přímo ve svém systému, ale je možné je určitým způsobem získat či odvodit<ref name="SOŠKOVÁ"> SOŠKOVÁ, Michaela. Analýza a vyhodnocení činností uživatelů souborného on-line katalogu Masarykovy univerzity. Brno, 2006. Dostupné z: <http://is.muni.cz/th/108801/ff_b/Bakalarka_prace_Soskova.txt>. Bakalářská diplomová práce. Masarykova Univerzita. Vedoucí práce Zdeněk Kadlec.</ref><br /> | ||
| Řádek 31: | Řádek 33: | ||
* zjištění vhodné analytické metody | * zjištění vhodné analytické metody | ||
| − | * | + | * mají data, která chceme analyzovat atributy, na kterých chceme stavět naši analýzu? |
| − | * správný software pro analýzu – např. SPSS, SAS <br /> | + | * k budoucí analýze mohou být vybrány klasické statistické metody, pokročilé metody KDD, mohou najít zákonitosti v souboru uživatelů, díky kterým mohou knihovníci lépe chápat své čtenáře |
| − | + | * správný software pro analýzu – např. SPSS, SAS (ale ty jsou na finanční možnosti knihoven pořád velmi drahé)<ref name="SOŠKOVÁ"> SOŠKOVÁ, Michaela. Analýza a vyhodnocení činností uživatelů souborného on-line katalogu Masarykovy univerzity. Brno, 2006. Dostupné z: <http://is.muni.cz/th/108801/ff_b/Bakalarka_prace_Soskova.txt>. Bakalářská diplomová práce. Masarykova Univerzita. Vedoucí práce Zdeněk Kadlec.</ref><br /> | |
=='''5. analýza dat a jejich ověření'''== | =='''5. analýza dat a jejich ověření'''== | ||
| + | * cílem je nalezení zvláštností statistického chování dat | ||
* časová náročnost | * časová náročnost | ||
| − | * ověřování modelů a výsledků | + | * ověřování modelů a výsledků pro statistické zpracování |
* Předložení výsledků odborníkům k posouzení | * Předložení výsledků odborníkům k posouzení | ||
*Příliš překvapivé výsledky → nedošlo k chybě? | *Příliš překvapivé výsledky → nedošlo k chybě? | ||
| Řádek 54: | Řádek 57: | ||
| − | ==''' | + | ==='''Výhody a nevýhody bibliominingu'''=== |
| + | |||
| + | |||
| + | * výhody - sledování trendů, analýza současného stavu, možnost porovnání s jinými institucemi | ||
| + | * nevýhody - zkreslování dat, problém při nevhodném výběru dat, zneužití dat<ref name="KRČÁL"> KRČÁL, Martin. Bibliomining. In: IS: Informační systém Masarykovy Univerzity [online]. 2014 [cit. 2015-02-02]. Dostupné z: <https://is.muni.cz/auth/el/1421/podzim2014/VIKBA10/um/kss08-bibliomining.pdf></ref><br /> | ||
| + | |||
| + | |||
| + | ==='''Uplatnění v praxi'''=== | ||
| + | |||
| + | |||
| + | * Data Driven Acquisition = řízená akvizice dle potřeb uživatelů | ||
| + | * podklady pro vedení při rozhodovacích procesech | ||
| + | * akvizice, přesuny do/z skladu, vyřazování, posunování regálů | ||
| + | * návštěvnost webu a jeho úprava<ref name="KRČÁL"> KRČÁL, Martin. Bibliomining. In: IS: Informační systém Masarykovy Univerzity [online]. 2014 [cit. 2015-02-02]. Dostupné z: <https://is.muni.cz/auth/el/1421/podzim2014/VIKBA10/um/kss08-bibliomining.pdf></ref><br /> | ||
| + | |||
| + | |||
| + | ==='''Datamining'''=== | ||
| + | |||
| + | |||
| + | * datamining = dolování dat | ||
| + | * je to soubor metod sloužících ke zpracování dat a získání netriviálních informací, které jsou v nich obsažené, není určen jen velkým firmám, protože se jedná o obecný soubor metod, kterými se dají zpracovávat různá data bez ohledu na obor a původ | ||
| + | * často se používá k optimalizaci výrobních procesů | ||
| + | * 6 kroků: pochopení problému, porozumění datům, příprava dat, modelování, hodnocení, nasazení<ref name="PROCHÁZKA"> PROCHÁZKA, Michal. Data mining: jiný pohled na problém. In: E15 VTM [online]. 2010 [cit. 2015-02-04]. Dostupné z: <http://vtm.e15.cz/aktuality/data-mining-jiny-pohled-na-problem></ref><br /> | ||
| + | |||
| + | =='''Odkazy'''== | ||
| − | <references/> | + | <references/> |
| − | <references/> | + | <references/> |
| + | <references/> | ||
| + | <references/> | ||
| + | <references/> | ||
| + | <references/> | ||
| + | <references/> | ||
Aktuální verze z 4. 2. 2015, 12:58
Jako bibliomining bývá označováno dolování dat z knihovnických databází a systémů – dříve neznámých a potenciálně užitečných. O dobývání znalostí se začíná mluvit v polovině 90. let. Umožňuje se tím rychlé aplikování znalostí do praxe. Využívá se zde statisticých metod.[1]
1. definice problému
- Co chceme zjistit, cíl projektu
- Prediktivní metoda - předvídá budoucí hodnoty na základě zjištěných vlastností stávajících, podle předpokladu, že data se chovala určitým způsobem v minulosti a budou se tak chovat i dál[2]
- Popisná metoda - přesné informace o současném stavu[1]
2. databáze
- databáze = datová báze (datová základna)je soubor dat, které mezi sebou mají logické vazby. Tím je umožněno s těmito daty efektivně pracovat (vyhledávat v nich, modifikovat je, udržovat tato data aktuální[3]
- tradiční vyhledání vhodné množiny pro dat pro bibliomining
- identifikace datových zdrojů
- problém citlivé údaje – data o čtenářích a jejich údaje[4]
3. datový sklad
- datový sklad = Databáze zpracovávaná separátně od podnikové relační databáze, určená pro podporu v rozhodování – umožňuje zpracovávání informací díky velké platformě pevných historických dat pro analýzu[5]
- nutností je zajištění ochrany dat
- data o uživatelích nejsou zpětně obnovitelná
- čištění a příprava dat
- interní data - data, která má knihovna k dispozici ve své vlastním systému
- externí data - data nemá knihovna přímo ve svém systému, ale je možné je určitým způsobem získat či odvodit[6]
4. výběr analytických prostředků
- zjištění vhodné analytické metody
- mají data, která chceme analyzovat atributy, na kterých chceme stavět naši analýzu?
- k budoucí analýze mohou být vybrány klasické statistické metody, pokročilé metody KDD, mohou najít zákonitosti v souboru uživatelů, díky kterým mohou knihovníci lépe chápat své čtenáře
- správný software pro analýzu – např. SPSS, SAS (ale ty jsou na finanční možnosti knihoven pořád velmi drahé)[6]
5. analýza dat a jejich ověření
- cílem je nalezení zvláštností statistického chování dat
- časová náročnost
- ověřování modelů a výsledků pro statistické zpracování
- Předložení výsledků odborníkům k posouzení
- Příliš překvapivé výsledky → nedošlo k chybě?
- Příliš překvapivé výsledky → zpět o několik kroků procesu[1]
6. prezentace výsledků
- dokumentace jednotlivých etap
- předložení zprávy veřejnosti
- Selhání bibliominingu – knihovníci přestávají spolupracovat při tvorbě dat nebo snaha o úpravu dat
- podpora sociálních vztahů s uživateli
Výhody a nevýhody bibliominingu
- výhody - sledování trendů, analýza současného stavu, možnost porovnání s jinými institucemi
- nevýhody - zkreslování dat, problém při nevhodném výběru dat, zneužití dat[4]
Uplatnění v praxi
- Data Driven Acquisition = řízená akvizice dle potřeb uživatelů
- podklady pro vedení při rozhodovacích procesech
- akvizice, přesuny do/z skladu, vyřazování, posunování regálů
- návštěvnost webu a jeho úprava[4]
Datamining
- datamining = dolování dat
- je to soubor metod sloužících ke zpracování dat a získání netriviálních informací, které jsou v nich obsažené, není určen jen velkým firmám, protože se jedná o obecný soubor metod, kterými se dají zpracovávat různá data bez ohledu na obor a původ
- často se používá k optimalizaci výrobních procesů
- 6 kroků: pochopení problému, porozumění datům, příprava dat, modelování, hodnocení, nasazení[7]
Odkazy
- ↑ 1,0 1,1 1,2 ŘÍMANOVÁ, Radka. Bibliomining. In: ÚISK: Ústav informačních studií a knihovnictví [online]. 2008 [cit. 2015-02-02]. Dostupné z: <http://uisk.ff.cuni.cz/detail.do?articleId=6569>
- ↑ ZADRAŽILOVÁ, Iva. Bibliomining. In: Wiki knihovna.cz [online]. 2008 [cit. 2015-02-04]. Dostupné z: <http://wiki.knihovna.cz/index.php/Bibliomining>
- ↑ JANOVSKÝ, Dušan. Rejstřík pojmů (internetové pojmy) – Abecední. In: Absolut beginer on WWWeb [online]. 2003 [cit. 2015-02-04]. Dostupné z: <http://www.abowe.brbla.net/8/rejstrik.php>
- ↑ 4,0 4,1 4,2 KRČÁL, Martin. Bibliomining. In: IS: Informační systém Masarykovy Univerzity [online]. 2014 [cit. 2015-02-02]. Dostupné z: <https://is.muni.cz/auth/el/1421/podzim2014/VIKBA10/um/kss08-bibliomining.pdf>
- ↑ ŠČUGLÍK, František. Datové sklady a Technologie OLAP pro dolování dat. In: Vysoká učení technické v Brně [online]. 2014 [cit. 2015-02-04]. Dostupné z: <http://www.fit.vutbr.cz/study/courses/ZZD/public/seminar0203/DWandOLAP.pdf>
- ↑ 6,0 6,1 SOŠKOVÁ, Michaela. Analýza a vyhodnocení činností uživatelů souborného on-line katalogu Masarykovy univerzity. Brno, 2006. Dostupné z: <http://is.muni.cz/th/108801/ff_b/Bakalarka_prace_Soskova.txt>. Bakalářská diplomová práce. Masarykova Univerzita. Vedoucí práce Zdeněk Kadlec.
- ↑ PROCHÁZKA, Michal. Data mining: jiný pohled na problém. In: E15 VTM [online]. 2010 [cit. 2015-02-04]. Dostupné z: <http://vtm.e15.cz/aktuality/data-mining-jiny-pohled-na-problem>