Proces bibiominingu: Porovnání verzí

Z WikiKnihovna
(Založena nová stránka: Jako bibliomining bývá označováno dolování dat z knihovnických databází a systémů – dříve neznámých a potenciálně užitečných. O dobývání znalostí...)
 
 
(Není zobrazeno 28 mezilehlých verzí od stejného uživatele.)
Řádek 1: Řádek 1:
Jako bibliomining bývá označováno dolování dat z knihovnických databází a systémů – dříve neznámých a potenciálně užitečných.  O dobývání znalostí se začíná mluvit v polovině 90. let. Umožňuje se tím rychlé aplikování znalostí do praxe. Využívá se zde statisticých metod. <ref>ŘÍMANOVÁ, Radka. Bibliomining. In: ÚISK: Ústav informačních studií a knihovnictví [online]. 2008 [cit. 2015-02-02]. Dostupné z: <http://uisk.ff.cuni.cz/detail.do?articleId=6569><br /></ref>
+
Jako bibliomining bývá označováno dolování dat z knihovnických databází a systémů – dříve neznámých a potenciálně užitečných.  O dobývání znalostí se začíná mluvit v polovině 90. let. Umožňuje se tím rychlé aplikování znalostí do praxe. Využívá se zde statisticých metod.<ref name=" ŘÍMANOVÁ "> ŘÍMANOVÁ, Radka. Bibliomining. In: ÚISK: Ústav informačních studií a knihovnictví [online]. 2008 [cit. 2015-02-02]. Dostupné z: <http://uisk.ff.cuni.cz/detail.do?articleId=6569></ref><br />
  
  
Řádek 6: Řádek 6:
 
   
 
   
 
* Co chceme zjistit, cíl projektu
 
* Co chceme zjistit, cíl projektu
* Prediktivní metoda - předvídá budoucí hodnoty na základě zjištěných vlastností stávajících
+
* Prediktivní metoda - předvídá budoucí hodnoty na základě zjištěných vlastností stávajících, podle předpokladu, že data se chovala určitým způsobem v minulosti a budou se tak chovat i dál<ref name="ZADRAŽILOVÁ"> ZADRAŽILOVÁ, Iva. Bibliomining. In: Wiki knihovna.cz [online]. 2008 [cit. 2015-02-04]. Dostupné z: <http://wiki.knihovna.cz/index.php/Bibliomining></ref>
* Popisná metoda - přesné informace o současném stavu  
+
* Popisná metoda - přesné informace o současném stavu<ref name="ŘÍMANOVÁ"> ŘÍMANOVÁ, Radka. Bibliomining. In: ÚISK: Ústav informačních studií a knihovnictví [online]. 2008 [cit. 2015-02-02]. Dostupné z: <http://uisk.ff.cuni.cz/detail.do?articleId=6569></ref><br />
<ref name=" ŘÍMANOVÁ "> ŘÍMANOVÁ, Radka. Bibliomining. In: ÚISK: Ústav informačních studií a knihovnictví [online]. 2008 [cit. 2015-02-02]. Dostupné z: <http://uisk.ff.cuni.cz/detail.do?articleId=6569></ref><br />
 
  
  
Řádek 14: Řádek 13:
  
  
 +
* databáze = datová báze (datová základna)je soubor dat, které mezi sebou mají logické vazby. Tím je umožněno s těmito daty efektivně pracovat (vyhledávat v nich, modifikovat je, udržovat tato data aktuální<ref name="JANOVSKÝ"> JANOVSKÝ, Dušan. Rejstřík pojmů (internetové pojmy) – Abecední. In: Absolut beginer on WWWeb [online]. 2003 [cit. 2015-02-04]. Dostupné z: <http://www.abowe.brbla.net/8/rejstrik.php></ref>
 
* tradiční vyhledání vhodné množiny pro dat pro bibliomining <br />
 
* tradiční vyhledání vhodné množiny pro dat pro bibliomining <br />
 
* identifikace datových zdrojů
 
* identifikace datových zdrojů
 
* problém citlivé údaje – data o čtenářích a jejich údaje<ref name="KRČÁL"> KRČÁL, Martin. Bibliomining. In: IS: Informační systém Masarykovy Univerzity [online]. 2014 [cit. 2015-02-02]. Dostupné z: <https://is.muni.cz/auth/el/1421/podzim2014/VIKBA10/um/kss08-bibliomining.pdf></ref><br />
 
* problém citlivé údaje – data o čtenářích a jejich údaje<ref name="KRČÁL"> KRČÁL, Martin. Bibliomining. In: IS: Informační systém Masarykovy Univerzity [online]. 2014 [cit. 2015-02-02]. Dostupné z: <https://is.muni.cz/auth/el/1421/podzim2014/VIKBA10/um/kss08-bibliomining.pdf></ref><br />
 
  
 
=='''3. datový sklad'''==
 
=='''3. datový sklad'''==
  
  
 +
* datový sklad = Databáze zpracovávaná separátně od podnikové relační databáze, určená pro podporu v rozhodování – umožňuje zpracovávání informací díky velké platformě pevných historických dat pro analýzu<ref name="ŠČUGLÍK"> ŠČUGLÍK, František. Datové sklady a Technologie OLAP pro dolování dat. In: Vysoká učení technické v Brně [online]. 2014 [cit. 2015-02-04]. Dostupné z: <http://www.fit.vutbr.cz/study/courses/ZZD/public/seminar0203/DWandOLAP.pdf></ref>
 
* nutností je zajištění ochrany dat
 
* nutností je zajištění ochrany dat
* data nejsou zpětně obnovitelná
+
* data o uživatelích nejsou zpětně obnovitelná
* čištění a příprava dat<br />
+
* čištění a příprava dat
 +
* interní data -  data, která má knihovna k dispozici ve své vlastním systému
 +
* externí data - data nemá knihovna přímo ve svém systému, ale je možné je určitým způsobem získat či odvodit<ref name="SOŠKOVÁ"> SOŠKOVÁ, Michaela. Analýza a vyhodnocení činností uživatelů souborného on-line katalogu Masarykovy univerzity. Brno, 2006. Dostupné z: <http://is.muni.cz/th/108801/ff_b/Bakalarka_prace_Soskova.txt>. Bakalářská diplomová práce. Masarykova Univerzita. Vedoucí práce Zdeněk Kadlec.</ref><br />
  
  
Řádek 31: Řádek 33:
  
 
* zjištění vhodné analytické metody
 
* zjištění vhodné analytické metody
* Mají data, která chceme analyzovat atributy, na kterých chceme stavět naši analýzu?  
+
* mají data, která chceme analyzovat atributy, na kterých chceme stavět naši analýzu?
* správný software pro analýzu – např. SPSS, SAS <br />
+
* k budoucí analýze mohou být vybrány klasické statistické metody, pokročilé metody KDD, mohou najít zákonitosti v souboru uživatelů, díky kterým mohou knihovníci lépe chápat své čtenáře
 
+
* správný software pro analýzu – např. SPSS, SAS (ale ty jsou na finanční možnosti knihoven pořád velmi drahé)<ref name="SOŠKOVÁ"> SOŠKOVÁ, Michaela. Analýza a vyhodnocení činností uživatelů souborného on-line katalogu Masarykovy univerzity. Brno, 2006. Dostupné z: <http://is.muni.cz/th/108801/ff_b/Bakalarka_prace_Soskova.txt>. Bakalářská diplomová práce. Masarykova Univerzita. Vedoucí práce Zdeněk Kadlec.</ref><br />
  
 
=='''5. analýza dat a jejich ověření'''==
 
=='''5. analýza dat a jejich ověření'''==
  
  
 +
* cílem je nalezení zvláštností statistického chování dat
 
* časová náročnost
 
* časová náročnost
* ověřování modelů a výsledků
+
* ověřování modelů a výsledků pro statistické zpracování
 
* Předložení výsledků odborníkům k posouzení
 
* Předložení výsledků odborníkům k posouzení
 
*Příliš překvapivé výsledky → nedošlo k chybě?
 
*Příliš překvapivé výsledky → nedošlo k chybě?
Řádek 54: Řádek 57:
  
  
=='''Reference'''==
+
==='''Výhody a nevýhody bibliominingu'''===
 +
 
 +
 
 +
* výhody - sledování trendů, analýza současného stavu, možnost porovnání s jinými institucemi
 +
* nevýhody - zkreslování dat, problém při nevhodném výběru dat, zneužití dat<ref name="KRČÁL"> KRČÁL, Martin. Bibliomining. In: IS: Informační systém Masarykovy Univerzity [online]. 2014 [cit. 2015-02-02]. Dostupné z: <https://is.muni.cz/auth/el/1421/podzim2014/VIKBA10/um/kss08-bibliomining.pdf></ref><br />
 +
 
 +
 
 +
==='''Uplatnění v praxi'''===
 +
 
 +
 
 +
* Data Driven Acquisition = řízená akvizice dle potřeb uživatelů
 +
* podklady pro vedení při rozhodovacích procesech
 +
* akvizice, přesuny do/z skladu, vyřazování, posunování regálů
 +
* návštěvnost webu a jeho úprava<ref name="KRČÁL"> KRČÁL, Martin. Bibliomining. In: IS: Informační systém Masarykovy Univerzity [online]. 2014 [cit. 2015-02-02]. Dostupné z: <https://is.muni.cz/auth/el/1421/podzim2014/VIKBA10/um/kss08-bibliomining.pdf></ref><br />
 +
 
 +
 
 +
==='''Datamining'''===
 +
 
 +
 
 +
* datamining = dolování dat
 +
* je to soubor metod sloužících ke zpracování dat a získání netriviálních informací, které jsou v nich obsažené, není určen jen velkým firmám, protože se jedná o obecný soubor metod, kterými se dají zpracovávat různá data bez ohledu na obor a původ
 +
* často se používá k optimalizaci výrobních procesů
 +
* 6 kroků: pochopení problému, porozumění datům, příprava dat, modelování, hodnocení, nasazení<ref name="PROCHÁZKA"> PROCHÁZKA, Michal. Data mining: jiný pohled na problém. In: E15 VTM [online]. 2010 [cit. 2015-02-04]. Dostupné z: <http://vtm.e15.cz/aktuality/data-mining-jiny-pohled-na-problem></ref><br />
 +
 
 +
=='''Odkazy'''==
  
  
<references/>ŘÍMANOVÁ, Radka. Bibliomining. In: ÚISK: Ústav informačních studií a knihovnictví [online]. 2008 [cit. 2015-02-02]. Dostupné z: <http://uisk.ff.cuni.cz/detail.do?articleId=6569>
+
<references/>
<references/>KRČÁL, Martin. Bibliomining. In: IS: Informační systém Masarykovy Univerzity [online]. 2014 [cit. 2015-02-02]. Dostupné z: <https://is.muni.cz/auth/el/1421/podzim2014/VIKBA10/um/kss08-bibliomining.pdf>
+
<references/>
 +
<references/>
 +
<references/>
 +
<references/>
 +
<references/>
 +
<references/>

Aktuální verze z 4. 2. 2015, 12:58

Jako bibliomining bývá označováno dolování dat z knihovnických databází a systémů – dříve neznámých a potenciálně užitečných. O dobývání znalostí se začíná mluvit v polovině 90. let. Umožňuje se tím rychlé aplikování znalostí do praxe. Využívá se zde statisticých metod.[1]


1. definice problému

  • Co chceme zjistit, cíl projektu
  • Prediktivní metoda - předvídá budoucí hodnoty na základě zjištěných vlastností stávajících, podle předpokladu, že data se chovala určitým způsobem v minulosti a budou se tak chovat i dál[2]
  • Popisná metoda - přesné informace o současném stavu[1]


2. databáze

  • databáze = datová báze (datová základna)je soubor dat, které mezi sebou mají logické vazby. Tím je umožněno s těmito daty efektivně pracovat (vyhledávat v nich, modifikovat je, udržovat tato data aktuální[3]
  • tradiční vyhledání vhodné množiny pro dat pro bibliomining
  • identifikace datových zdrojů
  • problém citlivé údaje – data o čtenářích a jejich údaje[4]

3. datový sklad

  • datový sklad = Databáze zpracovávaná separátně od podnikové relační databáze, určená pro podporu v rozhodování – umožňuje zpracovávání informací díky velké platformě pevných historických dat pro analýzu[5]
  • nutností je zajištění ochrany dat
  • data o uživatelích nejsou zpětně obnovitelná
  • čištění a příprava dat
  • interní data - data, která má knihovna k dispozici ve své vlastním systému
  • externí data - data nemá knihovna přímo ve svém systému, ale je možné je určitým způsobem získat či odvodit[6]


4. výběr analytických prostředků

  • zjištění vhodné analytické metody
  • mají data, která chceme analyzovat atributy, na kterých chceme stavět naši analýzu?
  • k budoucí analýze mohou být vybrány klasické statistické metody, pokročilé metody KDD, mohou najít zákonitosti v souboru uživatelů, díky kterým mohou knihovníci lépe chápat své čtenáře
  • správný software pro analýzu – např. SPSS, SAS (ale ty jsou na finanční možnosti knihoven pořád velmi drahé)[6]

5. analýza dat a jejich ověření

  • cílem je nalezení zvláštností statistického chování dat
  • časová náročnost
  • ověřování modelů a výsledků pro statistické zpracování
  • Předložení výsledků odborníkům k posouzení
  • Příliš překvapivé výsledky → nedošlo k chybě?
  • Příliš překvapivé výsledky → zpět o několik kroků procesu[1]


6. prezentace výsledků

  • dokumentace jednotlivých etap
  • předložení zprávy veřejnosti
  • Selhání bibliominingu – knihovníci přestávají spolupracovat při tvorbě dat nebo snaha o úpravu dat
  • podpora sociálních vztahů s uživateli


Výhody a nevýhody bibliominingu

  • výhody - sledování trendů, analýza současného stavu, možnost porovnání s jinými institucemi
  • nevýhody - zkreslování dat, problém při nevhodném výběru dat, zneužití dat[4]


Uplatnění v praxi

  • Data Driven Acquisition = řízená akvizice dle potřeb uživatelů
  • podklady pro vedení při rozhodovacích procesech
  • akvizice, přesuny do/z skladu, vyřazování, posunování regálů
  • návštěvnost webu a jeho úprava[4]


Datamining

  • datamining = dolování dat
  • je to soubor metod sloužících ke zpracování dat a získání netriviálních informací, které jsou v nich obsažené, není určen jen velkým firmám, protože se jedná o obecný soubor metod, kterými se dají zpracovávat různá data bez ohledu na obor a původ
  • často se používá k optimalizaci výrobních procesů
  • 6 kroků: pochopení problému, porozumění datům, příprava dat, modelování, hodnocení, nasazení[7]

Odkazy

  1. 1,0 1,1 1,2 ŘÍMANOVÁ, Radka. Bibliomining. In: ÚISK: Ústav informačních studií a knihovnictví [online]. 2008 [cit. 2015-02-02]. Dostupné z: <http://uisk.ff.cuni.cz/detail.do?articleId=6569>
  2. ZADRAŽILOVÁ, Iva. Bibliomining. In: Wiki knihovna.cz [online]. 2008 [cit. 2015-02-04]. Dostupné z: <http://wiki.knihovna.cz/index.php/Bibliomining>
  3. JANOVSKÝ, Dušan. Rejstřík pojmů (internetové pojmy) – Abecední. In: Absolut beginer on WWWeb [online]. 2003 [cit. 2015-02-04]. Dostupné z: <http://www.abowe.brbla.net/8/rejstrik.php>
  4. 4,0 4,1 4,2 KRČÁL, Martin. Bibliomining. In: IS: Informační systém Masarykovy Univerzity [online]. 2014 [cit. 2015-02-02]. Dostupné z: <https://is.muni.cz/auth/el/1421/podzim2014/VIKBA10/um/kss08-bibliomining.pdf>
  5. ŠČUGLÍK, František. Datové sklady a Technologie OLAP pro dolování dat. In: Vysoká učení technické v Brně [online]. 2014 [cit. 2015-02-04]. Dostupné z: <http://www.fit.vutbr.cz/study/courses/ZZD/public/seminar0203/DWandOLAP.pdf>
  6. 6,0 6,1 SOŠKOVÁ, Michaela. Analýza a vyhodnocení činností uživatelů souborného on-line katalogu Masarykovy univerzity. Brno, 2006. Dostupné z: <http://is.muni.cz/th/108801/ff_b/Bakalarka_prace_Soskova.txt>. Bakalářská diplomová práce. Masarykova Univerzita. Vedoucí práce Zdeněk Kadlec.
  7. PROCHÁZKA, Michal. Data mining: jiný pohled na problém. In: E15 VTM [online]. 2010 [cit. 2015-02-04]. Dostupné z: <http://vtm.e15.cz/aktuality/data-mining-jiny-pohled-na-problem>