Analýzy logů (statistika webu): Porovnání verzí

Z WikiKnihovna
Řádek 24: Řádek 24:
  
 
'''Metody server-side'''
 
'''Metody server-side'''
 
+
''Provozu na webových stránkách''  
 
+
Jak se uživatelé na daných webových stránkách chovají a jak se tam dostávájí. Každý uživatel webových stránek za sebou nechává stopu, kudy prošel a na co kliknul. Tohle později můžeme pomocí různých programů zjišťovat a přizpůsobovat tak obsah stránek uživatelům.
''Provozu na webových stránkách'' Jak se uživatelé na daných webových stránkách chovají a jak se tam dostávájí. Každý uživatel webových stránek za sebou nechává stopu, kudy prošel a na co kliknul. Tohle později můžeme pomocí různých programů zjišťovat a přizpůsobovat tak obsah stránek uživatelům.
 
  
 
[[Soubor:Statistiky.JPG]]
 
[[Soubor:Statistiky.JPG]]
Řádek 33: Řádek 32:
  
 
''Přístupy k sítím''
 
''Přístupy k sítím''
 
 
Může být zapotřebí např. při pádu sítě zjistit, kdo se k ní naposledy připojil a co upravil.
 
Může být zapotřebí např. při pádu sítě zjistit, kdo se k ní naposledy připojil a co upravil.
  
 
''Napadení sítě''
 
''Napadení sítě''
 
 
Pomocí logů dá dohledat původce napadení sítě ať už se jedná o vnitřní čí vnější hrozbu. Např. pomocí IP adresy
 
Pomocí logů dá dohledat původce napadení sítě ať už se jedná o vnitřní čí vnější hrozbu. Např. pomocí IP adresy
  
 
''Spam''
 
''Spam''
 
 
Poskytovatel internetu dokáže zjistit odkud přichází nevyžádaná pošta. Příklad: ISP zjistil, že e-mail pro vyžádání plateb od ČSOB je ve skutečnosti spam. Při sledování odkud daný mail přišel zjistil, že IP adresa je zaregistrována až v USA.
 
Poskytovatel internetu dokáže zjistit odkud přichází nevyžádaná pošta. Příklad: ISP zjistil, že e-mail pro vyžádání plateb od ČSOB je ve skutečnosti spam. Při sledování odkud daný mail přišel zjistil, že IP adresa je zaregistrována až v USA.
  
 
'''Metody client-side'''
 
'''Metody client-side'''
 
 
''Monitoring zařízení'' Ve firmách se na počítačích může objevit program, který monitoruje všechno dění na počítači. Log se dá poté využít na zjištění co, kdy a v jakou chvíli daný uživatel prováděl. Jestli se věnoval práci či něčemu jinému.
 
''Monitoring zařízení'' Ve firmách se na počítačích může objevit program, který monitoruje všechno dění na počítači. Log se dá poté využít na zjištění co, kdy a v jakou chvíli daný uživatel prováděl. Jestli se věnoval práci či něčemu jinému.
  
 
''Monitoring uživatelů''
 
''Monitoring uživatelů''
 
 
Dá se používat, při sledování určitého počtu lidí. Např. eye-tracking kdy uživatel dává informace pomocí spec. brýlí, kam se v dané chvíli dívá např. na obrazovku.
 
Dá se používat, při sledování určitého počtu lidí. Např. eye-tracking kdy uživatel dává informace pomocí spec. brýlí, kam se v dané chvíli dívá např. na obrazovku.
  

Verze z 12. 10. 2012, 12:34

V dnešní době má již nějakou webovou stránku téměř každý. A všichni by byli rádi na předních příčkách ve vyhledávání, aby je každý znal, citoval a odkazoval na ně. To se ale samozřejmě nestane samo od sebe. Stojí to mnoho času, trpělivosti a především znalostí. Co změnit a vylepšit nám může povědět hodně výzkumů. Ale tím zřejmě nejúčinnějším je analýza logů.

"Log soubory, zkráceně logy, jsou textové soubory obsahující záznamy o činnosti nějaké konkrétní aplikace. V případě webových serverů jsou do logů ukládány veškeré požadavky, které byly na server vzneseny. Zpětnou analýzou těchto dat pak můžeme zjišťovat cenné informace o fungování sledovaného webu." [1] Logy se ukládají přímo na serveru, odkud si ho majitel může stáhnout, nebo jej tam rovnou analyzuje.


Co je pro daný design výzkumu charakteristické?

Především při analýze logů nemusíme zasahovat do zdrojového kódu samotné stránky, jako je tomu u jiných měřících systémů typu Google Analytics či TOPlist.cz.Ty totiž vyžadují speciální měřící kód vložený do webových stránek. Při analýze logů získáte opravdu spoustu dat. Systémy založené na měřícím kódu nabízí pouze hotové statistiky s omezenou možností dalšího zpracování, statistiky. "Naproti tomu logy obsahují „surová“ data, která je nejprve nutná zpracovat. Výhodou tohoto přístupu je možnost pojmout zpracování dle vlastního gusta a výstupy si patřičně přizpůsobit." [1]

Přesnost a úplnost. Funkční webový server totiž zapíše do souboru každý požadavek, na který odpovídá. Můžeme se tedy z logů dozvědět spoustu zajímavých a užitečných informací, jako je :

  • Návštěvnost jednotlivých stránek
  • Zdroj návštěvnosti jednotlivých stránek (podle referera)
  • Clickstream kontingenční (odkud kam lidé klikají)
  • Clickstream individuální (kam a jak klikal uživatel z této IP)
  • Viewtime (jak dlouho na které stránce uživatelé pobývají, to je těžší spočítat)
  • Chyby 404 (kde mám zlomené odkazy)

a mnoho dalšího.

Kdy je vhodné tento design/tuto metodu použít?

Analýzu logů je možné provádět jednorázově za delší období, větší množství dat poskytne statisticky významnější výsledky. Rozhodně nejde o způsob univerzální, mnohé parametry je naopak možné sledovat pouze za použití jiné metody měření.[1]

Metody server-side Provozu na webových stránkách Jak se uživatelé na daných webových stránkách chovají a jak se tam dostávájí. Každý uživatel webových stránek za sebou nechává stopu, kudy prošel a na co kliknul. Tohle později můžeme pomocí různých programů zjišťovat a přizpůsobovat tak obsah stránek uživatelům.

Statistiky.JPG

Obr. 1 Web Site Statistics [2]

Přístupy k sítím Může být zapotřebí např. při pádu sítě zjistit, kdo se k ní naposledy připojil a co upravil.

Napadení sítě Pomocí logů dá dohledat původce napadení sítě ať už se jedná o vnitřní čí vnější hrozbu. Např. pomocí IP adresy

Spam Poskytovatel internetu dokáže zjistit odkud přichází nevyžádaná pošta. Příklad: ISP zjistil, že e-mail pro vyžádání plateb od ČSOB je ve skutečnosti spam. Při sledování odkud daný mail přišel zjistil, že IP adresa je zaregistrována až v USA.

Metody client-side Monitoring zařízení Ve firmách se na počítačích může objevit program, který monitoruje všechno dění na počítači. Log se dá poté využít na zjištění co, kdy a v jakou chvíli daný uživatel prováděl. Jestli se věnoval práci či něčemu jinému.

Monitoring uživatelů Dá se používat, při sledování určitého počtu lidí. Např. eye-tracking kdy uživatel dává informace pomocí spec. brýlí, kam se v dané chvíli dívá např. na obrazovku.

Monitoring uživatelů a zařízení je kvalitativní a provádí se tedy s menším množství uživatelů.

Jaké jsou výhody a nevýhody?

Spoločné výhody:

  • Zachytené dáta predstavujú záznam udalostí, tak ako sa skutočne stali, bez dodatočných úprav, ako to býva pri iných metódach zberu dát.
  • Kvalita dát nezávisí na schopnostiach učastníkov štúdie zapamätať si interakcie alebo na ich schopnosti popísať interakciu.
  • Využitie, táto metóda môže byť použitá pre tvorenie kvantitatívnych modelov a na pomoc pri interpretácii kvalitatívnych modelov (Borgman et al., 1996) a tak isto je vhodná pre experimentálne a aj pre študijné výskumy v teréne.

Spoločné nevýhody:

  • Informácie o kontexte, užívateľské motívy, zámery a spokojnosť s výsledkami sa nezaznamenávajú. Toto obmedzenie sa dá prekonať pomocou kombinácie transakčných logov s inými metódami zberu dát. Napr. vypĺňanie dotazníkov, premýšlanie nahlas počas interakcie s informačným systémom.
  • Kombinácia metód zberu prináša so sebou nevýhody - strata nenápadnosti a zmenšenie rozsahu. (Jansen, 2006). Aj napriek tomu, pridanie kontextu a dát, ktoré sú nedostupné prostredníctvom TL často preváži tieto obmedzenia.

Client-side:

výhody

  • Zber dát na strane klienta poskytuje možnosť zbierať dáta, ktoré obsahujú informácie o užívateľských akciách naprieč celým radom aplikácií a webových stránok.
  • Dochádza k väčšiemu kontaktu a interakcii medzi výskumníkmi a účastníkmi, takže možno ľahko získať vedomý súhlas na zber dát, ale zároveň dochádza ku strate nenápadnosti.

nevýhody

  • Náročnosť na zdroje, treba zháňať účastníkov, inštalovať a testovať programy na zariadeniach a niekedy zbierať data z rôznych zariadení a od užívateľov. (Kelly, 2006a, 2006b; Yun et al., 2006)
  • Nedostupnosť programov pre zber dát. Niektorí výzkumníci (napr. Kelly, 2006a, 2006b) používajú programy vyvinuté pre spyware trh, a iní (napr. Yun et al., 2006) vyvinuli vlastné aplikácie alebo prehliadače na zaznamenávanie udalostí na strane klienta.

Server-side:

výhody

  • Vychádza z veľkého objemu dát zozbieraných od veľkého počtu užívateľov.
  • Nenápadnosť zberu dát, prebieha na pozadí a tak sú minimalizované medziľudské vzťahy počas zberu dát, takže záznamy zo strany servera sú relatívne objektívne vo svojich zastúpeniach užívateľského správania.

nevýhody

  • Táto výhoda však vyvoláva obavy v etických otázkach spojených so zhromažďovaním a použitím osobných údajov bez toho, aby o tom boli informovaní účastníci.
  • Veľmi náročné spracovávať a analyzovať veľké objemy dát, ale so stále rastúcim záujmom o túto metódu, sa mnoho týchto problémov zmierňuje alebo úplne odstráni.
  • Zber dát je obmedzený len na akcie, ktoré sa udejú na servery.
  • Technické obmedzenia, nie sú zachytávané požiadavky stránky, ktoré sa načítajú z vyrovnávacej pamäti alebo cez proxy server. Odhaduje sa, že až 45 percent požiadaviek na stránky sú splnené z obsahu cache pamäte (Nicholas, 2000).
  • Náročné rozlíšiť jednotlivých užívateľov systému, pokial servery umelo neudržiavajú spojenie s klientom, nevyžadujú prihlásenie, alebo neposielajú cookies (Marchionini, 2002). Preto sa na identifikáciu užívateľských relácií používa kombinácií dátumu, času a IP adries.
  • Zistené IP adresy sa nemusia týkať jednej osoby, viacerými osobami na zdieľanom alebo verejnom zariadení alebo prostredníctvom servera proxy.

Jak takový výzkum probíhá?

Anylýza logů probíhá pomocí 3 fází:

1) identifikace vhodných datových prvků a zdrojů

2) sběr dat

3) zpracování a příprava dat

V praxi, se tyto kroky mohou překrývat, v závislosti na výzkumné otázce a studijní logistice.

Identifikace vhodných datových prvků a zdrojů

Nejčaštěji se výzkum provádí pomocí protokolu a využívá data zachycená stávajícími logovými programy. Údaje shromážděné v programu by měly být přezkoumány s ohledem na výzkumnou otázku. V určitých případech je možné přizpůsobit konfiguraci logového programu sběru dat a shromažďovat tak požadované údaje. Může být stanovena doba, po kterou jsou data sbírána. Data se mohou sbírat několik let nebo také jen jeden den. V této fázi může také docházet k rozvoji kódování pro kategorizaci webových stránek, typů webových stránek podle obsahu, identifikace IP adres nebo rozsah IP adres. Jsou identifikovány i doplňkové zdroje dat, jako je např. topologie webových stránek.

Sběr dat

Sběr dat by měl být relativně jednoduchá aktivita. Nicméně, výzkumníci měli sledovat logování dat a zajistit, aby údaje byly zachyceny, jak se očekávalo. Na client-side by měli být údaje sledovány a shromažďovány v pravidelných intervalech po celou dobu studia. To je obzvláště důležité, protože client-side vyžaduje značné prostředky na výzkum. V mnoha případech, je to také vhodný čas pro sběr dat z jiných, předem určených zdrojů dat a údajů z doplňkových metod.

Jaké jsou příklady využití tohoto designu v ISK?

Poznámky

  1. 1,0 1,1 1,2 SMRT, Martin. Newsletter: Proč analyzovat logy. In: Dobrý web [online]. 2007 [cit. 2012-10-12]. Dostupné z: http://blog.dobryweb.cz/newsletter-proc-analyzovat-logy
  2. "Understand and Improve Your Web Site with Comprehensive Web Site Statistics. In: GTP iCOMMERCE [online]. 2007 [cit. 2012-10-12]. Dostupné z: http://www.gtp-icommerce.com/viewStory/Web+Site+Statistics

Použitá literatura

SMRT, Martin. Newsletter: Proč analyzovat logy. In: Dobrý web [online]. 2007 [cit. 2012-10-12]. Dostupné z: http://blog.dobryweb.cz/newsletter-proc-analyzovat-logy

BORGMAN, C., HIRSH, S. G., & HILLER, J. (1996). Rethinking online monitoring methods for infor-mation retrieval systems: From search product to search process. Journal of the American Society for htformation Science, 47(7), 568-583.

JANSEN, B. J. (2006). Search log analysis: What it is, what's been done, how to do it. Library and Information Science Research, 28(3). 407-432.

KELLY, D. (2006a). Measuring online information seeking context, part 1: Background and method. Journal of the American Society for Information Science and Technology, 57(13), 1729- 1739.

KELLY, D. (2006b). Measuring online information seeking context, pail 2: Findings and discussion. Journal of the American Society .for Information Science and Technology, 57(14), 1862- 1874.

MARCHIONINI, G. (2002). Co-evolution of user and organizational interfaces: A longitudinal case study of WWW dissemination of national statistics. Journal of the American Society for Information Science and Technology, 53(14), 1192-1211.

NICHOLAS, D. (2000). Assessing Information Needs: Tools, Techniques and Concepts for the Internet Age (2nd ed.). London: Europa Publications.

WILDEMUTH, Barbara M.Applications of social research methods to questions in information and library science. Westport, Conn.: Libraries Unlimited, 2009, 421 s.ISBN 15-915-8503-1

YIN. G. W., Ford, J., Hawkins, R. P., Filigree, S., McTavish, F., Gustafson, D., & Bette, H. (2006). On the validity of client-side vs. server-side Web log data analysis. Internet Research, 16(5), 537-552.