Analýzy logů (statistika webu): Porovnání verzí

Aktuální verze z 22. 1. 2013, 21:33

V dnešní době má již nějakou webovou stránku téměř každý. A všichni by byli rádi na předních příčkách ve vyhledávání, aby je každý znal, citoval a odkazoval na ně. To se ale samozřejmě nestane samo od sebe. Stojí to mnoho času, trpělivosti a především znalostí. Co změnit a vylepšit nám může povědět hodně výzkumů. Ale tím zřejmě nejúčinnějším je analýza logů.

"Log soubory, zkráceně logy, jsou textové soubory obsahující záznamy o činnosti nějaké konkrétní aplikace. V případě webových serverů jsou do logů ukládány veškeré požadavky, které byly na server vzneseny. Zpětnou analýzou těchto dat pak můžeme zjišťovat cenné informace o fungování sledovaného webu." ^[1] Logy se ukládají přímo na serveru, odkud si ho majitel může stáhnout, nebo jej tam rovnou analyzuje.

Co je pro daný design výzkumu charakteristické?

Především při analýze logů nemusíme zasahovat do zdrojového kódu samotné stránky, jako je tomu u jiných měřících systémů typu Google Analytics či TOPlist.cz.Ty totiž vyžadují speciální měřící kód vložený do webových stránek. Při analýze logů získáte opravdu spoustu dat. Systémy založené na měřícím kódu nabízí pouze hotové statistiky s omezenou možností dalšího zpracování, statistiky. "Naproti tomu logy obsahují „surová“ data, která je nejprve nutná zpracovat. Výhodou tohoto přístupu je možnost pojmout zpracování dle vlastního gusta a výstupy si patřičně přizpůsobit." ^[1]

Přesnost a úplnost. Funkční webový server totiž zapíše do souboru každý požadavek, na který odpovídá. Můžeme se tedy z logů dozvědět spoustu zajímavých a užitečných informací, jako je :

Návštěvnost jednotlivých stránek
Zdroj návštěvnosti jednotlivých stránek (podle referera)
Clickstream kontingenční (odkud kam lidé klikají)
Clickstream individuální (kam a jak klikal uživatel z této IP)
Viewtime (jak dlouho na které stránce uživatelé pobývají, to je těžší spočítat)
Chyby 404 (kde mám zlomené odkazy)

a mnoho dalšího.

Kdy je vhodné tento design/tuto metodu použít?

Analýzu logů je možné provádět jednorázově za delší období, větší množství dat poskytne statisticky významnější výsledky. Rozhodně nejde o způsob univerzální, mnohé parametry je naopak možné sledovat pouze za použití jiné metody měření.^[1]

Metody server-side

Provozu na webových stránkách

Jak se uživatelé na daných webových stránkách chovají a jak se tam dostávájí. Každý uživatel webových stránek za sebou nechává stopu, kudy prošel a na co kliknul. Tohle později můžeme pomocí různých programů zjišťovat a přizpůsobovat tak obsah stránek uživatelům.

Obr. 1 Web Site Statistics ^[2]

Přístupy k sítím

Může být zapotřebí např. při pádu sítě zjistit, kdo se k ní naposledy připojil a co upravil.

Napadení sítě

Pomocí logů dá dohledat původce napadení sítě ať už se jedná o vnitřní čí vnější hrozbu. Např. pomocí IP adresy

Spam

Poskytovatel internetu dokáže zjistit odkud přichází nevyžádaná pošta. Příklad: ISP zjistil, že e-mail pro vyžádání plateb od ČSOB je ve skutečnosti spam. Při sledování odkud daný mail přišel zjistil, že IP adresa je zaregistrována až v USA.

Metody client-side

Monitoring zařízení

Ve firmách se na počítačích může objevit program, který monitoruje všechno dění na počítači. Log se dá poté využít na zjištění co, kdy a v jakou chvíli daný uživatel prováděl. Jestli se věnoval práci či něčemu jinému.

Monitoring uživatelů

Dá se používat, při sledování určitého počtu lidí. Např. eye-tracking kdy uživatel dává informace pomocí spec. brýlí, kam se v dané chvíli dívá např. na obrazovku.

Monitoring uživatelů a zařízení je kvalitativní a provádí se tedy s menším množství uživatelů.

Jaké jsou výhody a nevýhody?

Spoločné výhody:

Zachytené dáta predstavujú záznam udalostí, tak ako sa skutočne stali, bez dodatočných úprav, ako to býva pri iných metódach zberu dát.
Kvalita dát nezávisí na schopnostiach učastníkov štúdie zapamätať si interakcie alebo na ich schopnosti popísať interakciu.
Využitie, táto metóda môže byť použitá pre tvorenie kvantitatívnych modelov a na pomoc pri interpretácii kvalitatívnych modelov ^[3] a tak isto je vhodná pre experimentálne a aj pre študijné výskumy v teréne.

Spoločné nevýhody:

Informácie o kontexte, užívateľské motívy, zámery a spokojnosť s výsledkami sa nezaznamenávajú. Toto obmedzenie sa dá prekonať pomocou kombinácie transakčných logov s inými metódami zberu dát. Napr. vypĺňanie dotazníkov, premýšlanie nahlas počas interakcie s informačným systémom.
Kombinácia metód zberu prináša so sebou nevýhody - strata nenápadnosti a zmenšenie rozsahu.^[4] Aj napriek tomu, pridanie kontextu a dát, ktoré sú nedostupné prostredníctvom TL často preváži tieto obmedzenia.

Client-side:

výhody

Zber dát na strane klienta poskytuje možnosť zbierať dáta, ktoré obsahujú informácie o užívateľských akciách naprieč celým radom aplikácií a webových stránok.
Dochádza k väčšiemu kontaktu a interakcii medzi výskumníkmi a účastníkmi, takže možno ľahko získať vedomý súhlas na zber dát, ale zároveň dochádza ku strate nenápadnosti.

nevýhody

Náročnosť na zdroje, treba zháňať účastníkov, inštalovať a testovať programy na zariadeniach a niekedy zbierať data z rôznych zariadení a od užívateľov. ^[5] ^[6] ^[7]
Nedostupnosť programov pre zber dát. Niektorí výzkumníci^[5]^[6] používajú programy vyvinuté pre spyware trh, a iní^[7] vyvinuli vlastné aplikácie alebo prehliadače na zaznamenávanie udalostí na strane klienta.

Server-side:

výhody

Vychádza z veľkého objemu dát zozbieraných od veľkého počtu užívateľov.
Nenápadnosť zberu dát, prebieha na pozadí a tak sú minimalizované medziľudské vzťahy počas zberu dát, takže záznamy zo strany servera sú relatívne objektívne vo svojich zastúpeniach užívateľského správania.

nevýhody

Táto výhoda však vyvoláva obavy v etických otázkach spojených so zhromažďovaním a použitím osobných údajov bez toho, aby o tom boli informovaní účastníci.
Veľmi náročné spracovávať a analyzovať veľké objemy dát, ale so stále rastúcim záujmom o túto metódu, sa mnoho týchto problémov zmierňuje alebo úplne odstráni.
Zber dát je obmedzený len na akcie, ktoré sa udejú na servery.
Technické obmedzenia, nie sú zachytávané požiadavky stránky, ktoré sa načítajú z vyrovnávacej pamäti alebo cez proxy server. Odhaduje sa, že až 45 percent požiadaviek na stránky sú splnené z obsahu cache pamäte.^[8]
Náročné rozlíšiť jednotlivých užívateľov systému, pokial servery umelo neudržiavajú spojenie s klientom, nevyžadujú prihlásenie, alebo neposielajú cookies.^[9] Preto sa na identifikáciu užívateľských relácií používa kombinácií dátumu, času a IP adries.
Zistené IP adresy sa nemusia týkať jednej osoby, viacerými osobami na zdieľanom alebo verejnom zariadení alebo prostredníctvom servera proxy.

Jak takový výzkum probíhá?

Analýza logů probíhá ve 3 fázích:

1) identifikace vhodných datových prvků a zdrojů

2) sběr dat

3) zpracování a příprava dat

Identifikace vhodných datových prvků a zdrojů

Tento design výzkumu využívá data zachycená stávajícími logovýmy programy. Údaje shromážděné v programu by měly být přezkoumány s ohledem na výzkumnou otázku. V určitých případech je možné přizpůsobit nastavení logového programu sběru dat a shromažďovat tak požadované údaje. To znamená, opravdu jen to, co nás zajímá. Může být také stanovena doba, po kterou jsou data sbírána. Data se mohou sbírat několik let nebo také jen jeden den.

Sběr dat

Sběr dat by měl být relativně jednoduchá aktivita. Nicméně, i přesto vy výzkumníci měli pečlivě sledovat logování dat a zajistit, aby údaje byly zachyceny přesně podle předem daných pravidel. Na straně clienta by měly být údaje sledovány a shromažďovány v pravidelných intervalech po celou dobu studia. V mnoha případech je fáze sběru dat vhodný čas pro sběr dat z jiných, předem určených zdrojů dat a údajů z doplňkových metod.

Zpracování a příprava dat

Zpracování dat a příprava je nejdůležitějším krokem ve studií logů. Během procesu třídění dat se provádí dvě důležité aktivity:

1)Poškozená a cizí data jsou zahozena. 2)Původní datové soubory jsou zpracovány k získání sekundárních dat.

Přesné kroky při zpracování údajů budou záviset na povaze výzkumné otázky a složení získaných dat. Běžně jsou data importována do relační databáze, kde je použit tabulkový procesor či skripta. Občas je použita kombinace těchto dvou metod. Obecně platí, že je vhodné přiřadit položkám jedinečné ID hned na začátku datového čistícího/třídícího procesu. Může být také užitečné vytvořit a zaznamenat souhrnné statistiky týkající se vyřazených údajů.

Uživatel a Identifikace

Identifikace unikátních uživatelů, zájmu uživatele nebo skupiny uživatelů je nutná pro většinu datových analýz. Ve většině případů jsou data omezena nastavením pro konkrétní uživatele.

V analýze webových souborů můžeme např. na ID uživatele nastavit cookie a omezené množství transakcí. Ve studiích, které používají webová logová data, nemají uživatelé identifikační značky, jakou jsou cookie nebo přihlašovací údaje. IP adresy mohou být použity i ve spojení s jinými údaji. Cílem skupinové identifikace je rozdělit proud transakcí do jednotlivých skupin. Mnohé studie používají jako maximální hranici 30 minut. Určení časové hranice pro skupinovou identifikaci by nemělo být svévolné. Definování skupin příliš úzce rozdělí uživatele do několika skupin, a definování skupin příliš široce bude seskupovat jednotlivé uživatelské skupiny mezi sebou. Z toho vyplývá, že je téměř nemožné definovat pouze jeden práh s úplnou přesností. Podle úrovně znalosti užívání webu, obsahu, a zkušenosti ze studií v souvisejících oblastech jsme schopni odvodit tzv. rozumnou úroveň, jako jsou například odchylky ve stanovení hranice. Ta se může pohybovat od 5 minut až k 60 minutám.

Klasifikace a kódování informačního chování

V každé skupině bude účastník vystaven konkrétní otázce. Pokud je výzkumná otázka poměrně jednoduchá, můžete přistoupit k analýze dat. Nicméně, pro mnoho výzkumných otázek musí být jednotlivé odpovědi klasifikovány a podobné typy chování musíme seskupovat. Každému chování je přidělen kód ze souboru definovaných kódů.

Byli navrženy systémy kódování pro určité typy chování. Pokud budete chtít zkoumat různé režimy kódování, vyberete si schéma, které bude sloužit vašim studijním záměrům.

Klasifikace a kódování stránek a jejich vlastnosti

Zaměření výzkumné otázky se odvíjí od vlastností zobrazených stránek. U některých studií, budete mít zájem pouze o to, co si lidé na stránkách prohlíželi a jak často. U ostatních studií, možná budete mít zájem vědět podrobnosti o cestě uživatele po stránkách. Pro tyto účely můžete stránky třídit, kódovat. Také můžete učinit závěry podle typu zobrazených stránek,....

Kódování stránek lze provádět na několika úrovních na základě obsahu stránky, vztahu stránky a celkového systému. Například Cooley navrhl, že webové stránky by mohly být klasifikovány podle toho, zda stránka obsahuje hlavní, obsahové, navigační, vyhledávací nebo osobní stránky. Ostatní běžně používané stránky kategorizujeme podle výsledků, na základě dokumentu nebo typu souboru v databázi, digitálních knihovnách, na základě jeho pozice nebo funkčnosti. Jiné způsoby kódování stránky by mohly být založeny na poměru odkazů na texty, proporcí obrazových souborů, průměrné referenční délky, důležité informace obsažené v metadatech stránky, a tak dále.

Jaké jsou příklady využití tohoto designu v ISK?

Využití transakčních logů v prostředí digitálních knihoven

Základním prvkem architektury je digitální objekt, datová struktura pro základní samostatně použitelnou informační jednotku tvořená dvěmi základními částmi: obsahem (content) a klíčovými metadaty (tvořenými globálním jednoznačným identifikátorem digitálního objektu, označovaným jako handle, a dalšími blíže nespecifikovanými neměnnými metaúdaji, např. „autor“). Obsahem digitálního objektu může být sekvence bitů reprezentující konkrétní digitální materiál (může být zahrnut i ve vícero formách), množina jiných datových objektů (složený objekt), množina identifikátorů objektů (metaobjekt), případně jiné datové typy – model tak poskytuje dostatečnou flexibilitu pro reprezentaci libovolně složitých informačních objektů a vztahů mezi nimi. Digitální objekty mohou být buď proměnlivé (obsah objektu lze měnit i po jeho uložení do repozitáře – ať již jde o jednorázové změny nebo přímo dynamické informační objekty), nebo fixní.

Podle typu materiálu mohou být digitální objekty rozděleny do kategorií (např. text formátovaný pomocí SGML, počítačový program, digitalizovaný zvuk) a pro každou kategorii mohou být stanovena pravidla pro převod materiálu do jednotlivých typů digitálních objektů, struktura metadat apod. Tak je tomu např. v realizovaném systému [6]; obecná architektura ovšem úmyslně s žádnými specifickými typy materiálů nepracuje, aby udržela co nejvyšší míru obecnosti, neomezovala či nepředjímala budoucí technologický vývoj a ponechávala dostatečnou míru flexibility pro konkrétní implementace.

Digitální objekty jsou uloženy v repozitářích, které mají přiřazeno jednoznačné globální jméno. Repozitář umožňuje řízený přístup k digitálním objektům v něm uloženým. Pro každý digitální objekt udržuje dva typy metadatových záznamů. Prvním z nich je záznam vlastností objektu (properties record) obsahující údaje např. o autorských právech a podmínkách pro zpřístupnění digitálního objektu, technické vlastnosti jako formáty a přístupové protokoly, bibliografické údaje nebo administrativní data (např. datum/čas uložení objektu do repozitáře). Druhým je transakční záznam (transaction log) zaznamenávající veškeré transakce repozitáře týkající se daného digitálního objektu. Spolu s neměnnými a na repozitáři nezávislými klíčovými metadaty tvoří tyto dva záznamy základní metadatový popis digitálního objektu.

Digitální knihovny a Kahn-Wilenského architektura

Širší model digitálních knihoven, který uvádí klíčové oblasti, dává do souvislosti digitálnídokument včetně jeho uchování, upozorňuje také na okolí (intelektuální vlastnictví aekonomika), má ve svém středu interoperabilitu, metadat a také globální vyhledávání zdrojů

Integrace má za cíl zajistit uživateli jednotný (koherentní) přístup k relevantním digitálním informacím bez ohledu na jejich formu, formát, způsob a místo uložení.Teoreticky integraci zachycuje zejména tzv. Kahn-Wilenského architektura, kde jedefinovaný tzv. handle systém, globální resoluční distribuovaný mechanismus – systém kterýna základě jednoznačného identifikátoru digitálního objektu vrátí seznam repozitářů, vekterém je digitální objekt uložen. Slovo resoluční dosud nemá v českém jazyce protějšek, vychází z anglického resolution nebo nástroje s názvem resolver; znamená to znovu rozložit jednou složený výraz. Asi nejznámějším je v tomto smyslu standard openURL (NISO Z39.88), který umožňuje integraci skrze odkazy (URL – Uniform resource locator). Standard určuje strukturu skládaného výrazu, v tomto případě URL, systém jej vygeneruje v této struktuře. Přijímající systém tuto strukturu zná taktéž = je resolverem, znovu rozkládá daný výraz (URL) a zadává dovnitř svého systému. Typickým příkladem (zejména v ČR) takovéhořešení je služba SFX od společnosti Ex Libris a portál Jednotná informační brána(www.jib.cz). Uživatel zadá vyhledávácí dotaz, který je transformován do jednotné strukturystandardizované openURL a server SFX (linkový server nebo link revolver) jej předá, rozloží jednotlivým knihovním katalogům jejich struktuře – je tak možné prohledávat všechny zapojené instituce skrze jedno rozhraní.

Kahn-Wilenského architektura stanovuje jako základní prvek digitální objekt, datová struktura pro základní samostatně použitelnou informační jednotku tvořená dvěma základními částmi: obsahem (content) a klíčovými metadat (opatřený globálním jednoznačným identifikátorem digitálního objektu, označovaným jako handle, obsahuje dále vlastnosti (properties), obsah samotný (kontent) a transakční log (soupis všech operací, které s digitálním objektem proběhly). Tyto objekty jsou uloženy v repozitářích, jeho obsluhu a komunikaci s okolím zajišťuje přístupový protokol. Handle-systém je resolučním mechanismem pracující nad všemi repozitáři, který je schopen určit podle jednoznačného identifikátoru (handle), kde se digitální objekt nachází (i vícenásobně).Celý systém poté funguje následujícím způsobem. Uživatel zjistí skrze pokročilé uživatelské rozhraní, kde se jím požadovaný objekt nachází (search). Z nabízených si vybere zdroj(select), je předán identifikátor globálnímu resolučnímu mechanismu (retriever 1), ten jej přepracuje a vyžádá si z repozitáře daný dokument (retriever 2) a ten se zobrazí uživateli.

Příklady využití v praxi:

Analýzu logů použila přímo Národní technická knihovna a to v Polytematickém strukturovaném hesláři k tvorbě nových deskriptorů. Časté dotazy na knihy, které nemá knihovna ve fondu slouží jako podněty akvizičnímu oddělení. Jednotlivá hesla jsou zařazena do stromové struktury. Heslář v současnosti obsahuje přes 13 500 hesel ze všech základních oblastí lidského poznání.

Poznámky

↑ ^1,0 ^1,1 ^1,2 SMRT, Martin. Newsletter: Proč analyzovat logy. In: Dobrý web [online]. 2007 [cit. 2012-10-12]. Dostupné z: http://blog.dobryweb.cz/newsletter-proc-analyzovat-logy
↑ "Understand and Improve Your Web Site with Comprehensive Web Site Statistics. In: GTP iCOMMERCE [online]. 2007 [cit. 2012-10-12]. Dostupné z: http://www.gtp-icommerce.com/viewStory/Web+Site+Statistics
↑ BORGMAN, C., HIRSH, S. G., & HILLER, J. (1996). Rethinking online monitoring methods for infor-mation retrieval systems: From search product to search process. Journal of the American Society for htformation Science, 47(7), 568-583.
↑ JANSEN, B. J. (2006). Search log analysis: What it is, what's been done, how to do it. Library and Information Science Research, 28(3). 407-432.
↑ ^5,0 ^5,1 KELLY, D. (2006a). Measuring online information seeking context, part 1: Background and method. Journal of the American Society for Information Science and Technology, 57(13), 1729- 1739.
↑ ^6,0 ^6,1 KELLY, D. (2006b). Measuring online information seeking context, pail 2: Findings and discussion. Journal of the American Society .for Information Science and Technology, 57(14), 1862- 1874.
↑ ^7,0 ^7,1 YUN. G. W., Ford, J., Hawkins, R. P., Filigree, S., McTavish, F., Gustafson, D., & Bette, H. (2006). On the validity of client-side vs. server-side Web log data analysis. Internet Research, 16(5), 537-552.
↑ NICHOLAS, D. (2000). Assessing Information Needs: Tools, Techniques and Concepts for the Internet Age (2nd ed.). London: Europa Publications.
↑ MARCHIONINI, G. (2002). Co-evolution of user and organizational interfaces: A longitudinal case study of WWW dissemination of national statistics. Journal of the American Society for Information Science and Technology, 53(14), 1192-1211.

Použitá literatura

SMRT, Martin. Newsletter: Proč analyzovat logy. In: Dobrý web [online]. 2007 [cit. 2012-10-12]. Dostupné z: http://blog.dobryweb.cz/newsletter-proc-analyzovat-logy

BORGMAN, C., HIRSH, S. G., & HILLER, J. (1996). Rethinking online monitoring methods for infor-mation retrieval systems: From search product to search process. Journal of the American Society for htformation Science, 47(7), 568-583.

JANSEN, B. J. (2006). Search log analysis: What it is, what's been done, how to do it. Library and Information Science Research, 28(3). 407-432.

KELLY, D. (2006a). Measuring online information seeking context, part 1: Background and method. Journal of the American Society for Information Science and Technology, 57(13), 1729- 1739.

KELLY, D. (2006b). Measuring online information seeking context, pail 2: Findings and discussion. Journal of the American Society .for Information Science and Technology, 57(14), 1862- 1874.

MARCHIONINI, G. (2002). Co-evolution of user and organizational interfaces: A longitudinal case study of WWW dissemination of national statistics. Journal of the American Society for Information Science and Technology, 53(14), 1192-1211.

NICHOLAS, D. (2000). Assessing Information Needs: Tools, Techniques and Concepts for the Internet Age (2nd ed.). London: Europa Publications.

WILDEMUTH, Barbara M.Applications of social research methods to questions in information and library science. Westport, Conn.: Libraries Unlimited, 2009, 421 s.ISBN 15-915-8503-1

YUN. G. W., Ford, J., Hawkins, R. P., Filigree, S., McTavish, F., Gustafson, D., & Bette, H. (2006). On the validity of client-side vs. server-side Web log data analysis. Internet Research, 16(5), 537-552.

[smrt-1] 1,0 ^1,1 ^1,2 SMRT, Martin. Newsletter: Proč analyzovat logy. In: Dobrý web [online]. 2007 [cit. 2012-10-12]. Dostupné z: http://blog.dobryweb.cz/newsletter-proc-analyzovat-logy

[2] "Understand and Improve Your Web Site with Comprehensive Web Site Statistics. In: GTP iCOMMERCE [online]. 2007 [cit. 2012-10-12]. Dostupné z: http://www.gtp-icommerce.com/viewStory/Web+Site+Statistics

[3] BORGMAN, C., HIRSH, S. G., & HILLER, J. (1996). Rethinking online monitoring methods for infor-mation retrieval systems: From search product to search process. Journal of the American Society for htformation Science, 47(7), 568-583.

[4] JANSEN, B. J. (2006). Search log analysis: What it is, what's been done, how to do it. Library and Information Science Research, 28(3). 407-432.

[kellya-5] 5,0 ^5,1 KELLY, D. (2006a). Measuring online information seeking context, part 1: Background and method. Journal of the American Society for Information Science and Technology, 57(13), 1729- 1739.

[kellyb-6] 6,0 ^6,1 KELLY, D. (2006b). Measuring online information seeking context, pail 2: Findings and discussion. Journal of the American Society .for Information Science and Technology, 57(14), 1862- 1874.

[yun-7] 7,0 ^7,1 YUN. G. W., Ford, J., Hawkins, R. P., Filigree, S., McTavish, F., Gustafson, D., & Bette, H. (2006). On the validity of client-side vs. server-side Web log data analysis. Internet Research, 16(5), 537-552.

[8] NICHOLAS, D. (2000). Assessing Information Needs: Tools, Techniques and Concepts for the Internet Age (2nd ed.). London: Europa Publications.

[9] MARCHIONINI, G. (2002). Co-evolution of user and organizational interfaces: A longitudinal case study of WWW dissemination of national statistics. Journal of the American Society for Information Science and Technology, 53(14), 1192-1211.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

@@ Řádek 119: / Řádek 119: @@
 '''Identifikace vhodných datových prvků a zdrojů'''
-Nejčaštěji se výzkum provádí pomocí logu a využívá data zachycená stávajícími logovýmy programy. Údaje shromážděné v programu by měly být přezkoumány s ohledem na výzkumnou otázku. V určitých případech je možné přizpůsobit konfiguraci logového programu sběru dat a shromažďovat tak požadované údaje. Může být stanovena doba, po kterou jsou data sbírána. Data se mohou sbírat několik let nebo také jen jeden den.
+Tento design výzkumu využívá data zachycená stávajícími logovýmy programy. Údaje shromážděné v programu by měly být přezkoumány s ohledem na výzkumnou otázku. V určitých případech je možné přizpůsobit nastavení logového programu sběru dat a shromažďovat tak požadované údaje. To znamená, opravdu jen to, co nás zajímá. Může být také stanovena doba, po kterou jsou data sbírána. Data se mohou sbírat několik let nebo také jen jeden den.
-V této fázi může také docházet k rozvoji kódování pro kategorizaci webových stránek, typů webových stránek podle obsahu, identifikace IP adres nebo rozsah IP adres. Jsou identifikovány i doplňkové zdroje dat, jako je např. topologie webových stránek.
 '''Sběr dat'''
-Sběr dat by měl být relativně jednoduchá aktivita. Nicméně, výzkumníci by měli sledovat logování dat a zajistit, aby údaje byly zachyceny, podle předpokladů. Na straně clienta by měly být údaje sledovány a shromažďovány v pravidelných intervalech po celou dobu studia. To je obzvláště důležité, protože client-side vyžaduje značné prostředky na výzkum. V mnoha případech, je to také vhodný čas pro sběr dat z jiných, předem určených zdrojů dat a údajů z doplňkových metod.
+Sběr dat by měl být relativně jednoduchá aktivita. Nicméně, i přesto vy výzkumníci měli pečlivě sledovat logování dat a zajistit, aby údaje byly zachyceny přesně podle předem daných pravidel. Na straně clienta by měly být údaje sledovány a shromažďovány v pravidelných intervalech po celou dobu studia. V mnoha případech je fáze sběru dat vhodný čas pro sběr dat z jiných, předem určených zdrojů dat a údajů z doplňkových metod.
 '''Zpracování a příprava dat'''
@@ Řádek 131: / Řádek 129: @@
 Zpracování dat a příprava je nejdůležitějším krokem ve studií logů. Během procesu třídění dat se provádí dvě důležité aktivity:
-)Poškozená a cizí data jsou zahozena. 2)Původní datové soubory jsou zpracovány k získání sekundárních dat.
+)Poškozená a cizí data jsou zahozena.
+)Původní datové soubory jsou zpracovány k získání sekundárních dat.
-Přesné kroky při zpracování údajů budou záviset na povaze výzkumné otázky a složení získaných dat. Běžně jsou data importována do relační databáze, kde je použit tabulkový procesor, skripta nebo jsou aplikovány kombinací těchto dvou metod. Obecně platí, že je vhodné přiřadit jedinečné ID, na položky hned na začátku datového čistícího/třídícího procesu. Může být také užitečné vytvořit a zaznamenat souhrnné statistiky týkající se vyřazených údajů.
+Přesné kroky při zpracování údajů budou záviset na povaze výzkumné otázky a složení získaných dat. Běžně jsou data importována do relační databáze, kde je použit tabulkový procesor či skripta. Občas je použita kombinace těchto dvou metod. Obecně platí, že je vhodné přiřadit položkám jedinečné ID hned na začátku datového čistícího/třídícího procesu. Může být také užitečné vytvořit a zaznamenat souhrnné statistiky týkající se vyřazených údajů.
-Je nutné, aby se dosáhlo jednotného přístupu na stránky. Když se na jedné ze stránek serveru provede rekordní počet transakcí, objevují se často četné čáry spojené se stahováním a zobrazení jedné stránky. Často dochází k odstranění souborů konkrétních typů, jako jsou např. záznamy s grafickými soubory a další vložené soubory, které stránku vytvářejí. Odstranění těchto prvnků snižuje položky, které byly pravděpodobně vytvořené lidmi, a také snižuje množství transakcí na jednu položku pro každou požadovanou stránku. Ve studiích, které jsou primárně zaměřeny na obrazy, je výhodnější zachovat obrazové soubory daného typu, jeho velikost a odstranit logo spojené s dalšími prvky. Spíše než konkrétní typy souborů, jsou soubory vybrány pro zahrnutí nebo vyloučení na základě seznamu konkrétních názvů souborů. Stránky bývají kódovány na základě svého obsahu, nebo na základě předpokladů, týkajících se základních funkcí každé stránky.
 '''Uživatel a Identifikace'''
-Identifikace unikátních uživatelů, zájmu uživatele nebo skupiny uživatelů, jako je rozsah IP adres z veřejně přístupných terminálů nebo jiné charakteristice, je nutná pro většinu datových analýz. Ve většině případů jsou data omezena nastavením pro konkrétní uživatele.
+Identifikace unikátních uživatelů, zájmu uživatele nebo skupiny uživatelů je nutná pro většinu datových analýz. Ve většině případů jsou data omezena nastavením pro konkrétní uživatele.
-V analýze webových souborů můžeme např. na ID uživatele nastavit cookie a omezené množství transakcí. Ve studiích, které používají webová logová data, nemají uživatelé identifikační značky, jakou jsou cookie nebo přihlašovací údaje. IP adresy mohou být použity i ve spojení s jinými údaji. Cílem skupinové identifikace je rozdělit proud transakcí do jednotlivých skupin. Mnohé studie používají jako maximální hranici 30 minut. Určení časové hranice pro skupinovou identifikaci by neměly být svévolné, protože následná analýza se bude opírat o to, jak jsou tyto relace identifikovány. Definování skupin příliš úzce rozdělí uživatele do několika skupin, a definování skupin příliš široce bude seskupovat jednotlivé uživatelské skupiny mezi sebou. Z toho vyplývá, že je téměř nemožné definovat pouze jeden práh s úplnou přesností. Podle úrovně znalosti užívání webu, obsahu, a zkušenosti ze studií v souvisejících oblastech jsme schopni odvodit tzv. rozumnou úroveň, jako jsou například odchylky ve stanovení hranice. Ta se může pohybovat od 5 minut až k 60 minutám.
+V analýze webových souborů můžeme např. na ID uživatele nastavit cookie a omezené množství transakcí. Ve studiích, které používají webová logová data, nemají uživatelé identifikační značky, jakou jsou cookie nebo přihlašovací údaje. IP adresy mohou být použity i ve spojení s jinými údaji. Cílem skupinové identifikace je rozdělit proud transakcí do jednotlivých skupin. Mnohé studie používají jako maximální hranici 30 minut. Určení časové hranice pro skupinovou identifikaci by nemělo být svévolné. Definování skupin příliš úzce rozdělí uživatele do několika skupin, a definování skupin příliš široce bude seskupovat jednotlivé uživatelské skupiny mezi sebou. Z toho vyplývá, že je téměř nemožné definovat pouze jeden práh s úplnou přesností. Podle úrovně znalosti užívání webu, obsahu, a zkušenosti ze studií v souvisejících oblastech jsme schopni odvodit tzv. rozumnou úroveň, jako jsou například odchylky ve stanovení hranice. Ta se může pohybovat od 5 minut až k 60 minutám.
 '''Klasifikace a kódování informačního chování'''
@@ Řádek 152: / Řádek 150: @@
 '''Klasifikace a kódování stránek a jejich vlastnosti'''
-Zaměření výzkumné otázky se odvíjí od vlastností zobrazených stránek. U některých studií, budete mít zájem pouze o to, co si lidé na stránkách prohlíželi a jak často. U ostatních studií, možná budete mít zájem o cestě uživatele po stránkách. Pro tyto účely může stránky třídit, kódovat, také můžete učinit závěry podle typu zobrazených stránek,....
+Zaměření výzkumné otázky se odvíjí od vlastností zobrazených stránek. U některých studií, budete mít zájem pouze o to, co si lidé na stránkách prohlíželi a jak často. U ostatních studií, možná budete mít zájem vědět podrobnosti o cestě uživatele po stránkách. Pro tyto účely můžete stránky třídit, kódovat. Také můžete učinit závěry podle typu zobrazených stránek,....
-Kódování stránek lze provádět na několika úrovních na základě obsahu stránky, vztahu stránky a celkového systému, nebo stránky a její funkčnosti. Například Cooley navrhl, že webové stránky by mohly být klasifikovány podle toho, zda stránka obsahuje hlavní, obsahové, navigační, vyhledávací nebo osobní stránky. Ostatní běžně používané stránky kategorizujeme podle výsledků, na základě dokumentu nebo typu souboru v databázi, digitálních knihovnách, na základě jeho pozice nebo funkčnosti. Jiné způsoby kódování stránky by mohly být založeny na poměru odkazů na texty, proporcí obrazových souborů, průměrné referenční délky, důležité informace obsažené v metadatech stránky, a tak dále.
+Kódování stránek lze provádět na několika úrovních na základě obsahu stránky, vztahu stránky a celkového systému. Například Cooley navrhl, že webové stránky by mohly být klasifikovány podle toho, zda stránka obsahuje hlavní, obsahové, navigační, vyhledávací nebo osobní stránky. Ostatní běžně používané stránky kategorizujeme podle výsledků, na základě dokumentu nebo typu souboru v databázi, digitálních knihovnách, na základě jeho pozice nebo funkčnosti. Jiné způsoby kódování stránky by mohly být založeny na poměru odkazů na texty, proporcí obrazových souborů, průměrné referenční délky, důležité informace obsažené v metadatech stránky, a tak dále.
 === Jaké jsou příklady využití tohoto designu v ISK? ===

Neregistrovaný

Hledat

Analýzy logů (statistika webu): Porovnání verzí

Jmenné prostory

Více

Možnosti stránky

Aktuální verze z 22. 1. 2013, 21:33

Obsah

Co je pro daný design výzkumu charakteristické?

Kdy je vhodné tento design/tuto metodu použít?

Jaké jsou výhody a nevýhody?

Jak takový výzkum probíhá?

Jaké jsou příklady využití tohoto designu v ISK?

Poznámky

Použitá literatura

Navigace

Navigace

Pracovní prostory

Wiki nástroje

Wiki nástroje

Neregistrovaný

Hledat

Analýzy logů (statistika webu): Porovnání verzí

Aktuální verze z 22. 1. 2013, 21:33

Co je pro daný design výzkumu charakteristické?

Kdy je vhodné tento design/tuto metodu použít?

Jaké jsou výhody a nevýhody?

Jak takový výzkum probíhá?

Jaké jsou příklady využití tohoto designu v ISK?

Poznámky

Použitá literatura

Navigace

Wiki nástroje

Nástroje ke stránkám