Vzorkování

Co je to vzorkování a jaký vliv má na nasbíraná data?

Každý program má své omezení v počtu nasbíraných dat v jednom měsíci. MonkeyTracker automaticky sleduje, jak rychle se na dané doméně limit čerpá. Pokud se čerpá příliš rychle a došlo by k jeho vyčerpání dříve než nastane poslední den v měsíci, vypočte se a nastaví tzv. míra vzorkování. Ta říká, kolik ze statistik musí být průběžně zahazováno tak, aby k dočerpání limitu došlo až poslední den v měsíci a všechny dny měly tudíž pokrytí daty.

Pokud se tedy u vaší domény zobrazuje míra vzorkování 60%, znamená to, že 6 z deseti měření bude systémem zahozeno. Nízká míra vzorkování nemusí znamenat žádný problém - nasbíraná data jsou dostatečně veliká, aby poskytla reprezentativní výsledky. Vysoká míra vzorkování znamená problém především u stránek, které nemají na webu takovou návštěvnost - obvykle není problémem pro hlavní stránku webu, protože zde bude s největší pravděpodobností vzorek vždy dostatečně veliký.

Pro ilustraci si tu rozeberme jednoduchý příklad:

Máme webové řešení, kde se měsíčně odehraje 100 tisíc kliknutí. Využíváme free program s limitací 20 tisíc kliknutí měsíčně. Systém brzy sám zjistí, že musí nastavit 80% míru vzorkování, aby mohl získávat data po celý měsíc, aniž by přesáhl povolené limity. Na hlavní stránce (homepage) se odehraje 70% všech kliknutí, ale na stránce košík pouze 2% kliknutí.

Pokud nás budou zajímat statistiky pro hlavní stránku, je pro nás free program dostačující - za měsíc tam získáme: 100*0,2*0,7 = 14 tisíc kliknutí
Pokud nás ale zajímají statistiky pro košík, nebudeme mít statisticky dostatečně kvalitní vzorek pro to, abychom nad ním mohli dělat nějaké závěry = 100*0,2*0,02 = 400 kliknutí.

V tomto příkladě jsme zanedbali i rozdělení měření pro různá rozlišení klientů, které dále statistiky "ředí". Jinými slovy stránky s menší návštěvností či větším rozptylem zájmu uživatelů trpí vzorkováním více než jiné a to až do té míry, že údaje pro ně nasbírané jsou nerelevantní.

Poznámka:

Automatická logika upravující míru vzorkování pracuje v určitých intervalech a je proto možné, že limit programu se podaří vyčerpat i před koncem měsíce, či dokonce přesáhnout měsíční limity svého programu. Pokud se nárazově zvýší provoz na webových stránkách (např. kvůli DOS útoku) je možné, že systém zaznamená i více měření než je povoleno, protože přepočet vzorkování přijde až s určitým časovým odstupem.