< stek

Megapanel PBI/Gemius: teoria z błędem

Uwaga, na wstępie bardzo ważne ogłoszenie:

Nie zależy mi już na kompromitacji Gemiusa ani PBI.

Gemius wycofał się niedawno z publikowania bezużytecznego rankingu zasięgów wyszukiwarek, w którym jego klienci wypadali dużo lepiej niż w tym, który był uprzednio głównym na ranking.pl. Nieśmiało przyznano też, że sposób, w jaki był on wprowadzony, pozostawiał wiele do życzenia, chociaż początkowo twierdzono inaczej.

Gemiusa traktuję teraz jako jedną z wielu "typowych firm". Zacząłem z nimi nawet znowu rozmawiać (naprawdę), ale nie oznacza to jednak, że nie mam już zastrzeżeń co do ich działalności -- nadal aktualne pozostają niektóre z uwag, jakie kierowałem odnośnie prowadzonych badań, w tym także niepublikowane.

Do rzeczy.

Zupełnie przypadkiem (słowo honoru) znalazłem błąd w algorytmie, który stanowi podstawę metodologii badania Megapanel PBI/Gemius. Konkretnie chodzi o założenia do algorytmu, według którego obliczane są względne zasięgi witryn, które później używa się do wyznaczania liczby tzw. "real users" (osób) odwiedzających poszczególne witryny.

Okazuje się, że wyznaczana tym algorytmem szacunkowa liczba cookies, jaka by występowała wśród wszystkich użytkowników w polskim internecie, gdyby nie występowało kasowanie cookies (ta liczba jest właśnie używana do wyznaczania względnych zasięgów), może być zawyżona lub, co bardziej prawdopodobne, zaniżona przy pełnym spełnianiu obecnych założeń. Jeśli będzie zaniżona, to oczywiście względne zasięgi poszczególnych witryn będą odpowiednio większe i tym samym większe będą szacunkowe liczby osób je odwiedzających.

Opis algorytmu i jego założenia można od niedawna (pół roku?) znaleźć w dokumencie Metoda estymacji rzeczywistej liczby użytkowników (real users) witryn internetowych, dostępnym ze strony ogólnego opisu metodologii badania Megapanel PBI/Gemius (aktualna wersja pliku datowana na 2 lutego 2006).

Od razu mówię, że nie jest tak, że to tylko opis tam przedstawiony jest błędny, ani tak, że tylko mi się tak wydaje, że coś jest źle. Na spotkaniu z szefami Gemiusa potwierdzono, że opis jest prawidłowy, zarówno w dokumencie, jak i moim jego rozumieniu, a po przedstawieniu "odkrycia" przyznano, że obecne założenia są faktycznie błędne i zostaną zmienione (może dobrym pomysłem byłby publiczny komentarz w tej sprawie?).

Nie będę tutaj jednak opisywał szczegółów, na czym polega błędność tych założeń, bo podobno mało kto rozumie działanie tego algorytmu. Przedstawię tylko kilka obserwacji związanych ze znalezieniem błędu i co z tego wynika.

AKTUALIZACJA:

Zgodnie z zapowiedziami założenia do algorytmu zostały zmienione (z adnotacją, że są obecnie przedmiotem badań).

AKTUALIZACJA:

Po dwóch miesiącach analiz nie wiadomo nic nowego w tej sprawie.

2006-06-27 11:51:00 | linkuj