Megapanel PBI/Gemius: teoria z błędem
Uwaga, na wstępie bardzo ważne ogłoszenie:
Nie zależy mi już na kompromitacji Gemiusa ani PBI.
Gemius wycofał się niedawno z publikowania bezużytecznego rankingu zasięgów wyszukiwarek, w którym jego klienci wypadali dużo lepiej niż w tym, który był uprzednio głównym na ranking.pl. Nieśmiało przyznano też, że sposób, w jaki był on wprowadzony, pozostawiał wiele do życzenia, chociaż początkowo twierdzono inaczej.
Gemiusa traktuję teraz jako jedną z wielu "typowych firm". Zacząłem z nimi nawet znowu rozmawiać (naprawdę), ale nie oznacza to jednak, że nie mam już zastrzeżeń co do ich działalności -- nadal aktualne pozostają niektóre z uwag, jakie kierowałem odnośnie prowadzonych badań, w tym także niepublikowane.
Do rzeczy.
Zupełnie przypadkiem (słowo honoru) znalazłem błąd w algorytmie, który stanowi podstawę metodologii badania Megapanel PBI/Gemius. Konkretnie chodzi o założenia do algorytmu, według którego obliczane są względne zasięgi witryn, które później używa się do wyznaczania liczby tzw. "real users" (osób) odwiedzających poszczególne witryny.
Okazuje się, że wyznaczana tym algorytmem szacunkowa liczba cookies, jaka by występowała wśród wszystkich użytkowników w polskim internecie, gdyby nie występowało kasowanie cookies (ta liczba jest właśnie używana do wyznaczania względnych zasięgów), może być zawyżona lub, co bardziej prawdopodobne, zaniżona przy pełnym spełnianiu obecnych założeń. Jeśli będzie zaniżona, to oczywiście względne zasięgi poszczególnych witryn będą odpowiednio większe i tym samym większe będą szacunkowe liczby osób je odwiedzających.
Opis algorytmu i jego założenia można od niedawna (pół roku?) znaleźć w dokumencie Metoda estymacji rzeczywistej liczby użytkowników (real users) witryn internetowych, dostępnym ze strony ogólnego opisu metodologii badania Megapanel PBI/Gemius (aktualna wersja pliku datowana na 2 lutego 2006).
Od razu mówię, że nie jest tak, że to tylko opis tam przedstawiony jest błędny, ani tak, że tylko mi się tak wydaje, że coś jest źle. Na spotkaniu z szefami Gemiusa potwierdzono, że opis jest prawidłowy, zarówno w dokumencie, jak i moim jego rozumieniu, a po przedstawieniu "odkrycia" przyznano, że obecne założenia są faktycznie błędne i zostaną zmienione (może dobrym pomysłem byłby publiczny komentarz w tej sprawie?).
Nie będę tutaj jednak opisywał szczegółów, na czym polega błędność tych założeń, bo podobno mało kto rozumie działanie tego algorytmu. Przedstawię tylko kilka obserwacji związanych ze znalezieniem błędu i co z tego wynika.
-
Na wstępie dobra wiadomość (na uspokojenie): mimo błędnych założeń algorytm wyznaczania liczby "real users" może dawać "poprawne" wyniki, jeśli prawidłowe założenie, które jest potrzebne dla poprawności algorytmu, będzie prawdziwe.
Założenie, którego brakuje, brzmi mniej więcej tak: stosunek liczby odsłon wykonywanych łącznie przez osoby, które nie skasowały cookie w badanym miesiącu, na monitorowanych witrynach do liczby wszystkich odsłon wszystkich użytkowników na monitorowanych witrynach jest taki sam, jak stosunek liczby odsłon wykonywanych przez te osoby na wszystkich witrynach (monitorowanych i niemonitorowanych) do liczby wszystkich odsłon w polskim internecie.
Czy takie założenie jest prawdziwe przy monitorowaniu tylu odsłon, ile monitoruje Gemius (kiedyś było to podobno 50% wszystkich odsłon w polskim internecie)? Trudno powiedzieć. Tym bardziej, że Gemius nie ma danych o odsłonach wykonywanych na niemonitorowanych witrynach poza tymi skrzywionymi, wykonywanymi przez grupkę osób biorącą udział w badaniu panelowym.
Gdyby okazało się, że twarde dane (?) nie potwierdzają sensowności potrzebnego założenia, to mielibyśmy najprostsze wyjaśnienie, skąd bierze się unikalność metodologii badania Megapanel na skalę światową, jak dumnie jest to często podkreślane. Trzeba tutaj przyznać, że nie można tego wykluczać, bo założenie jest w zasadzie dobrane "pod algorytm" (musi być takie założenie, żeby algorytm miał sens), a nie na odwrót -- robimy na wstępie pewne założenia wynikające z obserwacji, badań itp., a dopiero z nimi konstruujemy algorytm.
-
Interesujące jest to, że Gemius od razu na spotkaniu, na którym zapoznał się po raz pierwszy z problemem, zapowiedział dopisanie prawidłowego założenia jeszcze na początku tego tygodnia (faktycznie potrzebne jest zastąpienie jednego założenia z obecnych, tego mówiącego o monitorowaniu 99.9% użytkowników, a nie dopisanie nowego), chociaż to nie jest wcale takie oczywiste, czy to nowe założenie jest spełniane -- na pewno jest jednak konieczne, żeby algorytm i cała metodologia miały sens.
Na pytanie, dlaczego panowie z Gemiusa sądzą, że to założenie miałoby być prawdziwe, padła, autentycznie, odpowiedź: "bo nie ma powodów, by sądzić, że nie jest prawdziwe". Stosując tego typu rozumowanie, można powiedzieć, że Gemius daje łapówki, i to sporo, bo nie ma powodów, by sądzić, że tak nie jest.
(Marcin: musisz bardziej uważać na to, co przy mnie mówisz).
-
Zdumiewające jest to, że błędne założenia do algorytmu nie zostały zauważone przez kilka lat od uruchomienia badania Megapanel PBI/Gemius, nawet mimo tego, że metodologia z algorytmem były wcześniej prezentowane na różnych międzynarodowych konferencjach branżowych, zaakceptowane przez radę badania PBI, jak i zagraniczne stowarzyszenia.
Gdyby opis algorytmu nie pojawił się kilka miesięcy temu na stronach Gemiusa (po usilnych prośbach), błąd pozostawałby zapewne dalej niezauważony.
Gemius mimo wszystko pozostaje dalej niechętny publikowaniu szczegółów stosowanej metodologii
pod pretekstem, podając jako powód chęć zachowania przewagi konkurencyjnej nad innymi firmami badawczymi. Z tego powodu nie można już m.in. znaleźć opisu nawet tego ww. algorytmu na angielskich stronach Gemiusa, chociaż kiedyś był tam dostępny.
AKTUALIZACJA:
Zgodnie z zapowiedziami założenia do algorytmu zostały zmienione (z adnotacją, że są obecnie przedmiotem badań).
AKTUALIZACJA:
Po dwóch miesiącach analiz nie wiadomo nic nowego w tej sprawie.
2006-06-27 11:51:00 | linkuj