Wybory i sondaże a szansa na olimpijskie medale

Temperatura polityczna w Polsce w ostatnim tygodniu znacznie wzrosła. Rzucane były oskarżenia o fałszerstwo wyborów, o ,,podpalanie Polski” i tym podobne określenia. Spróbujemy nieco zredukować te emocje szczyptą statystycznego rozumowania.

W ostatnich wyborach PSL zdobyło 22.68% poparcia. Według badania IPSOS przeprowadzonego dla TVP, TVN i Polsatu poparcie dla PSL wyniosło równo 17%, próba była wielkości 800. Zastanówmy się jak prawdopodobna jest taka różnica. Zakładamy, że zarówno wybory jak i sondaż zostały prawidłowo przeprowadzone. Jakie jest prawdopodobieństwo, że dobrze wykonany sondaż na wskaże 17% poparcia dla PSL jeśli rzeczywiste poparcie wynosi 22.68%? ,,Analizę” wykonamy w eRze – cały kod na dole strony.

Liczba oddanych głosów na partię ma rozkład dwumianowy (liczba sukcesów w schemacie Bernoulliego). Ponieważ próba jest duża, to możemy przybliżyć tę wartość rozkładem normalnym o wartości oczekiwanej równej n*p = 189.44 i wariancji n*p*(1-p) = 144.58. Wynik z sondażu to 0.17*800 = 136. Oznaczmy zmierzoną w sondażu liczbę głosów przez X.
P(X < 136) = 4.4e-06 = 0.0000044. Czy to dużo czy mało? Szanse takiego zdarzenia są jak 1 do 200000 (dwustu tysięcy). To prawdopodobieństwo jest tak duże jak to, że losowo wybrany Polak, powtórzę wybrany losowo z całej populacji Polski, okaże się medalistą igrzysk olimpijskich. Wydaje mi się, że jest to mała liczba.
Dla porównania, w wyborach w roku 2010 wynik PSL również został niedoszacowany w badaniach exit pools. Wtedy różnica wynosiła 3.3%, przy rzeczywistym poparciu 16.3%. Szanse takie zdarzenia są jak 1 do 200.

Jaki z tego wniosek? Bynajmniej nie taki, że wybory są sfałszowane. Po prostu próba z sondażu nie jest reprezentatywna dla całej populacji. Występuje systematyczny błąd, który zaniża poparcie dla PSL-u. Oczywiście może być to spowodowane tym, że IPSOS nie uwzględnił, które głosy ,,mają większą szansę na bycie nieważnymi”. Ale przyczyna może leżeć także po stronie firmy IPSOS – próba może być źle dobrana, np. możemy mieć nadreprezentację jakiejś grupy społecznej. Firmie IPSOS trzeba przy tym oddać, że w wyborach do parlamentu europejskiego dostała bardzo dokładne oszacowania poparcia. Nie wystarczy mieć wątpliwości, żeby powiedzieć, że wybory są nieuczciwe – trzeba to pokazać! Wiele trudno wyjaśnialnych zjawisk i korelacji może być dziełem przypadku. Ponieważ, jako ludzkość, mierzymy bardzo dużo, to raz na jakiś czas trafiamy na ,,podejrzany wynik”

I jeszce informacja dla tych co lubią tropić spiski.
Ciekawą analizą w wyborach byłoby zbadanie czy istnieje jakaś zależność między liczbą głosów nieważnych a poparciem dla poszczególnych partii. Czy na poziomie powiatów, gmin można takie zależności zaobserwować? Czy istnieją komisje obwodowe, które mają nienaturalnie dużo głosów nieważnych w porównaniu z sąsiednimi komisjami? Niestety póki co PKW nie upubliczniła pełnych wyników. Dane z wyborów z roku 2010 można znależć tu.
Inną ciekawą analizą jest rozkład poparcia dla partii w komisjach obwodowych. Fizycy z Imperial College w Lodynie napisali nawet na ten temat pracę naukową. W skrócie – mając bardzo wiele komisji oczekujemy, że wyniki będą miały pewną ,,regularność”. Tymczasem w wyborach w Rosji można zaobserwować, że jedna Partia nadspodziewanie często zdobywa okrągłe wyniki 75%, 80%, 85%…

Kod:

[code lang=text]
p n mu sigma #wartość z sondaży
sondaz #dystrybuanta dla rozkładu normalnego
pnorm(sondaz, mu, sigma)
[/code]

Uwagi:

  1. Wielkości próby w badaniu IPSOS znalazłem w internecie – nie potrafię w tej chwili podać źródła
  2. Bardzo polecam wpis o sondażach na blogu smarterpoland. Dużo mądrzej i więcej napisane niż tutaj – polecam czytać komentarze!

EDIT: Została mi zwrócona uwaga, że liczba 800 odnosi się nie do liczby respondentów a do liczby komisji obwodowych w których prowadzono sondaż. Oznacza to, że próba jest znacznie większa i szansa na ,,zgodność” wyników z sondażem znacząco mniejsza.

5 thoughts on “Wybory i sondaże a szansa na olimpijskie medale

    1. Dziękuję bardzo za komentarz, nie mogłem znaleźć tej informacji. Nie podważa to na szczęście głównej tezy, ale czyni porównanie z medalistami igrzysk nieadekwatnym 🙂

  1. 1. Skoro jest większa próba to prawdopodobieństwo jest istotnie niższe, a nawet wręcz równe 0. Z moich wyliczeń wynika, że jest to P (X<14450)=P (Z<−39.57) = 9,94*10^-343 czyli należy rozpatrywać to zdarzenie w kategoriach cudu.

    2. Odnośnie porównania exit poll vs wybory tajemnicza jest też robieżność tylko dwóch partii – PIS – 5pp, PSL + 6pp. Jeżeli głównie nieważne głosy miały na to wpływ, to wyborcy PiS kilkukrotnie częściej niż pozostali wrzucali nieważne głosy, a wyborcy PSL praktycznie byli bezbłędni. Pozostałe partie "myliły" się na oczekiwanym w exit poll poziomie.

    3. Nie rozumiem dlaczego odrzucasz tezę że wybory mogły być sfałszowane? Przecież statystyka nie daje Ci odpowiedzi – spodziewana wartość jest poza racjonalnym przedziałem ufności. Jedna z możliwości jak mogło to wyglądać w białych rękawiczkach jest opisana pod linkiem: http://jaroslawflis.salon24.pl/617056,chlopy-w-czepku

    1. Ad. 1 To miałem na myśli – wniosek, że jest niezgodność pozostaje w mocy. Dziękuję za przeprowadzenie obliczeń. 40 sigma to rzeczywiście nie przelewki…
      Ad. 2 Nie wiemy czy pracownia IPSOS nie popełniła innego błędu systematycznego powodującego obciążenie sondażu. Niestety nie znam żadnych pracowników tej firmy a na ich stronie nie ma na ten temat informacji.
      Ad. 3 Jeśli mam niezgodność sondażu z wynikami wyborów to, dla mnie, oznacza to, że przede wszystkim powinienem wątpić w sondaż a nie w wyniki. Grupa z sondażu okazała się niereprezentatywna – to fakt. Oczywiście może być tak, że wynika to z ,,unieważniania” głosów oddanych na PiS. Tylko, że nie ma na to żadnego dowodu statystycznego (swoją drogą w ogóle nie ma nawet dostępnych danych). Nie umiem się odnieść do zarzutów prawnych czy składanych doniesień do prokuratury – nie znam się na tym.

      Dostępne są dane z wyborów z roku 2010, można na nich sprawdzić czy wtedy działo się coś niepokojącego (pod względem statystycznym). Niestety nie ma ich dostępnych w plikach tylko jako treść stron internetowych. O tym jak je ściągnąć napiszę niedługo na blogu 🙂

      1. Ad 3. Patrząc na skalę nieprawidłowości to się zastanawiam czy nie należy „odwrócić” procesu i wskazać co jest w normie, bo chyba byłoby tego mniej 🙂

        Na pewno będzie co analizować, jak już pojawią się bardziej szczegółowe dane i będą w miarę wiarygodne. Myślę, żę to może być ciekawy materiał na zajęcia dla studentów. Chociaż w naszym kraju to chyba nie istnieje coś takiego jak ‚dowód statystyczny’, bo niektórzy uznają że statystyka to tylko jeden z rodzajów kłamstwa więc nic nie może udowodnić (swoją drogą nie cierpię tego ignoranckiego powiedzenia).

        Jak będzie ten tutorial dla danych z 2010 to chętnie się przyglądnę porównaniu mazowieckie vs reszta, w kontekście wpływu na wyniki „broszury zwanej kartą”.

Leave a Reply

Your email address will not be published.

Time limit is exhausted. Please reload CAPTCHA.