Normalność i skrajność czyli o wyborach w wydaniu mazowieckim
Powoli przycichają dyskusje polityczne na temat ostatnich wyborów samorządowych, co oznacza, że czas najwyższy aby się zabrać na wykonanie porządniejszej analizy danych.
Niestety szczegółowe dane, to znaczy na poziomie komisji obwodowych, dotyczące ostatnich wyborów nie są póki co udostępnione na stronie PKW. Wobec tego ściągnąłem wyniki wyborów z roku 2010. Uzyskanie tychże wyników nie jest bynajmniej zadaniem trywialnym, ale odrobina wyrażeń regularnych załatwiła sprawę. Jak dotąd mam ściągnięte i analizuję jedynie dane dla Mazowsza.
Cóż ciekawego można z tych danych wyczytać?
Rozkłady liczby głosów wcale nie mają rozkładu normalnego (było to dla mnie pewnym zaskoczeniem). Wyniki PiS i SLD mają rozkłady lekko skośne (w porównaniu z rozkładem normalnym). Wyniki PO mają rozkład dwumodalny. PSL jest jeszcze większym dziwactwem - wpierw jeden pik, a następnie coś bardzo skośnego.
Być może rozkłady dla PO i PSL są mieszankami dwóch lub więcej rozkładów normalnych? Zobaczmy jak wyglądają histogramy bez jądrowej estymacji funkcji gęstości.
Pierwszy pik dla PSL jest zapewne związany z miastami (to jeszcze niesprawdzona teza). Dlaczego potem mamy rozkład jednostajny? Nie umiem w tej chwili znaleźć na to wytłumaczenia.
Rozkład poparcia dla PO zdaje się wskazywać na to, że partia ta budzi skrajne postawy wyborców. Jest wiele komisji gdzie ma ona niskie poparcie i wiele gdzie jest ono bardzo wysokie. Hipoteza o pochodzeniu z mieszanki rozkładów normalnych nie została jeszcze sprawdzona.
Kody w języku R jakie zostały użyte w tej, wstępnej, analizie dostępne są na githubie.
Wszelkie sugestie odnośnie tego jakie pytania dotyczące tych danych można zadać, a zwłaszcza sugestie odwołujące się do artykułów z czasopism socjologicznych, są mile widziane.
Uwaga techniczna: z wykresów usunięte są wyniki dla małych komisji (poniżej 100 obywateli). Jest ich około stu.