Czy da się za pomocą jednego wykresu pokazać funkcjonowanie komunikacji zbiorowej we Wrocławiu? Jak najbardziej. W dzisiejszym wpisie pokażę, w kilku krótkich krokach, jak można zwizualizować działanie komunikacji miejskiej. Teraz czas na spełnienie tej, nieco buńczucznej, zapowiedzi. Nie napiszę o wielu istotnych kwestiach jak szybkość jazdy, klimatyzacja pojazdów czy metrobus. Pokażę za to, gdzie i jak często kursują tramwaje i autobusy. Wszystkie dane zostały pobrane ze strony Wrocławia. Część z BIP, cześć ze strony o rozkładach jazdy.

Kontynuuj czytanie

Rozkłady poparcia dla partii w komisjach obwodowych, czyli poparcie w pojedynczych lokalach wyborczych, nie mają rozkładu normalnego i mają różny kształt w zależność od partii. Przynajmniej w Polsce. Oznacza to nie tylko, że partie cieszą się różną skalą poparcia społecznego, ale też, że niektóre partie wzbudzają bardziej skrajne odczucia wyborców niż inne, tj. albo ich poparcie jest bardzo wysokie, albo bardzo niskie. W dzisiejszym poście postaram się odpowiedzieć na pytania: Czy jeśli pogrupujemy wyniki z komisji obwodowych względem województw to ,,odzyskamy" normalność?

Kontynuuj czytanie

Powoli przycichają dyskusje polityczne na temat ostatnich wyborów samorządowych, co oznacza, że czas najwyższy aby się zabrać na wykonanie porządniejszej analizy danych. Niestety szczegółowe dane, to znaczy na poziomie komisji obwodowych, dotyczące ostatnich wyborów nie są póki co udostępnione na stronie PKW. Wobec tego ściągnąłem wyniki wyborów z roku 2010. Uzyskanie tychże wyników nie jest bynajmniej zadaniem trywialnym, ale odrobina wyrażeń regularnych załatwiła sprawę. Jak dotąd mam ściągnięte i analizuję jedynie dane dla Mazowsza.

Kontynuuj czytanie

Teraz kilka szczegółów technicznych. W Ubuntu plik konfiguracyjny nazywa się .emacs i znajduje się w katalogu domowym. Biblioteki dobrze jest umieszczać w jakimś ustalonym miejscu np. folderze .emacs.d/. Niestety nie potrafię dać żadnych wskazówek użytkownikom Windowsa oprócz tego linku. Poniżej zamieszczam swój plik .emacs. W kolejnych postach postaram się wyjaśnić te części, które lepiej zrozumiałem podczas swoich przygód z emacsem. Podstawą dla mojego pliku są informacje zmieszczone na blogu Jessici Hamrick.

Kontynuuj czytanie

Temperatura polityczna w Polsce w ostatnim tygodniu znacznie wzrosła. Rzucane były oskarżenia o fałszerstwo wyborów, o ,,podpalanie Polski" i tym podobne określenia. Spróbujemy nieco zredukować te emocje szczyptą statystycznego rozumowania. W ostatnich wyborach PSL zdobyło 22.68% poparcia. Według badania IPSOS przeprowadzonego dla TVP, TVN i Polsatu poparcie dla PSL wyniosło równo 17%, próba była wielkości 800. Zastanówmy się jak prawdopodobna jest taka różnica. Zakładamy, że zarówno wybory jak i sondaż zostały prawidłowo przeprowadzone.

Kontynuuj czytanie

Widząc ogromną liczbę artykułów na blogach dotyczących RStudio, mam wrażenie, że dominuje ono w dziedzinie IDE dla R. Z tego co wiem, to konkurencji w środowiskach ,,do wyklikania" nie ma bardzo dużej. Sam zresztą uwielbiam z niego korzystać. Szybko i wygodnie można wykonać większość prac, z jakimi można się spotkać w analizie danych. Nie oznacza to, że nie da się pracować inaczej. Jedną z takich możliwości daje emacs. Emacs jest uniwersalny.

Kontynuuj czytanie

Wykresy typu bubble-chart

Ten post jest oparty w znacznej mierze na blogu flowingdata. Nie jestem w stanie uwierzyć żeby statystyk, który miał okazję widzieć prezentacje Hansa Roslinga, nie był pod jej wielkim wrażeniem. Przedstawienie czterowymiarowych danych to wszak niełatwa sprawa. W ogóle komunikowanie wyników jest najtrudniejszą częścią analizy danych. Zdecydowałem się na próbę stworzenia naprawdę ładnego wykresu naśladującego wykresy pokazywane przez Hansa Roslinga. Z eRa wziąłem standardowe dane z pakietu car dotyczące PKB per capita i śmiertelności niemowląt w roku 1998.

Kontynuuj czytanie

Podczas wakacji miałem okazję odświeżyć sobie przygody Pana Samochodzika. W tomie ,,Tajemnica Tajemnic" Pan Samochodzik trafia na połówkę blaszki, na której jednej stronie znajduje się połówka kwadratu magicznego. 14 4 7 9 11 5 2 16 Przez kwadrat magiczny rozumiem, w przypadku kwadratu 4x4, kwadrat podzielony na 16 małych kwadratów, w które wpisane są liczby od 1 do 16, w taki sposób aby suma każdego wiersza i każdej kolumny była taka sama.

Kontynuuj czytanie

I wbrew tytułowi napiszę o tym co będzie. Będą dane i będzie matematyka. W różnych proporcjach. Będą odpadki z mojego doktoratu i rzeczy, które mnie zafascynują. Będą dobre książki i artykuły. Będzie sporo ciekawych analiz rzeczy codziennych szczególnie dotyczących gospodarki. Może się też zdarzyć poważniejsza matematyka. Wpisy będą się pojawiać regularnie, choć stopień ich bycia interesującymi będzie bardzo zróżnicowany, za co każdego potencjalnego, innego niż ja sam, czytelnika serdecznie przepraszam.

Kontynuuj czytanie

Zdjęcie autora

Szychta w danych

Blog o poznawaniu świata za pomocą danych

Piotr Sobczyk