Już jest! Jakiś czas temu czytelnicy Szychty tłumnie zgłosili się do czytania wersji roboczej, a teraz książeczka jest wydana, dostępna i czeka na chętnych ;) Zawiera ćwiczenia i szczyptę teorii dotyczącej wizualizacji danych. Kto nie boi się wyzwań, kredek i miłego wieczoru (lub kilku) niech się długo nie zastanawia.
Statystyczna odpowiedź na styczniowy splin
Czym są Wykresy unplugged? Jest to zeszyt składający się z ćwiczeń do wyrysowania. Przedstawiamy 8 typów wykresów wraz z elementami teorii dotyczącej technik wizualizacji.
Jaka jest szansa, że Polska zostanie mistrzem świata? A może, że chociaż wyjdziemy z grupy? Ile razy bardziej prawdopodobne jest zwycięstwo Brazylii? Z okazji trwających mistrzostw świata mamy wysyp wszelkiej maści artykułów dotyczących przewidywania wyników za pomocą metod statystycznych. Szychta dołoży swoją małą cegiełkę dokonując przewidywań wyników mundialu.
Wyniki przewidujemy metodą Monte Carlo, a więc ,,rozgrywamy" kilka tysięcy razy mistrzostwa na komputerze i patrzymy ile razy poszczególne drużyny wyszły z grupy, trafiły do ćwierćfinału i tak dalej.
Czy Polska bogaci się równomiernie? Czy regiony historycznie biedniejsze gonią te bogatsze, czy też dystans między nimi się zwiększa? Aktualizujemy wpis sprzed półtora roku o dane z roku 2015. W dodatku dokładamy ładniejsze wizualizacje, żywszy język i głębsze wnioski.
Naszym punktem startowym są wynagrodzenia w poszczególnych powiatach w roku 2002. Nawet w najbogatszych powiatach jest to mniej niż 3500 złotych brutto. Bogate są Górny Śląsk, okolice Warszawy i kilka powiatów, w których znajdowały się kopalnie (Zgorzelec, Łęczna, Bełchatów).
,,Pan Tadeusz" to coś więcej niż sprawdzian, na którym trzeba wiedzieć, gdzie stał zegar w dworku w Soplicowie. To także mistrzostwo języka, wartka fabuła, która na przemian podnosi na duchu, zasmuca i wzbudza niepokój. To wszystko da się ,,wyczytać" nie otwierając książki. Wystarczy komputer i kilka wizualizacji.
Jak wiadomo, jednym z wątków jest historia miłosna Tadeusza i Zosi, która przeplata się z romansem Tadeusza i Telimeny. Zobaczmy, w których fragmentach poszczególnych ksiąg występują poszczególne postaci.
Lie factor, czyli współczynnika kłamstwa, jest miarą zaproponowana przez Edwarda Tuftego do opisu niezgodności wielkości przedstawionej na grafice, do rzeczywistej liczby wynikającej z danych. Udało mi się upolować bardzo ciekawy przykład pochodzący z twitta Michała Szczerby, posła na Sejm, któremu udało się na jednej grafice umieścić dwa rysunki o różnych współczynnikach kłamstwa.
Rzeczywisty stosunek nakładów na szkolnictwo to 16.02:10.71, czyli niemal idealnie 1.5:1. A jak to wygląda na rysunku? Wysokość zmierzyłem za pomocą GIMPa.
Szychta w Danych działa dzięki dostępności bezpłatnych danych w internecie, w dużej mierze pochodzących od różnego typu urzędów. Dlatego bardzo interesują mnie konsultacje, jakie przeprowadza Ministerstwo Cyfryzacji, w formie ankiety, dotyczące tego, jak powinny być udostępniane dane publiczne. Zachęcając do jej wypełnienia, podzielę się kilkoma wrażeniami z korzystanie z serwisu Dane Publiczne.
Zacznijmy od rzeczy pozytywnych. Strona jest porządnie zrobiona, łatwo się po niej poruszać. Dane pochodzą z wielu różnych ministerstw i agencji rządowych.
Czy w przemyśle filmowym kryje się seksizm i przewaga mężczyzn nad kobietami? Nawet pobieżne przejrzenie internetu przyniesie odpowiedź że zapewne tak właśnie jest. Na przykład pierwszy wynik w google daje infografikę na ten temat. W dzisiejszym wpisie przyjrzymy się najbardziej kasowym filmom w historii. Sprawdzimy którzy aktorzy i reżyserzy stoją za ich sukcesem, a także jaki jest wśród nich udział kobiet.Na stronie boxofficemojo można znaleźć dane dotyczące 630 najbardziej kasowych filmów wszechczasów.
W Polsce każdy ma prawo do bezpłatnej edukacji, ale jej jakość jest bardzo nierówna. I nie chodzi jedynie o podział miasto - wieś, ale też o regiony geograficzne. W dzisiejszym wpisie zobaczymy jak kształtują się wyniki sprawdzianu po szkole podstawowej, egzaminu gimnazjalnego i matury w podziale na powiaty. Sprawdzimy też czy z czasem różnice pomiędzy nimi zacierają się czy też stają się bardziej widoczne.
W dzisiejszym wpisie korzystam z pakietu ZPD stworzony przez Instytut Badań Edukacyjnych.
Dzisiaj wpis, za który oberwie mi się z prawej i lewej strony. I w dodatku nie za to, że i jednych i drugich pojadę, ale za to, że jednym i drugim oddam troszkę honoru! Oczekiwania podkręcone, postaram się je spełnić. Wpis dotyczy orzeczeń Trybunału Konstytucyjnego. Konkretnie dwóch zagadnień. Pierwsze to czas od wydania wyroku do jego publikacji w Dzienniku Ustaw. Drugi dotyczy czasu wykonania wyroków, czyli ile zajęło poprawienie prawa od momentu stwierdzenie jego niezgodności z konstytucją.
I wbrew tytułowi napiszę o tym co będzie. Będą dane i będzie matematyka. W różnych proporcjach. Będą odpadki z mojego doktoratu i rzeczy, które mnie zafascynują. Będą dobre książki i artykuły. Będzie sporo ciekawych analiz rzeczy codziennych szczególnie dotyczących gospodarki. Może się też zdarzyć poważniejsza matematyka.
Wpisy będą się pojawiać regularnie, choć stopień ich bycia interesującymi będzie bardzo zróżnicowany, za co każdego potencjalnego, innego niż ja sam, czytelnika serdecznie przepraszam.