Kolejny wpis z serii jak to zrobić w R. Dzisiaj krótkie wprowadzenie do tego jak ściągać bezpośrednio do R tabele zawarte na stronach internetowych, jak kierować zapytania do API, jak przetwarzać otrzymane od serwera odpowiedzi i jak to wszystko połączyć w niebanalną analizę. Ściąganie tabel do R Wykorzystamy w tym celu pakiet XML. Ściągniemy listę najbardziej kasowych filmów wszechczasów. [github file = “/psobczyk/szychtawdanych/blob/master/filmy/analiza_actors_directors.R” start_line = “2” end_line = “10”] Bardziej ogólne rozwiązania opiera się na wczytaniu całego pliku i ręcznego wybrania interesującego nas fragmentu korzystając z XML-owych tagów.

Kontynuuj czytanie

Czy w przemyśle filmowym kryje się seksizm i przewaga mężczyzn nad kobietami? Nawet pobieżne przejrzenie internetu przyniesie odpowiedź że zapewne tak właśnie jest. Na przykład pierwszy wynik w google daje infografikę na ten temat. W dzisiejszym wpisie przyjrzymy się najbardziej kasowym filmom w historii. Sprawdzimy którzy aktorzy i reżyserzy stoją za ich sukcesem, a także jaki jest wśród nich udział kobiet.Na stronie boxofficemojo można znaleźć dane dotyczące 630 najbardziej kasowych filmów wszechczasów.

Kontynuuj czytanie

14 piętro

Ten wpis ma wiele źródeł. Pierwszym jest książka 13 pięter Filipa Springera, która celnie opisuje problemy mieszkaniowe w 3 RP (a przy okazji także w 2 RP). Innym jest to, że ponieważ czeka mnie wkrótce wyprowadzka z najlepszego miasta w Polsce to śledzę rynek mieszkań na wynajem w kilku miastach. Ostatnie źródło to chęć zainicjowania większej serii wpisów dotyczącej tematu mieszkań i demografii w oparciu o dane. Stąd też nazwa, przyznaję, że nieco buńczuczna, ,,14 piętro" czyli spojrzenie na rynek mieszkań od strony danych.

Kontynuuj czytanie

Potrzeba przywrócenia gabinetów dentystycznych w szkołach została podniesiona w expose przez Ewę Kopacz. Ten sam pomysł pojawił się potem w w kampanii prezydenckiej Andrzeja Dudy. Następnie, z właściwą sobie gracją, podchwycił ten temat Janusz Palikot z hasłem ,,dentysta zamiast księdza". Na koniec z aprobatą wypowiedziała się o tym pomyśle Beata Szydło. Czy Polskę stać na dentystę w każdej szkole? W dzisiejszym wpisie pokusimy się o ocenę sensowność tego pomysłu w oparciu o szacunkowe zapotrzebowanie w szkołach podstawowych.

Kontynuuj czytanie

W Polsce każdy ma prawo do bezpłatnej edukacji, ale jej jakość jest bardzo nierówna. I nie chodzi jedynie o podział miasto - wieś, ale też o regiony geograficzne. W dzisiejszym wpisie zobaczymy jak kształtują się wyniki sprawdzianu po szkole podstawowej, egzaminu gimnazjalnego i matury w podziale na powiaty. Sprawdzimy też czy z czasem różnice pomiędzy nimi zacierają się czy też stają się bardziej widoczne. W dzisiejszym wpisie korzystam z pakietu ZPD stworzony przez Instytut Badań Edukacyjnych.

Kontynuuj czytanie

Dzisiaj wpis, za który oberwie mi się z prawej i lewej strony. I w dodatku nie za to, że i jednych i drugich pojadę, ale za to, że jednym i drugim oddam troszkę honoru! Oczekiwania podkręcone, postaram się je spełnić. Wpis dotyczy orzeczeń Trybunału Konstytucyjnego. Konkretnie dwóch zagadnień. Pierwsze to czas od wydania wyroku do jego publikacji w Dzienniku Ustaw. Drugi dotyczy czasu wykonania wyroków, czyli ile zajęło poprawienie prawa od momentu stwierdzenie jego niezgodności z konstytucją.

Kontynuuj czytanie

Szychta w danych wraca po przerwie na intensywną pracę naukową :) Na rozgrzewkę - analiza wyników ostatnich wyborów. Czy PO i Nowoczesna różnią się w poszczególnych regionach? Czy wyniki wyborów nadal da się wytłumaczyć granicami zaborów? Czym się różnią elektoraty partii lewicowych? Zaczniemy od analizy rywalizacji, która od 10 lat dominuje w polskiej polityce. PiS vs. PO. Oprócz standardowych i dobrze znanych podziałów, bardzo fajnie widać na wykresie efekt mniejszości narodowych.

Kontynuuj czytanie

Są granice tego ile można słuchać i czytać kasandrycznych wizji końca Europy zalanej hordami muzułmańskich barbarzyńców, inwokacji o nowego Jana Sobieskiego czy ujawnionych spisków krajów arabskich. W dzisiejszym wpisie zbadamy gdzie jest największa liczba syryjskich uchodźców oraz, które kraje mogą się rzeczywiście czuć ich liczbą zagrożone. Dane, z których korzystam, pochodzą ze strony agendy ONZ zajmującej się uchodźcami oraz z wikipedii. Są one mniej więcej aktualne - dotyczą sierpnia 2015. Liczba uchodźców, podawana przez UNHCR, to liczba osób, które wystąpiły w danym kraju o azyl.

Kontynuuj czytanie

Z powodu niskiej frekwencji, ciężko sobie wyobrazić, żeby referendum z 6 września wpłynęło na jakiekolwiek zmiany w Polsce. Mimo wszystko moja ciekawość każe mi zerknąć na mapy obrazujące rozkład poparcia dla poszczególnych pytań w zależności od gminy. Zwłaszcza dlatego, że źle zadane pytania i niska frekwencja dają nadzieję na powstanie anomalii, a dla statystyka nic nie jest bardziej ciekawe niż rzeczy, które odchodzą od normy. Na początku słowa uznania dla PKW, która, podobnie jak w poprzednich wyborach, umieściła wyniki do pobrania w internecie.

Kontynuuj czytanie

W ostatnim czasie tematem numer jeden w mediach są uchodźcy i imigranci z Afryki i Bliskiego Wschodu. Facebook zapełnił się różnymi grupami typu ,,Polacy przeciwko…", “Polacy przeciwko Polakom przeciwko…”, “Polacy przeciwko Polakom przeciwko Polakom przeciwko…”. Zobaczmy jak wygląda przyjmowanie uchodźców w Europie. Który kraj udziela najwięcej azylów uchodźcom? Jaki kraj prawie nigdy nie odmawia azylu? No i oczywiście jak na tle innych krajów wypada Polska. W roku 2014 cała Unia Europejska udzieliła azylu 160,000 osób.

Kontynuuj czytanie

Zdjęcie autora

Szychta w danych

Blog o poznawaniu świata za pomocą danych

Piotr Sobczyk