Dane prawie dostępne
Szychta w Danych działa dzięki dostępności bezpłatnych danych w internecie, w dużej mierze pochodzących od różnego typu urzędów. Dlatego bardzo interesują mnie konsultacje, jakie przeprowadza Ministerstwo Cyfryzacji, w formie ankiety, dotyczące tego, jak powinny być udostępniane dane publiczne. Zachęcając do jej wypełnienia, podzielę się kilkoma wrażeniami z korzystanie z serwisu Dane Publiczne.
Zacznijmy od rzeczy pozytywnych. Strona jest porządnie zrobiona, łatwo się po niej poruszać. Dane pochodzą z wielu różnych ministerstw i agencji rządowych. Zebranie wszystkich tych informacji w jednym miejscu to spore ułatwienie dla badaczy danych.
Przejdźmy do elementów negatywnych - będzie trochę hejtu. Po pierwsze, bardzo dużo ,,danych" jest dostępnych w formie PDF. To chyba najmniej użyteczny format w kontekście analizy danych. Może żeby nie było zbyt malkontencko - dane są, nie da się ich automatycznie przetworzyć. Mało jest danych w formacie csv, który lubią eRowcy. Zdecydowanie więcej jest w Excelowym formacie xls, które zwykle trzeba ,,obrobić" przed dalszym przetworzeniem.
Spróbowałem wykorzystać reklamowane API. Już na początku trafiamy na przeszkody, ponieważ linki do dokumentacji ckan nie działają. Najpierw podjąłem, nieudaną, próbę skonfigurowania połączenia przez pakiet ckanr. Potem, z większym sukcesem, zabrałem się za to ręcznie.
Składnia API jest łatwa w użyciu, ale widać, że udostępnanie danych nie jest do końca dopracowane. Wydaje się, że ,,pod spodem" jest sporo bałaganu.
Najpierw wyszukałem wszystkie zbiory w formacie csv. [github file = “/psobczyk/szychtawdanych/blob/master/dane_publiczne/uzycie_ckan_dane_publiczne.R” start_line = “7” end_line = “10”]
Niestety, przy przetwarzaniu wyników, okazało się, że tylko połowę zbiorów da się ściągnąć, tj. pod adresem jaki wynika ze składni API, było jakiekolwiek zasoby.
[github file = “/psobczyk/szychtawdanych/blob/master/dane_publiczne/uzycie_ckan_dane_publiczne.R” start_line = “13” end_line = “20”]
Kolejne rzeczą, dziwną i negatywną, jest to, że niektóre zbiory znikają. Kiedy przygotowywałem ten wpis zainteresowały mnie dane dotyczące punktualność pociągów. Udało mi się je ściągnąć i przetworzyć czego dowodem jest rysunek na końcu tego wpisu. Wykonane dzisiaj zapytanie o zbiory w formacie csv sugeruje, że dane te nie są dostępne.
Zakończmy dwoma pozytywnymi informacjami. Po pierwsze, na stronie Dane Publiczne mamy, w bardzo wygodny sposób, możliwość wyrażenie potrzeby nowych danych. Nie wiem jakie są efekty zgłaszania takiego zapotrzebowania, ale super, że ktoś wziął to pod uwagę. Po drugie, jak już pisałem wcześniej można wypełnić ankietę na stronie ministerstwa dotyczącą udostępniania danych publicznych. Znowu nie wiadomo czy coś z tego będzie, ale cieszy, że ktoś chce usłyszeć głos zainteresowanych osób.
Na koniec, zapowiedziana wizualizacja puntualności pociągów w roku 2014.
Jeszcze uwaga na zakończenie. To mój pierwszy kontakt z ckan, więc jestem świadomy, że niektóre problemy mogą wynikać z mojej niewiedzy. Cały kod, który wykorzystałem jest na szychtowym github-ie. Jeśli ktoś ma jakieś sugestie to chętnie je usłyszę.