Kontynuujemy temat tworzenia wysokiej jakości oprogramowaniu w kontekście przetwarzania danych. W tym wpisie porównamy jak R i Python radzą sobie ze wspomaganiem użytkownika w pisaniu przejrzystego, dobrego kodu. Temat jest szeroki, skupimy się na 4 zagadnieniach: Jak powinien wyglądać szablon projektu Data Science? Dlaczego konwencje nazewnictwa mają znaczenie i czym linter? Dlaczego ważna jest ujednolicone formatowania kodu? Czym jest CI/CD i jak wykorzystywać go do tworzenia wysokiej jakości oprogramowania? Python Zacznijmy od poezji: Zen of Python - PEP20.

Kontynuuj czytanie

W ciągu najbliższych tygodni na Szychcie pojawi się seria wpisów, które mają przybliżyć tworzenie dobrej jakości kodu w kontekście przetwarzania danych. Wpisy będą techniczne, nie będzie wykresów i narracji zbudowanych na danych. Jednocześnie jest to dobra okazja do porównania dwóch języków programowania R i Pythona, z czego skorzystamy. Który język będzie górą? Czy filozofia, która za nimi stoi jest zbliżona? Która społeczność kładzie większy nacisk na tworzenie wysokiej jakości kodu?

Kontynuuj czytanie

Uwaga, wpis techniczny! Kilka miesięcy temu została wypuszczona nowa wersja Pythona 3.9. Ponieważ dwa lata temu R przestał być językiem, w którym programuję ,,na co dzień" nowości Pythona mnie ciekawią i postanowiłem, że oprócz wykresów i analiz danych warto dzielić się także nieco bardziej technicznymi aspektami. To pierwsza odsłona nowej, technicznej twarzy Szychty :) Co znajdziemy w nowej wersji Pythona? Zestawień nowości jest w internecie bardzo dużo, choćby tutaj. Chciałbym się skupić na tej, która najbardziej mnie zainteresowała czyli uproszczenie typowania funkcji.

Kontynuuj czytanie

Dlaczego warto przenieść blog a z Wordpressa do Hugo, statycznego generatora stron internetowych? Szybsza strona, mocniej zintegrowana z eRowym kodem, a do tego darmowy hosting na Githubie. A jak to zrobić? W internecie znajduje się trochę tutoriali na ten temat, ale jak to zwykle bywa diabeł tkwi w szczegółach. Z pokaźnej liczby tutoriali dotyczących przenoszenia blogów z Wordpressa do Hugo z czystym sumienieniem mogę polecić ten. Niestety jest w nim kilka rzeczy, które mi się nie podobają i które rozwiązałem inaczej.

Kontynuuj czytanie

Spróbujmy poszukać w danych odpowiedzi na 5 pytań, które mogą się narzucać osobie przygladającej się polskiej scenie politycznej. Obserwujac media społecznościowe trudno nie oprzeć się wrażeniu, że inflacja dotknęła w ostatnim czasie także rynek powyborczych analiz danych :) Wobec tego tym razem podsumowanie ,,Szychty" będzie bez map i doszukiwania się rozbiorów… 1. Czy Polskę można podzielić na pół i odseparować zwolenników PiS od PO? Oczywiście, źe się nie da :) Spór polityczny jaki widzimy nie ma charakteru regionalnego.

Kontynuuj czytanie

Kto odniósł sukces, a kto porażkę? Które ugrupowania umocnił czas pandemii i na ile płynne są przepływy elektoratu w Polsce? Jak zmienia się geografia tego jak głosują Polacy? Jako blog o wyborczej proweniencji mamy przyjemność zaprezentować wyniki pierwszej tury wyborów prezydenckich. Kto jest zwycięzcą? Oprócz prostej odpowiedzi, że kandydat, który zdobył największą liczbę głosów myślę, że należy bardzo mocno podkreślić niezwykle wysoką frekwencję. Niemal 65% jest wynikiem, po raz pierwszy od 1989 roku, zbliżonym do tego co obserwujemy w europejskich demokracjach.

Kontynuuj czytanie

Cóż innego mogłoby być tematem bloga dotyczącego analizy danych jak nie oczywiście koronawirus? Odpowiadając na prośby najwierniejszych czytelników Szychty (czyli żony i taty), dzisiaj krótko o tym czemu nie pisałem nic na ten temat i o przewadze milczenia nad słowem pisanym. Powód pierwszy Banalny - nie znam się na epidemiologii :) Kilka kursów z równań różniczkowych (w tym modelowania deterministycznego), znajomość procesów gałązkowych czy ogólne obycie w analizie danych nie oznacza, że ktoś zna się na pandemiach.

Kontynuuj czytanie

Rządy lewicowe zwykle charakteryzuje dążenie do zrównywania dochodów, podczas gdy prawica, a już na pewno liberalne partie, prowadzą politykę, która powoduje wzrost nierówności. Ale nie w Polsce… Być może czytelnicy Szychty mieli okazję czytać książkę ,,To nie jest kraj dla pracowników" Rafała Wosia. Jeśli nie to gorąco polecam! Wyłania się z niej smutny obraz rynku pracy w Polsce. Dla mnie zwłaszcza w kontekście istnienia osób, całych regionów i grup społecznych, spychanych na margines, wyłączonych z podziału wzrostu gospodarczego.

Kontynuuj czytanie

W Polsce zaczyna brakować rąk do pracy. Powodem jest szybki rozwój gospodarczy połączony z niekorzystnymi zmianami demograficznymi. Od wielu lat zmniejsza się dopływ nowych, mało doświadczonych pracowników - absolwentów szkół i uniwersytetów. Wiele osób wyjechało zagranicę. Mamy więc rekordowo niskie bezrobocie, jedno z najniższych w Europie. Pomijając potencjalnie negatywne aspekty tego zjawiska, czy rzeczywiście sytuacja na rynku pracy jest u nas lepsza niż w większości krajów europejskich? Czy może jest to jedynie optyczne złudzenie z powodu przyłożenia niewłaściwej soczewki?

Kontynuuj czytanie

Miało nie być nic o wyborach i polityce. Ale cóż zrobić jeśli politycy próbują używać liczb na swoją korzyść? PiS złożyło wniosek o ponowne przeliczenie głosów w kilku okręgach argumentując, że część głosów nieważnych była w istocie oddana na ich kandydatów. Abstrahując od tego czy ma rację, sprawdźmy czy mogłoby to rzeczywiście zmienić wynik wyborów do Senatu. Rozgrzewka - dane Sejmowe Dane dostępne są na stronie PKW. Stopniując napięcie - najpierw zobaczmy, czy w wyborach do Sejmu głosy nieważne poprzez podwójne skreślenie mogłyby zmienić zasadniczo wynik wyborów.

Kontynuuj czytanie

Dzisiaj problem nieduży, ale bardzo praktyczny. Jak stworzyć vignette. eRowi fanatycy będą nieco zawiedzeni, bo chodzi mi nie o dokumentację pakietu, ale o “wedding vignette”, a więc winietki ślubne. Jak nie przeklejać 100 imion i uzyskać zgodę narzeczonej na zabawę przy komputerze? Pierwszym punktem jest znalezienie narzeczonej (continuum już zajęte, ale można szukać alef zero). Drugim zdecydowanie się na zorganizowanie imprezy na 100 osób, bo przecież ,,to proste i nie będzie na pewno aż tak drogie jak wszyscy mówią".

Kontynuuj czytanie

Czy Polska jest krajem starych samochodów? O ile częściej nowe auto spotkać można w Niemczech lub w Czechach? Czy Polacy są wyjątkowo mocno zmotoryzowani? Porównajmy dane udostępnione przez eurostat. Próbujemy z różnych stron uchwycić temat rozwoju Polski. Patrzymy na PKB per capita, długość życia i wiele innych czynników. Jednym z nich jest bez wątpienia to jak wielu Polaków posiada samochody i jaka jest ich jakość. Ten wskaźnik mówi nam, w pewnej mierze o zamożności, a także o bezpieczeństwie jazdy (zakładając, że im nowsze auto tym bezpieczniejsze).

Kontynuuj czytanie

Zaraz po wyborach podniosły się głosy, że PiS wygrał w nich ponieważ głosują na niego ludzie niewykształceni i ze wsi. Pojawiły się nawet opinie, że zwycięstwo PiS odniosło ,,w kręgach, które nie płacą podatków". Sprawdźmy co na temat ostatnich wyborów da się wywnioskować z ogólnodostępnych danych. Zanim zaczniemy analizować dane na poziomie gmin, zobaczmy czego można się dowiedzieć z sondażu exit poll. Po pierwsze, mimo że PiS wygrał zdecydowanie w grupie wyborców o wykształceniu podstawowym, to nie można tak charakteryzować wyborców tej partii, którzy stanowią 8.

Kontynuuj czytanie

Mamy kolejne wybory, tym razem europejskie. Czy ponad 700 parlamentarzystów których wybiorą Europejczycy to duża liczba? Jak ma się ona do krajowych parlamentów w Polsce i na świecie? Czy analizując dane dla wszystkich tego typu zgromadzeń można doszukać się jakichś prawidłowości? Na początek sprawdźmy rzecz oczywistą: im więcej ludności, tym więcej parlamentarzystów. Powody są co najmniej dwa: duże państwa mają więcej spraw, którymi chcą się zająć, oraz potrzebują większej liczby posłów, aby pojedynczy reprezentant nie przypadał na zbyt dużą liczbę ludności.

Kontynuuj czytanie

W ostatnich latach mamy w Polsce bardzo niskie bezrobocie i szybki wzrost płac. Przyjrzyjmy się temu, na ile struktura wynagrodzeń jest u nas podobna do pozostałych krajów europejskich. Czy Polsce udaje się zmniejszyć dystans do najbardziej rozwiniętych i porównywalnych z nami krajów UE. Bardzo często porównując dobrobyt w poszczególnych krajach patrzymy na PKB na mieszkańca. Okazuje się jednak, że przez wiele lat nasza produktywność (rozumiana jako PKB na mieszkańca) rosła szybciej niż wynagrodzenia, o czym już kiedyś Szychta pisała.

Kontynuuj czytanie

Brexit zbliża się wielkimi krokami. Niektórzy wieszczą katastrofę podczas gdy inni się cieszą. Wydaje się, że w Polsce trudno znaleźć powody do zadowolenia z tego wydarzenia. Jednak zamiast szermować ideologicznymi frazesami sprawdźmy czego na temat relacji Wielkiej Brytanii i Unii Europejskiej da się dowiedzieć patrząc na dane. Wyjście Wielkiej Brytanii z Unii będzie miało oczywiście wiele konsekwencji i nie próbujemy nawet sugerować, że weźmiemy je wszystkie pod uwagę. Ale przez najbliższe tygodnie spróbujemy nieco przybliżyć sytuację gospodarczą, demograficzną i polityczną u progu tego wydarzenia.

Kontynuuj czytanie

Dług długowi nierówny. Kredyt jest innym obciążeniem dla osoby majętnej niż dla ubogiej. Także na inny procent pożycza się bogaczowi, a na inny osobie biednej. Kusi aby powiedzieć, że ta sama zasada odnosi się do krajów, ale okazuje się, że stosowanie tej analogii do pożyczek zaciąganych przez państwa jest sporym nadużyciem. Zacznijmy od tego, że koszty obsługi długu wcale nie są największe dla krajów najbardziej zadłużonych. Wynika to oczywiście z dużego zróżnicowania oprocentowania pożyczek jakie są zaciągane.

Kontynuuj czytanie

Już jest! Jakiś czas temu czytelnicy Szychty tłumnie zgłosili się do czytania wersji roboczej, a teraz książeczka jest wydana, dostępna i czeka na chętnych ;) Zawiera ćwiczenia i szczyptę teorii dotyczącej wizualizacji danych. Kto nie boi się wyzwań, kredek i miłego wieczoru (lub kilku) niech się długo nie zastanawia. Statystyczna odpowiedź na styczniowy splin Czym są Wykresy unplugged? Jest to zeszyt składający się z ćwiczeń do wyrysowania. Przedstawiamy 8 typów wykresów wraz z elementami teorii dotyczącej technik wizualizacji.

Kontynuuj czytanie

Zdjęcie autora

Szychta w danych

Blog o poznawaniu świata za pomocą danych

Piotr Sobczyk