Koronawirus lub o tym, że mowa to tylko srebro
Cóż innego mogłoby być tematem bloga dotyczącego analizy danych jak nie oczywiście koronawirus? Odpowiadając na prośby najwierniejszych czytelników Szychty (czyli żony i taty), dzisiaj krótko o tym czemu nie pisałem nic na ten temat i o przewadze milczenia nad słowem pisanym.
Powód pierwszy
Banalny - nie znam się na epidemiologii :) Kilka kursów z równań różniczkowych (w tym modelowania deterministycznego), znajomość procesów gałązkowych czy ogólne obycie w analizie danych nie oznacza, że ktoś zna się na pandemiach. Skusiłem się na dopasowanie prostych modeli typu SIR, ale przecież to bardzo uproszczone patrzenie. W internecie jest wysyp różnej maści amatorów, którzy dopasowują proste modele epidemiologiczne do dostępnych danych. Nie oceniam, dopóki ktoś nie próbuje dopasować funkcji wykładniczej i mówi, że za 4 miesiące zainfekowane będzie 100 mld ludzi. Ale o tym jak szybko rośnie ta funkcja wiedzą nawet dzieci. Przynajmniej te, które czytają dobre książki.
Powód drugi
Dane, które posiadamy są bardzo niepełne. Liczba problemów na jakie się w nich napotyka jest bardzo długa. Cóż z tego, że w jednym kraju mamy mniej potwierdzonych przypadków, jeśli wykonuje się w nim mało testów? Poniżej naoczny przykład, z życia wzięty, idei: ,,Stłucz Pan termometr to nie będziesz mieć gorączki".
Czy ma jakikolwiek sens porównywanie danych o liczbie zakażonych w Finlandii i Norwegii? Co więcej strategia krajów co do testowania może (i będzie) się zmieniać.
W efekcie trudno jest porównać stopień rozwoju epidemii w poszczególnych krajach. Przykładowo zobaczmy jak wygląda rozwój koronawirusa w Polsce w porównaniu do innych krajów od dnia pojawienia się pierwszego pacjenta.
Wygląda to dramatycznie - czy leci z nami pilot?
Wygląda przerażająco, ale przecież wszystko jednak zależy od tego z kim się porównujemy! Przecież jest wiele państw z tak słabą opieką zdrowotną, że nie są one w stanie zbadać nawet wszystkich osób z wyraźnymi symptomami wirusa. Dodatkowo jak wiadomo zdarzenia bardzo rzadkie (a są nimi zdecydowanie pierwsi pacjenci w skali 40 milionowego kraju) cechują się dużą relatywną zmiennością. Tę dużą wariancję można zobaczyć przeglądając dane - ostrzegam ta strona jest uzależniająca…
Wróćmy do analizy tempa rozwoju epidemii. Może lepiej porównywać kraje, w których liczba przypadków jest większa niż 100. To wskazywałoby, że mamy rzeczywiście do czynienia ze sporą liczbą chorych i służbą zdrowia, która potrafi ich zdiagnozować.
Jedna, zdroworozsądkowa, modyfikacja zmienia nam totalnie historię jaka wyłania się z tych danych. Która z nich jest prawdziwa? Jak to ocenić? Trzeba by wiedzieć jak dokładnie działają służby w poszczególnych państwach. To nie jest zliczanie wyprodukowanych samochodów lub paczek chipsów, ale procedury, których zrozumienie wymaga minimum wiedzy.
Czego jeszcze nie widać na powyższym wykresie? Otóż kwantyle oparte są na coraz mniejszej liczbie krajów (ponieważ jesteśmy dopiero na pierwszym etapie pandemii). Oczywiście można by dodać rozszerzające się przedziały ufności.
Co najmniej dwa tygodnie po 100 przypadkach jest jedynie 17 krajów na świecie
Powód trzeci
Nie chcę dokładać swojej cegiełki do szumu informacyjnego. Trudno wątpić w to, że koronawirus będzie z nami na zawsze. Miejmy nadzieję, że za rok będziemy mieć szczepionkę i stanie się równie groźny co Odra, Krztusiec czy Dur brzuszny. To znaczy niebezpieczny, ale pod kontrolą.
Złośliwy czytelnik może zauważyć, że cały ten blog jest złożony z moich prób ,,mądrzenia się" na tematy, na których się nie znam. Jest w tym trochę prawdy. Jednak analizy oparte są o solidne dane i nie wiążą się z tematem potencjalnej apokalipsy.
Żeby nie kończyć wpisu pesymistycznie - jest cały dział matematyki, który zajmuje się, z sukcesami, modelowaniem tego typu zjawisk. Odnosi on sukcesy i pozwala lepiej rozumieć rozprzestrzeniania się wirusa. W formie lekkiej bardzo gorąco polecam ten artykuł. Można też posłuchać wywiadu z dr. Franciszkiem Rakowskim z ICM UW.
Chciałem zamieścić na końcu linki do kilka materiałów, które znalazłem w sieci - kursów, książek, artykułów. Ale dopiero zaczynam się przebijać przez tę wiedzę i nie mogę ich z czystym sumieniem polecić. Moją wędrówkę po modelowaniu skomplikowanych systemów mam zamiar zacząć tu.