Czy Polska będzie mistrzem świata lub statystyka w oparach futbolu
Jaka jest szansa, że Polska zostanie mistrzem świata? A może, że chociaż wyjdziemy z grupy? Ile razy bardziej prawdopodobne jest zwycięstwo Brazylii? Z okazji trwających mistrzostw świata mamy wysyp wszelkiej maści artykułów dotyczących przewidywania wyników za pomocą metod statystycznych. Szychta dołoży swoją małą cegiełkę dokonując przewidywań wyników mundialu.
Wyniki przewidujemy metodą Monte Carlo, a więc ,,rozgrywamy" kilka tysięcy razy mistrzostwa na komputerze i patrzymy ile razy poszczególne drużyny wyszły z grupy, trafiły do ćwierćfinału i tak dalej. Aby dokonać takiej ,,rozgrywki" potrzebujemy ,,znać" prawdopodobieństwa zwycięstwa w poszczególnych meczach. Prawdopodobieństwa te można estymować z danych (np. z poprzednich mistrzostw, kilka linków na ten temat na końcu wpisu), można też skorzystać z pracy innych. Posłużymy się rankingiem Elo, który każdej drużynie przypisuje jej siłę na boisku, którą następnie łatwo można przeliczyć na szanse zwycięstwa w konkretnym meczu. I tak na przykład, dla dzisiejszego meczu Polski z Senegalem, różnica ich ratingów wynosi 81, co przekłada się na 61% szanse na zwycięstwo Polski. Przynajmniej według twórców rankingu :)
Jak zatem wygląda nasza symulacja? ,,Rozgrywamy" wszystkie mecze grupowe. Następnie wybieramy drużyny z pierwszych dwóch miejsc i rozgrywamy fazę pucharową. Za każdym razem szanse zwycięstwa pochodzą z rankingu Elo. Takie rozgrywki powtarzamy kilka tysięcy razy, a otrzymane wyniki podsumowujemy.
Co z tych symulacji komputerowych wychodzi? Oczywiście mamy szansę na dojście do finału, ale nie jest ona zbyt duża i wynosi 2.5% (czyli można oczekiwać na taki sukces raz na 160 lat). Największe szanse na finał ma oczywiście Brazylia, prawie 40%.
Jeszcze gorzej ma się sprawa ze zwycięstwem - szansa na nie wynosi mniej więcej 0.5%. Tak więc przy obecnej sile reprezentacji na zwycięstwo w mundialu trzeba by czekać 800 lat. Dla porównania bitwa pod Grunwaldem miała miejsce ,,zaledwie" 600 lat temu.
Kiepski to prognostyk, ale jeśli nieco obniży się ambicje, to czeka nas więcej powodów do nadziei.
Nie da się ukryć, że faworytem na wyjście z naszej grupy jest Kolumbia, ale szanse Polski są większe niż 50%. Jest więc o co się bić i miejmy nadzieję, że już wieczorem szanse te będą znacznie wyższe :)
Pełną predykcję, wraz z modelem na liczbę strzelonych bramek w pojedynczym meczu prowadzi portal fivethirtyeight. Na portalu rbloggers pokazał się ostatnio artykuł dotyczący robienia symulacji wraz z kodem na githubie. Gdyby ktoś chciał wyuczyć swój własny model, to na kaggle znajdują się dane historyczne ze wszystkich mistrzostw, w szczególności znaleźć tam można składy poszczególnych reprezentacji. Są one też dostępne na tym koncie githubowym.
Moje kody, służące do pobierania danych i symulacji, można znaleźć tutaj.