{litwa, ojczyzna, mój, …} – informatyk czyta literaturę polską

,,Pan Tadeusz” to coś więcej niż sprawdzian, na którym trzeba wiedzieć, gdzie stał zegar w dworku w Soplicowie. To także mistrzostwo języka, wartka fabuła, która na przemian podnosi na duchu, zasmuca i wzbudza niepokój. To wszystko da się ,,wyczytać” nie otwierając książki. Wystarczy komputer i kilka wizualizacji.

Dzisiejszy wpis jest owocem niezwykle udanych warsztatów na konferencji useR2017 dotyczących przetwarzania języka naturalnego w R. Przy odrobinie wysiłku można analizować także teksty w języku polskim. Pochylmy się nad klasyką klasyki: ,,Panem Tadeuszem” Adama Mickiewicza.

Jak wiadomo, jednym z wątków jest historia miłosna Tadeusza i Zosi, która przeplata się z romansem Tadeusza i Telimeny. Zobaczmy, w których fragmentach poszczególnych ksiąg występują poszczególne postaci. W księdze piątej widać wspaniale jak pojawienie się Zosi powoduje spięcie Tadeusza z Telimeną i sceny, w których oboje występują (mniej więcej do połowy księgi). Warte odnotowania jest też jak rzadko Tadeusz i Zosia występują razem. Ta miłość to raczej olśnienie i fascynacja niż rozwijająca się relacja.

Równie ciekawa jest analiza występowania innych postaci. Weźmy na przykład Tadeusza, Hrabiego, Sędziego i Gerwazego. W drugiej części Kłótni widać utarczkę jaka miała między nimi miejsce w zamku podczas wieczerzy. Wyróżniają się także dwie długie rozmowy jakie Gerwazy odbył z Hrabią w księgach drugiej i piątej.

Najciekawsza jest jednak analiza emocji przekazywanych w tekście Mickiewicza. Na podstawie bazy nacechowania emocjonalnego (z którego korzystaliśmy przy analizie tweetów partii politycznych), znajdujemy emocje, które dominują w każdej z ksiąg, w porównaniu do tego, co się dzieje w pozostałych. Dodatkowo wyszukujemy po trzy najmocniej wyróżniające je słowa, nadając każdej z nich swoistą ,,nową nazwę”. Skutek tych zabiegów jest niezwykle adekwatny do tego, co się w książce dzieje.

Wyjątkowo udana jest trójka ,,jacek, stolnik, żal”, która idealnie oddaje treść i emocje jakie mają miejsce w najsmutniejszej z ksiąg: ,,Emigracja. Jacek”.

Przy analizie korzystałem z kodów ze wspomnianych warsztatów, słownika morfologicznego, słownika emocji opracowanego w Instytucie Nenckiego oraz tekstu ,,Pana Tadeusza” w formacie .txt.

Kody wymagają tak dużo czyszczenie, że nie mogę obiecać kiedy pojawią się na githubie 😉

1 thought on “{litwa, ojczyzna, mój, …} – informatyk czyta literaturę polską

  1. Zapraszam do mnie – kilka ostatnich wpisów było o analizie tekstu, najbliższy jest http://prokulski.net/index.php/2017/07/03/analiza-tworczosci-j-k-rowling/

    Podobny w temacie do „Pana Tadeusza” jest u mnie ten o „Pulp Fiction” (polecam szczególnie wideo z Vonnegutem) http://prokulski.net/index.php/2017/03/03/pulp-fiction-analiza-filmu/

    Oraz chyba ciekawe „śledztwo” w kryminałach: http://prokulski.net/index.php/2017/06/30/kto-napisal-te-ksiazke/

Leave a Reply

Your email address will not be published.

Time limit is exhausted. Please reload CAPTCHA.