3 Obravnava književnosti z računalniško stilometrijo
Računalniška stilometrija oziroma računalniška stilistika je raziskovalna metoda, ki tekste obravnava na podlagi digitalnih orodij s kvantitativnimi pristopi. Metoda temelji na strojnem učenju na podlagi korpusa digitaliziranih literarnih besedil, na primer romanov. Rezultat je statističen prikaz podobnosti in razlik med vključenimi književnimi besedili.
Literarni raziskovalci oziroma raziskovalke lahko poleg “običajnega” branja pri svojih študijah uporabljajo tudi računalniško branje, kar jim omogoča, da v raziskavo zajamejo večje število književnih del, pa tudi, da raziskujejo vidike besedil, ki jih z bližnjim branjem ne bi opazili/-e. Rezultat računalniškega branja je posplošitev o določeni skupini besedil, ki jo prikažemo z različnimi tipi vizualizacij, kar je lahko v pomoč pri raziskavah literarnih korpusov.
Primer: raziskava 5917 srednjevisokonemških rokopisov
Obsežna računalniška stilometrična analiza Gustava Fernandeza Rive, ki je bila izvedena s paketom Stylo v programskem jeziku R, je zajela kar 5917 digitaliziranih srednjevisokonemških rokopisov. Srednje visoka nemščina spada v zgodovinsko obdobje razvoja nemškega jezika in se razlikuje od stare visoke nemščine, ki je predhodila temu obdobju, in od nove visoke nemščine, ki se je razvila po srednjevisokonemškem obdobju. V tem obdobju so nastala mnoga pomembna dela nemškega srednjega veka, na primer Pesem o Nibelungih, in različne lirske pesmi. Omenjena analiza je zajela najrazličnejša besedila tega obdobja, od literarnih do neliterarnih. Rezultat raziskave je mogoče videti na spodnji vizualizaciji: besedila, označena s pikicami, se razlikujejo po zvrsteh, ki jih zaznamujejo različne barve. Analiza je pokazala, da se besedila tega obsežnega korpusa delijo glede na različne žanre, tj. lirika, ljubezenska literatura, verska literatura, profana literatura in poučna literatura.
Slika: vizualizacija 5917 digitaliziranih srednjevisokonemških rokopisov; vir: Gustavo Fernandez Riva 2018
2 Računalniško branje in literarni slog
Slog literarnega besedila vključuje razporeditev njegovih posameznih elementov, od najmanjših (zlogi, rime, ritem, besede) do največjih (verzi, pripovedna zgradba, odstavki, poglavja in širša zgradba besedila).[3] Slogovni naturalizem temelji na izhodišču, da imajo avtorji v svojem pisanju niz profilnih značilnosti, nad katerimi nikoli ne morejo imeti popolnega nadzora.[4] Za posameznega literarnega avtorja oziroma avtorico je značilen individualen način pisanja, ki ga je mogoče statistično določiti. Ta teza sicer izhaja že iz 19. stoletja, ko so v duhu empirične literarne vede preštevno določali literarni stil. Tudi sodobne raziskave z metodo računalniške stilometrije kažejo, da daje posamezen pisec oziroma piska pri ustvarjanju prednost nekaterim besednim vzorcem pred drugimi, pri tem pa oblikuje specifičen slog.
Primer: stilometrična analiza 90 slovenskih romanov
Oblikovali smo korpus 90 slovenskih romanov iz 19. in začetka 20. stoletja, kar pomeni, da smo romane shranili v dokumente, urejene na način, ki je dostopen programu. Za analizo besedil smo uporabili paket Stylo v programskem jeziku R.[5]
Spodnja slika prikazuje rezultate raziskave: posamezna točka označuje določeno literarno besedilo, ki vsebuje pripis avtorja in naslova, s črtami so označene povezave med njimi glede na splošno slogovno podobnost. Z zeleno barvo so označena dela avtoric, z rdečo pa dela avtorjev, vendar vidimo, da spol pisca ni ključen signal, ki dela razvršča v skupine, marveč je najizrazitejši signal njihovo avtorstvo: primer so besedila Ivana Cankarja ali Lee Fatur, ki so se razvrstila v skupini v spodnjem delu prikaza. Skrajno levo so se razvrstila dela pisateljice Pavline Pajk, iz česar lahko sklepamo, da so izrazito drugačna od ostalih besedil v našem korpusu.[6]
Slika: Stilometrična analiza korpusa 90 slovenskih romanov iz 19. in začetka 20. stoletja; vir: Zajc 2024
Vaja: realizem in modernizem
Korpus, na katerem je bila izvedena zgornja stilometrična analiza, vsebuje 90 romanov slovenskih avtoric in avtorjev iz dveh literarnozgodovinskih obdobij: modernizma ter realizma. Preverite, če se avtorice oziroma avtorji iz teh dveh obdobjih v zgornji vizualizaciji delijo v dve skupini glede na pripadnost literarnozgodovinskemu obdobju ali to ni ključen signal, ki določa bližino in oddaljenost besedil v tem primeru. Razpravljajte, kako bi interpretirali ta rezultat?
Juola navaja predpostavko večine sodobnih raziskovalcev, da ima vsak posameznik značilen vzorec uporabe jezika v svojih zapisih, vendar so lahko ti “avtorski prstni odtisi” na drugi strani bolj zapleteni kot nespremenljive statistike, kot je povprečna dolžina besede ali velikost besedišča.[7] Na prvi pogled morda manj pomembne besede – členki, predlogi in vezniki – so se izkazale za posebej ključne pri določanju osebnega sloga posameznikov in posameznic, saj se literarna besedila po njihovi rabi zelo razlikujejo, ne glede na tematiko pisanja.[8]
Signal je računalniško izmerjen podatek, ki je v zgornjem primeru prikazan v obliki vizualizacije, na primer očitne razdalje med določenimi skupinami analiziranih besedil, ki kaže na njihovo slogovno različnost. Koncept je po drugi strani fenomen, s katerim določen signal razlagamo, na primer dejstvo, da spadajo besedila, med katerimi so očitne razdalje, v različne literarne žanre. Argumente v digitalni humanistiki oblikujemo na podlagi konceptov, medtem ko lahko z računalniki izmerimo le signale, pojasnjujeta Ryan Heuser in Long Le-Khac.[9]
Primer: Sreča v nesreči
Prva izvirna slovenska povest je delo Janeza Ciglerja Sreča v nesreči (1836), na avtorja pa naj bi po mnenju slovenske literarne zgodovine močno vplivalo ustvarjanje bavarskega pisatelja Christopha Schmida. To so argumentirali z vsebinskimi vzporednicami med deli obeh avtorjev, manj pa z analiziranjem stilnih podobnosti.[10]
Stilometrična analiza je vključila poslovenjena dela obeh avtorjev in prevode še nekaterih drugih piscev, ki so imeli po cenah literarne zgodovine pomemben vpliv na tedanji razvoj pripovedne proze. Andrejka Žejn med drugim opozarja, da se pri poslovenjenih besedilih kaže vpliv prevajalskega sloga. Na vizualizaciji rezultatov se dela obeh avtorjev razdelita v ločeni skupini. Raziskava je torej pokazala, da je imel Janez Cigler svojstven slog, ki se je razlikoval od Schmidovega sloga, ki naj bi ga domnevno posnemal. Jasen je torej Ciglerjev primat pri vzpostavljanju slovenske pripovedne proze.[11]
3 Določanje avtorstva literarnih del
Sodobne raziskovalke in raziskovalci računalniško stilometrijo najpogosteje uporabljajo za preverjanje avtorstva literarnih del in ne preseneča, da so metodo v preteklosti uporabljali tudi v kriminalistiki za prepoznavanje avtorstva anonimnih besedil, ki so se znašla v središču zločinov.
5 Raziskovanje literarnih ugank
5.1 Je William Shakespeare res napisal vsa dramska dela, ki mu jih pripisujejo?
William Shakespeare (1564−1616), največji angleški dramatik in član gledališke skupine Lord Chamberlain’s Men oz. King’s Men, naj bi napisal množico dramskih besedil. Že več kot stoletje se pojavlja t. i. shakespearejansko vprašanje, ali je res avtor obsežnega opusa, ki ga pripisujemo Shakespearu, le en, oziroma ali je sloviti angleški dramatik sploh obstajal? Je šlo morda le za psevdonim, za katerim se je skrivala skupina piscev? Večina raziskav te dvome zavrača na podlagi (literarno-)zgodovinskih podatkov, avtorstvo pa so preverjali tudi z računalniško stilometrijo. Še pred izumom računalnikov proti koncu 19. stoletja je z ročnim štetjem besed Shakespearjev stil analiziral poljski raziskovalec Wincenty Lutoslawski. Statistične metode so pokazale tipične vzorce v Shakespearovih delih, ki jih v dramskih besedilih drugih avtorjev niso našli. Poznejše stilometrične analize so pokazale še, da je Shakespeare pri ustvarjanju določenih dramskih del najverjetneje sodeloval z drugimi dramatiki, saj so bile zaznane sledi njihovega značilnega sloga. Primer je Christofer Marlowe, dramatik in Shakespearov sodobnik. Statistične računalniške raziskave kažejo na stilno podobnost med njunimi deli, zato sklepajo, da sta vplivala drug na drugega ali celo mestoma sodelovala pri pisanju, kar se kaže predvsem v prvem delu Shakespearove tragedije Henrik VI. Vsekakor pa Marlowe in Shakespeare glede na rezultate stilometričnih analiz nista bila ista oseba, ampak sta imela kot dramatika vsak svoj prepoznaven slog.[12]
5.2 Kdo je skrivnostni Robert Galbraith?
Leta 2013 je znana avtorica serije o Harryju Potterju, ki obsega osem knjig, Joanne K. Rowling (roj. 1965) izdala nov detektivski roman pod psevdonimom Robert Galbraith. Z metodo računalniške stilometrije je Juola[13] ugotovil, da gre v resnici za slovito avtorico. Pozneje je priznala, da si je želela s psevdonimom “začeti od začetka”, tudi zatem ko je bila razkrinkana, pa je nadaljevala z uporabo nadimka, češ da ji je všeč, da ima alter ego.
5.3 Kdo je v resnici Elena Ferrante?
Avtorstvo znane romaneskne trilogije Genialna prijateljica je neznanka, saj je ime, ki je zapisano na platnicah, psevdonimno. Da bi odkrila, kdo je Elena Ferrante, je skupina raziskovalcev uporabila metodo računalniške stilometrije na korpusu sodobnih avtorjev in avtoric. V skupini 150 sodobnih romanov so se romani Elene Ferrante razporedili ob romane pisatelja Domenica Starnoneja, neapeljskega romanopisca, za katerega so v preteklosti že sumili, da je napisal trilogijo.[14] Kljub temu rezultat ni dokončen, saj je mogoče, da resnični pisec ali piska ni bil vključen/-a v analizo.
Izziv
Domislite se še kake literarne uganke, ki bi jo lahko rešili s pomočjo računalniške stilometrije.
6 Nekaj kritičnih pogledov na računalniške analize besedilnih korpusov
Digitalizacija literarnih besedil, na katerih temeljijo stilometrična analiza in druge računalniške metode v humanistiki, se srečuje s problemom neenakomerne delitve med jeziki. Računalniška stilometrija namreč predvideva obsežne korpuse digitaliziranih besedil, zato obravnava predvsem literarna dela večjih svetovnih jezikov, zapostavlja pa jezike z manj govorci in skromnejšo infrastrukturo.
“Računalniško podprta stilometrija se je namreč uveljavila z raziskavami literature v angleškem jeziku, ki je, kar se tiče razpoložljivosti elektronskega korpusa in orodij za procesiranje naravnih jezikov, tudi najbolj razvit jezik, njena prednost pa je tudi, da praktično ne pozna slovnične pregibnosti.”[16]
Digitaliziranje literarnih del je precej zahtevno, saj je potrebno pravilnost zapisa besedil v procesu digitalizacije preverjati, po drugi strani pa je nabor gradiva, ki ga lahko digitaliziramo, precej omejen, saj morajo književnim besedilom poteči avtorske pravice. Poleg tega je potrebno za nadaljnjo obravnavo s stilometričnimi metodami zbrati in pripraviti korpus, kar ni avtomatizirano in je zato podvrženo napakam. Zaradi novih možnosti raziskav s stilometričnimi orodji, ki so pogosto še rudimentarna, se velikokrat pojavljajo pomanjkljivosti ali napake v programskih kodah, ki raziskavo zaustavijo.
Metod za računalniško analizo besedil je vse več, zato obstaja tudi nevarnost, da raziskovalec izbere tisto, ki najbolj podpre njegovo tezo.[17] Poleg tega lahko pridemo do nekoliko različnih rezultatov, če spreminjamo parametre raziskave, zato se pojavlja vprašanje, ali bo računalniška stilometrija v prihodnje uspela razviti veljavne formalne postopke, ki bodo ponudili prepričljive rezultate, posebej za občutljivo področje določanja avtorstva besedil.