Procesiranje naravnih jezikov, modeliranje tem in literatura

Ivana Zajc; Peter Purg

4 Procesiranje naravnih jezikov, modeliranje tem in literatura

Naravni jeziki so tisti jeziki, ki jih ljudje vsakodnevno uporabljamo in z njimi komuniciramo, pri tem pa se ti jeziki nenehno spreminjajo. Umetni jeziki so po drugi strani namenjeni za specifične naloge in so nespremenljivi, to so na primer programski jeziki. Obdelava naravnih jezikov (ang. Natural Language Processing ali s kratico NLP) se ukvarja z računalniško obdelavo “človeških” jezikov in pomeni most med naravnimi in računalniškimi jeziki.

Procesiranje naravnih jezikov uporablja modele strojnega učenja za analizo, interpretacijo ali ustvarjanje naravnih jezikov. Obdelava naravnih jezikov je uporabna za številne vsakodnevne naloge, na primer za prepoznavanje govora in avtomatsko prevajanje besedil.

1 Iskanje tematik znotraj literarnega korpusa

Raziskave na področju procesiranja naravnih jezikov so namenjene oblikovanju algoritmov in orodij za avtomatsko obdelavo jezika, osredotočajo se na izboljšave meril znotraj svojih procesov ter razvoj optimalnih algoritmov. S preizkušanjem njihove učinkovitosti na podlagi standardnih korpusov besedil je možno na sistematičen način primerjati različne pristope. Raziskave znotraj digitalne humanistike se po drugi strani ne osredotočajo v tolikšni meri na same algoritme, ampak bolj na rezultate, na podlagi katerih raziskovalke in raziskovalci odgovarjajo na svoja raziskovalna vprašanja. Zaradi tega razloga se vsaka posamezna študija osredotoča na ožji nabor podatkov, ki je pogosto edinstven.^[1] Pred izdelavo tematskih modelov je običajno, da korpus uredimo, in sicer je ključno, da izločimo t. i. prazne besede (ang. stop words):^[2] nepolnopomenske besede, imena mesecev, dni v tednu, literarnih junakov ipd.^[3]

Primer: korpus ELTeC-slv

Korpus ELTeC-slv je literarni korpus slovenskih proznih besedil (romanov, povesti in novel), ki obsega 100 naslovov del, objavljenih med letoma 1836 in 1921.^[4] Korpus je del obsežne zbirke, ki jo sestavljajo manjši korpusi v 17 evropskih jezikih. Vsi vključeni korpusi so oblikovani po enakih parametrih.

2 Modeliranje tem v književnih besedilih

Ko procesiranje naravnih jezikov uporabimo na korpusih književnih del, lahko dobimo na primer pregled nad temi besedili s samodejnim izločanjem osrednjih tematik danega besedila in odnosov med njimi.

Pri analizi besedil gre za samodejno iskanje besed in besednih zvez, ki povzemajo vsebino dela ali korpusa književnih del, s tem pa lahko raziskovalke in raziskovalci izluščijo ključne tematske poudarke tekstov. Gre za preverjanje, kako pogosto se določene besede ali besedne zveze pojavljajo v danem književnem besedilu ali celotnem literarnem korpusu, s tem pa je mogoče ugotoviti, katere teme in motivi v delih prevladujejo ter kako se medsebojno povezujejo.

Z modeliranjem tem tako ugotovimo, katere teme so v določenem literarnem besedilu ali skupini besedil ključne in kateri so njihovi osrednji vsebinski poudarki. Poleg tega lahko na ta način na primer ugotavljamo, katere teme so bile najbolj zanimive za literate in literatke v določenem zgodovinskem obdobju. Tematski modeli so uporabni za različne namene v literarnovednih raziskavah: za združevanje dokumentov v skupine, organiziranje velikih korpusov besedilnih podatkov in pridobivanje informacij iz besedil.^[5]

Primer: vizualizacije literarne produkcije ameriških Ircev

Raziskava Matthewa Jockersa in Davida Mimne je na podlagi metapodatkov (npr. leta izdaje, avtorji in pogostost določenih besed) z računalniško analizo preverjala vzorce v obsežnem naboru britanskih romanov iz 19. stoletja. Raziskovala sta na primer, kako se je uporaba določenih besed ali tematik v romanih spreminjala skozi čas ali kakšni so bili različni pristopi k pripovedovanju. Študija uporablja metapodatke in računalniške metode za odkrivanje pred tem nepoznanih vzorcev v obsežni zbirki romanov, kar omogoča vpogled v transformacije britanske književnosti. Med rezultati raziskave je dejstvo, da se tematike literarnih del spreminjajo glede na nacionalnost in spol avtoric ter avtorjev, pa tudi glede na čas izida književnega besedila. Raziskava je na primer pokazala, da je dvakrat večja možnost, da je o tematiki ženske mode pisala literarna avtorica kakor avtor.^[6]

3 Modeliranje tem in literarnovedna vprašanja

Modeliranje tem v literarnih delih torej raziskovalkam in raziskovalcem omogoča, da razširijo svoje metode analize, s tem pa obogatijo razumevanje književnih del ter literarne zgodovine. To področje se še naprej razvija in prispeva k bolj poglobljeni analizi ter interpretaciji literature. Tematike lahko raziskovalec ali raziskovalka išče glede na določene vsebine, ki jih želi osvetliti ali medsebojno povezati. Če želimo, da so naše raziskovalne hipoteze v okviru književnih raziskav relevantne, je potrebno dobro poznavanje področja raziskav. Enako velja tudi za interpretacijo rezultatov modeliranja tem.

Primer: tematike, povezane z industrializacijo, meščanstvom, političnim udejstvovanjem in nacionalnimi idejami v slovenski literaturi 19. stoletja

Lucija Mandić^[7] je izvedla modeliranje tem na slovenskem korpusu ELTeC-slv, cilj raziskave pa je bil ugotoviti, katere teme so povezane z industrializacijo, meščanstvom, političnim udejstvovanjem in nacionalnimi idejami v daljši slovenski pripovedni prozi 19. stoletja. Študija izlušči naslednje teme v besedilnem korpusu, ki jih lahko povežemo z omenjenimi tematikami:

politika: volitev, komisar, glavar, kandidat, shod, stranka, narod, volilec, poslanec, večer;
nacionalna ideja: narod, država, stoletje, jezik, pesnik, zgodovina, korist, nega, rod, duh;
industrializacija: zdravnik, gospod, seme, nadzornik, delavec, ravnatelj, tovarna, vrata, delo, glava;
plemstvo: baron, grofica, gospod, dan, misel, beseda, družba, čas, srce, gospa;
podeželje: pot, deklica, glava, večer, beseda, vas, mladenič, oče, mlin, raz;
družina: mati, oče, dan, otrok, leto, sin, pismo, hiša, denar, mož;
sentimentalnost: oči, glava, pogled, obraz, ljubezen, gospod, duša, ženska, lice, miza;
meščanstvo: gospod, beseda, doktor, duh, društvo, prijatelj, sluga, gospa, oči, odvetnik.

Kot je razvidno s spodnje slike, se v korpusu največkrat pojavljata meščanska in kmečka tema, sledi jima ženska tema.

Slika: Sestava Korpusa glede na tematiko; vir: Mandić 2023

Mandić med drugim ugotavlja, da so teme “politika”, “nacionalna ideja”, “meščanstvo” in “sentimentalnost” v večji meri prisotne v delih z oznako roman kot v delih z oznako povest ali novela.^[8]

3 Modeliranje tem in čustvene vsebine literarnih del

Čustva igrajo ključno vlogo pri razumevanju in analizi književnih besedil, raziskujemo pa jih lahko tudi z modeliranjem tem v literarnih korpusih. Slednje se povezuje z zaznavanjem čustvenih vidikov besedil prek čustvenih izrazov, s čimer dosežemo bolj celostno razumevanje vsebine, njene izrazne moči in vpliva na bralce. Gre na primer za raziskovanje, ali je besedilo pozitivno, negativno ali nevtralno naravnano in katera čustva v tekstu prevladujejo. Poleg tega je mogoče ugotavljati, kako so v besedilih čustveno obarvane določene tematike. Tovrstno modeliranje tem seveda ni rezervirano le za književnost: uporablja se za analize obsežnih objav na družabnih omrežjih, v časopisih, revijah, spletnih blogih ipd. Obsežna analiza tem v slovenskih medijih je na primer pokazala, da ima večina tem s politično tematiko negativen ali nevtralen sentiment, medtem ko je pozitivnih zelo malo.

Primer: Čustva v zbirki o Harryju Potterju

Zanimiva raziskava je merila in vizualizirala čustveno intenzivnost v šestih knjigah zbirke o Harry Potterju: Kamen modrosti, Dvorana skrivnosti, Jetnik iz Azkabana, Ognjeni kelih, Feniksov red in Princ mešane krvi. Kot je razvidno iz rezultatov raziskave, se čustveni naboj tekom zbirke stopnjuje, najbolj emocionalno intenziven pa je del z naslovom Princ mešane krvi. Trije najbolj čustveni trenutki v popularni zgodbi o čarovniku so sodeč po analizi tekom vseh obravnavanih nadaljevanj zbirke naslednji: kadar Harryja Potterja izbere Ognjeni kelih, kadar umre lik Cedric Diggory in kadar umre lik Dumbledore.^[9]

3 Nekaj kritičnih pogledov na procesiranje naravnih jezikov in literaturo

Naravno procesiranje jezikov se srečuje z metodološkimi in tehničnimi izzivi, povezanimi med drugim z zgodovinskimi oblikami jezikov ter z večjezičnostjo, pa tudi s potrebami po bolj razvitih metodah digitalizacije besedil in polavtomatskim označevanjem tekstov.^[10]

Ker je pri tej metodologiji, ki se intenzivno razvija, poudarek na razvoju novih računalniških sistemov ali izboljšanju obstoječih, je zelo pomembno, da se ti ovrednotijo na standardnih zbirkah podatkov z uporabo ponovljivih metod. Vendar to pomeni, da se raziskovalke in raziskovalci osredotočajo na omejene nabore podatkov zgolj v izbranih jezikih, zato se razvijajo orodja, ki so optimizirana izključnom za te ožje nabore podatkov ter izbrane jezike, pri tem pa izključujejo vse druge jezike, ki so s tega vidika manj razviti.^[11] Orodja za naravno procesiranje jezikov so za širši krog uporabnikov precej zahtevna, da jih usvojimo, potrebujemo veliko časa. Med manj zahtevnimi orodji so po drugi strani na voljo predvsem orodja, ki so hkrati precej manj natančna, kakršno je Ngram Viewer na platformi Google Books.^[12]

McGillivray idr. 2020 ↵
Seznam slovenski praznih besed je dostopen na tej povezavi. ↵
Mandić 2023 ↵
Erjavec idr. 2020 ↵
Mandić 2023 ↵
Jockers in Mimno 2013 ↵
2023 ↵
Mandić 2023 ↵
Baldha 2021 ↵
McGillivray idr. 2020 ↵
McGillivray idr. 2020 ↵
prim. Greenfield 2013 ↵

License

Icon for the Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License

Digitalna humanistika in literatura Copyright © 2023 by University of Nova Gorica Press is licensed under a Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License, except where otherwise noted.

License

Share This Book