Modeliranje mentalne gramatike hrvatskoga: ograničenja informacijske strukture
Anita Peti-Stantić i Mateusz-Milan Stanojević
Istraživanja pokazuju da psiholingvističke mjere riječi poput konkretnosti i predočivosti utječu na to kako ih ljudi koriste u različitim situacijama. Primjerice, konkretnost – koliko riječi možemo osjetilno doživjeti (Paivio i sur., 1968) – utječe na brzinu jezične obrade (konkretne riječi obrađujemo brže od apstraktnih). Predočivost – koliko brzo i lako riječ pobuđuje mentalnu predodžbu u različitim osjetilnim modalitetima (Paivio i sur., 1968) – u visokoj je korelaciji s konkretnošću, ali je vjerojatno riječ o zasebnoj kategoriji, na što ukazuju razlike u procjenama afektivnosti (Kousta i sur., 2011). Čini se da su konkretnost i predočivost vezane uz gramatičku vrstu riječi, što pokazuju razlike u ljudskim procjenama među vrstama riječi te različite predikcije u strojnom učenju (Peti-Stantić i sur., 2021). Konkretnost ima i praktične posljedice, primjerice utječe na usvajanje vokabulara (lakše učimo konkretne riječi).
Imajući u vidu sve navedeno, cilj projekta Modeliranje mentalne gramatike hrvatskoga: ograničenja informacijske strukture (MEGAHR, Hrvatska zaklada za znanost, 2017-2021) bilo je odrediti kako konkretnost i predočivost djeluju na leksičkoj razini te imaju li posljedica za gramatičke konstrukcije i informacijsku strukturu hrvatskoga. Projektni se tim sastojao od deset članova, među kojima su bili lingvisti, psiholingvisti, psiholozi i informatolozi te četiriju vanjskih suradnika, a projekt se provodio u četiri koraka.
U prvom je koraku sastavljena Hrvatska psiholingvistička baza (HPB; slobodno dostupna na https://doi.org/10.17234/megahr.2019.hpb) s procjenama 6000 imenica, glagola, pridjeva i priloga koji je procijenilo prosječno po 30 sudionika. Riječi su izabrane iz korpusa hrWaC, Hrvatskog frekvencijskog rječnika (Moguš i sur., 1999) na temelju osnovnih kriterija frekvencije i svakodnevne uporabe. Dodatni je kriterij za 1500 od ukupnog broja riječi bio da pripadaju stručnom i akademskom vokabularu koji se koristi u osnovnoškolskoj nastavi, a koji je ekscerpiran iz udžbenika hrvatskog, matematike, povijesti, zemljopisa i prirode za četvrti, peti i šesti razred osnovne škole. HPB sadrži vrijednosti za duljinu i vrstu riječi, živost i frekvenciju iz korpusa hrWaC te procjene konkretnosti, predočivosti, dobi usvajanja i subjektivne frekvencije. Sve dobivene vrijednosti usporedive su s vrijednostima u bazama za druge jezike, a korelacije među varijablama su u skladu s ranijim istraživanjima (Peti-Stantić i sur., 2021).
U drugom smo koraku na temelju metoda računalnog modeliranja ekstrapolirali procjene konkretnosti i predočivosti za 100000 riječi za koje u prvom koraku nisu prikupljene ljudske procjene. Na teorijskoj razini računalno modeliranje daje uvid u važnost distribucije za procjenu riječi. Na praktičnoj je razini riječ o razmjerno ekonomičnom načinu proširivanja baze, što je posebno važno za manje istraživane jezike poput hrvatskoga. Pri modeliranju koristili su se prethodno istrenirani fastText vektorski prikazi kao prediktori te konkretnost ili predočivost kao izlazna varijabla. Koristili smo se strojem s potpornim vektorima s radijalnom jezgrom, a rezultate smo procijenili na temelju peterostruke validacije u pet iteracija. Strojne procjene konkretnosti i predočivosti visoko koreliraju s ljudskim procjenama i slobodno su dostupne na: https://github.com/megahr/lexicon/blob/master/predictions/hr_c_i.predictions.txt.
U trećem smo se koraku posvetili tome kako karakteristike riječi (potencijalno) utječu na linearno i globalno (hijerarhijsko procesiranje) ograničenja mentalne gramatike hrvatskoga. S jedne smo strane krenuli iz perspektive riječi kako bismo odredili u kojoj su interakciji konkretnost i predočivost s gramatičkim vrstama riječi i kako se procjenjuju u različitim kontekstima. Rezultati ukazuju da se procjene konkretnosti i predočivosti razlikuju s obzirom na vrstu riječi, i to tako da se imenice procjenjuju najkonkretnijima i najpredočivijima, te da ih redom slijede glagoli, pridjevi i prilozi. Preliminarni rezultati procjena u kontekstu pokazuju da se konkretnost procjenjuje nižom nego izvan konteksta. Navedeno sugerira da se ljudi kod procjena van konteksta oslanjaju na idealizirano znanje, koje potiskuju kad riječ procjenjuju u kontekstu. S druge smo strane krenuli iz perspektive konstrukcija te smo istraživali kako poredak klitika i elipsa utječu na obradu rečenica. Na općenitoj razini, rezultati pokazuju da postoje preferirane konstrukcijske varijante i u slučaju poretka klitika kao i eliptičnih rečenica, koje ovise o informacijskoj strukturi. Na teorijskoj nam razini još preostaje pokušati integrirati konstrukcijske rezultate s rezultatima vezanim uz konkretnost i predočivost, dok smo se u posljednjem koraku projekta okrenuli njihovoj integraciji u praksi.
U četvrtom smo koraku rezultate iz prva tri koraka kombinirali s analizom osnovnoškolskih udžbenika i prediktora vještina pismenosti kod djece. Na temelju naših i ranijih istraživanja razvili smo nastavne materijale za poboljšanje produktivne jezične kompetencije osnovnoškolaca. Materijali (slobodno dostupni na: http://megahr.ffzg.unizg.hr/hr/?page_id=740) su testirani na radionicama za učenike i za senzibilizaciju učitelja na činjenicu da adekvatna upotrebu vokabulara, njegov razvoj i poznavanje odgovarajućih konstrukcija ima utjecaja na poboljšanje vještine čitanja. Pristup se temelji na izboru vokabulara odgovarajuće konkretnosti kako bi se poboljšalo čitanje s razumijevanjem te na korištenje jezičnih formula koje olakšavaju obradu i ukazuju na elemente diskursa. Navedene teorijske i praktične ideje razvijene su u knjizi za stručnjake, učitelje i nastavnike (Peti-Stantić 2019).
Sve u svemu, projekt MEGAHR u teoriji i praksi jezik sagledava kao sociokognitivno utemeljenu konstrukcijsku pojavu, što se očituje na svim razinama: u našem mentalnom leksikonu, gramatičkoj strukturi, svakodnevnoj uporabi i jezičnoj obradi. To otvara vrata za brojna daljnja istraživanja, npr. afektivnih varijabli, figurativnog potencijala riječi te njihovog odnosa s konstrukcijama i njihovom obradom.
Literatura:
Kousta, Stavroula-Thaleia, Gabriella Vigliocco, David P. Vinson, Mark Andrews i Elena Del Campo. 2011. “The Representation of Abstract Words: Why Emotion Matters.” Journal of Experimental Psychology: General 140 (1): 14–34. https://doi.org/10.1037/a0021446.
Moguš, Milan, Maja Bratanić, and Marko Tadić. 1999. Hrvatski čestotni rječnik. Zagreb: Školska knjiga.
Paivio, Allan, John C. Yuille i Stephen A. Madigan. 1968. “Concreteness, Imagery, and Meaningfulness Values for 925 Nouns.” Journal of Experimental Psychology 76 (1, Pt.2): 1–25. https://doi.org/10.1037/h0025327.
Peti-Stantić, Anita. 2019. Čitanjem do (spo)razumijevanja: od čitalačke pismenosti do čitateljske sposobnosti. Zagreb: Naklada Ljevak
Peti-Stantić, Anita, Maja Anđel, Vedrana Gnjidić, Gordana Keresteš, Nikola Ljubešić, Irina Masnikosa, Mirjana Tonković, Jelena Tušek, Jana Willer-Gold i Mateusz-Milan Stanojević. 2021. “The Croatian Psycholinguistic Database: Estimates for 6000 Nouns, Verbs, Adjectives and Adverbs.” Behavior Research Methods, April. https://doi.org/10.3758/s13428-020-01533-x.
277 total views, 2 views today
This post is also available in: English (Engleski)