VSE knjižnice (vzajemna bibliografsko-kataložna baza podatkov COBIB.SI)
  • Strojno generiranje parafraz v slovenščini [Elektronski vir] = [Generating paraphrases in Slovene using machine learning] : magistrsko delo
    Debeljak Šokić, Alja
    Parafraziranje je pomembna naloga na področju obdelave naravnega jezika, saj vključuje tvorjenje povedi, ki se od izvorne razlikujejo po obliki, vendar ohranjajo enak pomen. Avtomatsko ustvarjanje ... raznolikih in razumljivih parafraz prispeva k lažjemu razumevanju in interpretaciji besedil ter izboljšuje komunikacijo med človekom in računalnikom. V tej nalogi smo razvili model za parafraziranje v slovenščini, ki temelji na vnaprej naučenih velikih generativnih jezikovnih modelih. Zaradi računske zahtevnosti velikih modelov smo izbrali manjšo različico večjezikovnega modela mT5 in slovenskega modela SloT5. Temeljita na arhitekturi transformer, ki trenutno prevladuje na področju obdelave naravnega jezika. Iz množice podnapisov OpenSubtitles2018 smo pridobili slovenske in angleške podnapise, angleške smo prevedli v slovenščino in tako ustvarili učno množico s poravnanimi slovenskimi parafrazami. Množica je uporabna za nadaljnje raziskave ter gradnjo modelov za generiranje slovenskih parafraz. Uporabili smo jo za prilagoditev modelov, ki smo ju ovrednotili z metrikama ROUGE in BERTScore ter kvalitativno s človeško presojo. Model SloT5 je dosegel boljše rezultate. Z analizo ustvarjenih parafraz smo opredelili glavne strategije parafraziranja v slovenščini ter najpogostejše napake.
    Vrsta gradiva - magistrsko delo ; neleposlovje za odrasle
    Založništvo in izdelava - [A. Debeljak Šokić], 2025 ; Ljubljana
    Jezik - slovenski
    COBISS.SI-ID - 227906051