Baza projekata

Detalji projekta<< Pretraživanje


Naziv projekta:
SenseHive: Dinamički modeli za postepenu izgradnju leksičko-semantičkih resursa potpomognuti radom mnoštva


Voditelj:Vrsta natječaja:
Jan ŠnajderUspostavni istraživački projekti

Rok:Šifra:Akronim:Trajanje:Status:Vrijednost financiranja:
2014-097312SenseHive01.10.2015 - 30.09.2018710.000,00 Kn

Znanstvena područja:
Interdisciplinarni, Tehničke znanosti, Humanističke znanosti

Znanstvena polja:
Računarstvo

Ustanova:
Sveučilište u Zagrebu, Fakultet elektrotehnike i računarstva

Suradnici:
(Redoviti profesor u trajnom zvanju / Full professor tenure) Sebastian Pado, (Docent / Assistant professor) Darja Fišer, (Senior Associate) Tomislav Stojanov, (Poslijedoktorand / Postdoctoral researcher) Željko Agić, (Docent / Assistant professor) Nikola Ljubešić, (Redoviti profesor u trajnom zvanju / Full professor tenure) Bojana Dalbelo Bašić, (Doktorand / PhD student) Mladen Karan, (Poslijedoktorand / Postdoctoral researcher) Goran Glavaš, (Student diplomskog studija) Luka Skukan, (Znanstveni suradnik / Research associate) Domagoj Alagić, (Poslijedoktorand / Postdoctoral researcher) Abbas Akkasi,

Ključne riječi:
Obrada prirodnog jezika, jezične tehnologije, leksička semantika, semantički resursi, razrješavanje višeznačnosti, hrvatski jezik

Sažetak:
Leksičko-semantički resursi igraju bitnu ulogu u obradi prirodnoga jezika i srodnih primjena poput pretraživanja informacija. Nažalost, njihova je izgradnja izuzetno skupa te je rijetko vođena praktičnim potrebama, što kod jezika sa slabije razvijenim resursima predstavlja naročit problem. Moguće rješenje jest izgradnja leksičko-semantičkih resursa potpomognuta radom mnoštva (engl. crowdsourcing). Premda se rad mnoštva pokazao izvedivim i znatno povoljnijim pristupom, još uvijek ne postoji cjelovita metodologija koja bi omogućila postepenu izgradnju vrlo velikih leksičko-semantičkih resursa. Cilj ovoga projekta jest upotpuniti ovu prazninu i istražiti računalne modele i metode za postepenu i učinkovitu izgradnju leksičko-semantičkih resursa potpomognutu radom mnoštva. Istraživanje će objediniti modele za dinamičan rad mnoštva, modele semantike temeljene na korpusu (distribucijske modele i tematske modele) te aktivno strojno učenje, te polučiti cjelovit i jezično neovisan radni okvir, tzv. SenseHive. SenseHive objedinjuje prilagodiv prikaz značenja i leksičko-semantičkih veza riječi temeljen na grafovima (SenseGraph) i postupke za njegovu postepenu izgradnju. Značenja riječi dinamički se razdjeljuju i stapaju na temelju analize ljudskih ocjena dobivenih nad podatcima ekstrahiranima iz korpusa. U prvoj fazi projekta izgradit ćemo prototip i upotrijebiti ga za ciljane eksperimente na podatcima na hrvatskom, slovenskom i engleskom jeziku s ciljem odgovaranja na relevantna istraživačka pitanja. Kao dokaz koncepta, u drugoj ćemo fazi primijeniti SenseHive za izgradnju leksičko-semantičkog resursa za hrvatski jezik umjerene veličine, proširivanjem i obogaćivanjem postojećih leksičko-semantičkih resursa. Predloženo će istraživanje unaprijediti stanje znanosti u području računalne semantike i poluatomatske izgradnje jezičnih resursa te rezultirati konkretnim leksičko-semantičkim resursom za hrvatski jezik od velike praktične vrijednosti.