Pomensko označevanje
Prototip pomenskega označevanja vsebin
Pomensko označevanje vsebin je del nacionalnega projekta J6-7094: “Slovenska znanstvena besedila: viri in opis”. Projekt se zaključi konec leta 2018. V projektu izdelujemo korpus slovenske znanstvene slovenščine, ki vsebuje besedila, prevzeta s portala odprte znanosti. Besedila so zajeta iz formata PDF, kar zahteva razvoj metod za čiščenje besedil, luščenje strukture dokumentov ter pretvorbo v enovit in standardiziran zapis XML. Korpus je jezikoslovno označen z na novo razvitimi orodji.
Razvili bomo tudi metode za klasifikacijo besedil, ki bodo izboljšale uporabnost portala odprte znanosti s tem, da bo z njimi omogočeno bolj kompleksno iskanje po vsebinah, nadgrajen pa bo tudi vmesnik za knjižničarje, ki v univerzitetne repozitorije vnašajo nova besedila.
Korpus bo služil kot osnova za nove metode avtomatiziranega luščenja slovenske terminologije. Izluščeni terminološki kandidati bodo objavljeni prek prosto dostopnega spletnega slovarskega vmesnika, ki bo omogočal tako pregledovanje kot urejanje zbirk, kar bo slovenskim znanstvenim skupnostim z najrazličnejših področij omogočilo vključitev v upravljanje s terminologijo svojega področja. S strani nekaterih izmed teh skupnosti bomo pridobili tudi odziv na terminološko zbirko, ki jo bomo zanje pripravili v projektu. Pomemben segment projekta je tudi prva empirično zasnovana raziskava slovenskega znanstvenega jezika, ki bo temeljila na zbranem korpusu. Opis znanstvene slovenščine bomo dopolnili z izvedbo anket in poglobljenih intervjujev, s katerimi bomo pridobili podatke o tistih delih znanstvenega pisanja v slovenščini, s katerimi imajo pisci (zlasti doktorski študenti in mlajši doktorji znanosti) največ težav.
Rezultati projekta bodo dostopni v največji možni meri: izdelani viri in orodja bodo prosto in javno dostopni širši raziskovalni skupnosti, s čimer bodo pripomogli k napredku korpusnega jezikoslovja, digitalne humanistike in jezikovnih tehnologij za slovenščino. Viri bodo arhivirani v repozitoriju raziskovalne infrastrukture CLARIN.SI, ki bo prevzela tudi vzdrževanje korpusa po zaključku projekta. Projekt bo v svoje aktivnosti vpel tudi širšo slovensko znanstveno skupnost in druge zainteresirane javnosti.
Pri projektu sodelujejo raziskovalci s štirih znanstvenoraziskovalnih ustanov, ki si za uresničitev zastavljenih ciljev prizadevajo z različnimi, a komplementarnimi znanji. Cilji projekta so torej: okrepitev slovenskega znanstvenega jezika, boljša opremljenost slovenskega jezika za delovanje v informacijski družbi in zagotavljanje večje odprtosti znanstvenih rezultatov.
Na http://164.8.252.130/pages/index.html je testno prikazano pomensko označevanje posameznega dokumenta iz nacionalne infrastrukture odprtega dostopa. Z nastavljanjem „Pomembnosti“ (desno zgoraj) lahko določimo ključne besedne zveze posameznih dokumentov. S klikom na oblak (SLV ali ENG) dobimo najpomembnejše ključne besede v slovenskem in angleškem jeziku.