TextProc
Sistem za obdelavo besedila TextProc
Za potrebe procesiranja besedil v slovenskem jeziku smo izdelali lastno programsko ogrodje imenovano TextProc.
Ogrodje uporablja oblikoslovni slovar, ki vsebuje okrog 8.000.000 izvlečkov in okrog 300.000 lem, ki smo ga pridobili od Inštituta za slovenski jezik Frana Ramovša ZRC SAZU v Ljubljani, korpus slovenskega jezika FidaPlus, splošno namenski pomenski slovar, ki ga je izdelala Draja Fišer in domensko specifični slovar za področje življenskih situacij, ki se pojavljajo v zvezi z gradnjo in nakupom nepremičnin, ki ga izdelujemo v Laboratoriju za heterogene računalniške sisteme na Fakulteti za elektrotehniko, računalništvo in informatiko v Mariboru.
To ogrodje (slika) je povezovalni člen med ločenimi dodatki, ki jih je možno združevati v TextProc procese, posamezen proces pa opravlja specifično nalogo s področja procesiranja naravnega jezika ali tekstovnega rudarjenja (npr. razčlenjevanje vsebine, oblikoslovno označevanje, razreševanje sklicev, pomensko označevanje, delno avtomatsko dopolnjevanje pomenskega slovarja, pomenski opis procesa...).
Posamezen proces je sestavljen iz dodatkov, njihovih nastavitev in korpusa, tj. zbirke dokumentov, ki jih dodatki obdelajo. Dodatki delujejo na principu označevanja besedila. Trenutno je realiziranih 49 različnih dodatkov.
Sistem lahko testirate na http://predator.uni-mb.si:8026/TextProc/
Primer rezultata obdelave besedila iz infrastrukture TextProc
TextProc lahko preizkusite tukaj
TextProc lahko preizkusite na http://predator.uni-mb.si:8026/TextProc/