Detektor plagiatov

Kaj je plagiatorstvo?

  • Plagiatorstvo je kršitev avtorske pravice, pri tem pa je “avtorska pravica skupen izraz za številna upravičenja, ki avtorju zagotavljajo uresničevanje premoženjskih (materialnih) in osebnih (moralnih) interesov v zvezi z izkoriščanjem avtorskega dela” (14. člen Zakona o avtorskih in sorodnih pravicah).
  • Plagiatorstvo je vsako predstavljanje tujega dela kot lastno. Za opredelitev plagiata obseg plagiata oziroma prepisa ni pomemben. Plagiat je lahko en stavek (ključni stavek naloge, misel) ali celotno delo.

Povzeto po: Polona Tominc, Vladimir Drozg, Milan Ojsteršek, Nataša Samec, Bernarda Korez, Doroteja Kardum, Rok Hržič.

Preverjanje plagiatorstva na UM (delovno gradivo), Univerza v Mariboru, avgust 2012.

Besedne zveze, ki so povezane s pojmom “plagiatorstvo”

  • Akademska nepoštenost
  • Neupoštevanje novinarske etike
  • Kršenje materialnih in moralnih avtorskih pravic
  • Pomanjkljivo ali napačno citiranje virov

Kako ravnati v primeru suma na plagiat?

V primeru suma na plagiat sledimo štirim korakom:

  1. Prepoznavanje plagiata;
  2. Potrditev suma, da gre za plagiat;
  3. Ocena pomena plagiata;
  4. Ukrepanje v primeru plagiatorstva.

Povzeto po: Polona Tominc, Vladimir Drozg, Milan Ojsteršek, Nataša Samec, Bernarda Korez, Doroteja Kardum, Rok Hržič.

Preverjanje plagiatorstva na UM (delovno gradivo), Univerza v Mariboru, avgust 2012.

Vrste plagiatov

  • Uporaba metode “Kopiraj – prilepi” brez citiranja originalnega vira.
  • Prikrit prepis vira:
    • Uporaba istih besednih zvez ali strukture vira. Delno je vir citiran delno ni.
    • Sprememba besednih zvez iz vira. Obdrži se enak pomen vsebine.
  • Agregiranje vsebine iz množice virov, nekateri so lahko celo neobstoječi. Nič v delu ni originalnega.
  • Uporaba drugih besednih zvez v vsebini (parafraziranje) brez navedbe vira.
  • Kraja ideje.
  • Uporaba avtorjevih predhodnih del brez citiranja (samoplagiat , recikliranje).
  • Prevajanje besedila iz drugega jezika brez citiranja vira.

Povzeto po Plagiarism.org: http://plagiarism.org/plagiarism-101/types-of-plagiarism , obiskano 7. 5. 2015.

Kako delujejo programi za preverjanja plagiatorstva?

  • Izračun zgoščenih vrednosti na n besedah.
  • Izračun zgoščenih vrednosti z uporabo tehnik procesiranja naravnega jezika.
  • Določanje vreče besed iz dokumenta in uporaba statističnih metod primerjanja podobnosti dokumentov ali odstavkov.
  • Ugotavljanje zaporedja citiranja.
  • Ugotavljanje stila avtorja.
  • Uporaba pomenskih podpisov na odstavkih besedila.
  • Določanje najdaljših skupnih podnizov med dvema dokumentoma. 

Kako deluje naš detektor podobnih vsebin?

Slika 1: Primer izpisa podobnosti besedil po primerjavi povedi med dvema besediloma (ugotavljanje grobe podobnosti)

Slika 2: Primer izpisa podobnosti po izvedbi znakovne primerjave med dvema besediloma (ugotavljanje fine podobnosti)

V zadnjem obdobju se je precej povečal pojav prepisovanja del drugih avtorjev brez ustreznega citiranja. Problem se povečuje z večjo ponudbo elektronskih virov na internetu. Vzrok za necitiranje del drugih avtorjev je lahko v neznanju ali pa gre za namerno prepisovanje posameznih stavkov ali celo poglavij iz del drugih avtorjev brez navedbe ustreznega vira (Alzahrani et al., 2012).

Vsebinsko ločimo med preverjanjem podobnosti vsebine in preverjanjem plagiatorstva. Ustrezne programske opreme določijo stopnjo podobnosti vsebin. O plagiatorstvu odloča človek na osnovi stopnje podobnosti in drugih kriterijev.

Ugotavljanje podobnosti med dokumenti se v detektorju podobnih vsebin na nacionalnem portalu odprte znanosti izvaja v dveh korakih.

V prvem koraku, ki ga imenujemo »ugotavljanje grobe podobnosti« (angl. fingerprinting), programska oprema za preverjanje podobnosti določi dokumente, ki so po vsebini najbolj podobni dokumentu, ki ga želimo preveriti. Za ta namen se uporabljajo algoritmi in drugi procesi, ki za celotno vsebino dokumenta ali za posamezne odseke dokumenta (poglavje, odstavek, stavek, določeno število besed) izračunajo značilke ( Stein, 2007, Alzahrani et al., 2012, Brezovnik in Ojsteršek, 2011a). V tem koraku program tudi določi katere dokumente bo uporabil za nadalnjo obdelavo.

V drugem koraku, ki ga imenujemo »ugotavljanje fine podobnosti« (angl. pairwise feature-based exhaustive analysis), preverimo vsak dokument z vsakim z ugotavljanjem najdaljših skupnih podnizov znakov (Navaro, 2001).

Zaznavanje podobnosti vsebin (plagiatorstva) se v nacionalni infrastrukturi odprtega dostopa izvaja na nacionalnem portalu. Rezultate podobnosti lahko ob ustrezni avtentikaciji in avtorizaciji v institucionalnem repozitoriju ali v akademskem informacijskem sistemu univerze pogledajo pooblaščene osebe. Študent ali zaposleni na univerzi lahko vidi samo dela, pri katerih je avtor, soavtor ali mentor. Program za preverjanje podobnosti izvede primerjavo podobnosti za vsako delo, shranjeno v repozitorije univerz. Program ne preverja podobnosti slik.

Program, ki preverja podobnost povedi med besedili (slika 1), odkrije podobne povedi v obeh besedilih, ki so daljše od štiridesetih znakov.

Meja štiridesetih znakov je nastavljena na podlagi izkušenj, ki smo jih pridobili od leta 2008 z detekcijo podobnih vsebin na nivoju povedi. Krajše povedi običajno predstavljajo fraze ali ustaljeno strokovno terminologijo.

Program uporablja ogrodje za procesiranje besedil, ki omogoča obdelavo besedil v slovenskem, angleškem in nemškem jeziku. Za slovenski jezik uporabljamo oblikoslovni slovar, ki vsebuje okrog 8.000.000 besednih oblik in okrog 320.000 lem.

Kot splošni pomenski slovar smo uporabili besedne zveze iz naslovov člankov iz slovenske, angleške in nemške Wikipedije, ki smo jih ekstrahirali iz Dbpedije (Morsey et al., 2012) in domensko specifični pomenski slovar, ki smo ga zgradili s pomočjo ključnih besed, ki se pojavljajo v metapodatkih publikacij. Povedi, ki jih program za ugotavljanje grobe podobnosti označi kot podobne, so nesporno enake v obeh besedilih. Razlikujejo se lahko samo, če so avtorji uporabljali sinonime ali so jih napisali v drugi osebi oziroma so v njih uporabili mašila ( npr. torej, pa…).

Program zazna podobne povedi v besedilih, čeprav je v njih lahko zamenjan vrstni red uporabljenih besed ali so v besedah tipkarske napake.

Algoritem za določanje podobnosti povedi med besedili (Brezovnik in Ojsteršek, 2011a), ki smo ga dodatno nadgradili, najprej pretvori besedilo v format UTF-8, izloči odvečne presledke in skoke v novo vrstico (CR, LF), razbije vsebino v stavke, ki jih nato lematizira, in iz njih izloči najbolj pogoste besede (npr. in ali, da ...) ter preostale besede iz stavka uredi po abecedi. V tem koraku izvede tudi popravljanje tipkarskih napak v besedah, če lahko iz oblikoslovnega slovarja ob uporabi POS označevalnika enoumno določi za katero besedo gre.

Za popravke tipkarskih napak smo uporabili Symmetric Delete Spelling Correction algoritem. Za lematizacijo program izvede še normalizacijo sinonimov, ki jih imamo shranjene v pomenskem slovarju in jih lahko brez spremembe pomena preslikamo v eno obliko.

Dober primer je normalizacija besed »predstaviti«, »opisati«, »prikazati«, ki so v večini primerov sinonimi. Zatem program za tako spremenjene povedi izračuna zgostitvene vrednosti (ang. hash). Nato program primerja zgostitvene vrednosti vseh dokumentov ter za naš dokument sestavi seznam delov besedila, ki so enaki v ostalih dokumentih.

Dokumenti, ki so med seboj podobni v povedih za več kot 1%, so kandidati za ugotavljanje znakovne podobnosti. Če je teh kandidatov manj kot 50, potem program vzame še ostale najbolj podobne dokumente, ki jih dobimo po primerjavi s pomočjo algoritma BM25 (Robertson et al., 2004).

Program, ki izvaja znakovno primerjavo podobnosti med besedili (slika 2), išče najdaljše skupne podnize med dvema besediloma. Omejili smo se na skupne podnize znakov, ki so daljši od 14 znakov. Ko dobimo najdaljše skupne podnize znakov med posameznimi dokumenti, izločimo podnize, ki so krajši od 30 znakov in se nahajajo v istem dokumentu več kot 350 znakov od drugih skupnih podnizov znakov. Tudi zgoraj omenjene dolžine podnizov in razdalj med podnizi smo določili na podlagi študije velikega števila podobnih dokumentov, ki smo jih ročno pregledovali od leta 2008. Program barvno označi besedne zveze ali dele povedi, ki so enaki v obeh dokumentih. Za ugotavljanje skupnih podnizov obeh dokumentov smo uporabili algoritem, ki ga je razvil Kärkkäinen s sodelavci (Kärkkäinen et al., 2009).

Pri določenih gradivih je lahko velika razlika med izračunom podobnosti povedi in podobnosti, ki jo dobimo po znakovni primerjavi podobnosti. To velja predvsem za gradiva, ki so si na nivoju podobnih povedi zelo različna (npr. nobena cela poved ni enaka v obeh dokumentih). V teh primerih so avtorji vzeli določene povedi iz drugih dokumentov in jih delno spremenili, zato jih program za ugotavljanje podobnosti povedi ni zaznal. Programska rešitev tudi generira skupno poročilo o podobnosti med ocenjevanim dokumentom in izbranimi dokumenti ali med vsemi dokumenti, ki jih je program izbral kot kandidate za izvedbo znakovne primerjave podobnosti.

Viri:
Alzahrani, S. M., Salim, N. in Abraham, A. (2012). Understanding plagiarism linguistic patterns, textual features, and detection methods. IEEE Transactions on systems, man, and cybernetics, Part C: Applications and Reviews, 42 (2), 133149.
Brezovnik, J. in Ojsteršek, M. (2011). Advanced features of Digital library of University of Maribor. International journal of education and information technologies, 5 (1), 34–41. Pridobljeno 4. 6. 2014 s spletne strani: http://www.naun.org/main/NAUN/educationinformation/19-520.pdf. Brezovnik, J. in Ojsteršek, M. (2011a). TextProc – a natural language processing framework and its use as plagiarism detection system. International journal of education and information technologies, 5 (3), 293–300. Pridobljeno 4. 6. 2014 s spletne strani: http://www.naun.org/multimedia/NAUN/educationinformation/19-872.pdf. 
Kärkkäinen, J., Manzini, G. in Puglisi, S. (2009). Permuted longest-common-prefix array. V Proceedings of the combinatorial pattern matching. Kucherov, G. in Ukkonen, E. (Ur.), Lecture Notes in Computer Science, 5577. Berlin: Springer, 181–19.
Morsey, M., Lehmann, J., Auer, S., Stadler, C. in Hellmann, S. (2012). DBpedia and the live extraction of structured data from Wikipedia. Program: electronic library and information systems, 46 (2), 157–181.
Robertson, S., Zaragoza, H. in Taylor, M. (2004). Simple BM25 extension to multiple weighted fields. V Proceedings of the thirteenth ACM international conference on Information and knowledge management. New York: ACM, 42–49. 
Stein, B. (2007). Principles of hash-based text retrieval. V Proceedings of the 30th annual international ACM SIGIR conference on research and development in information retrieval. New York: ACM, 527–534.

Prikaz podobnosti dokumenta z drugimi dokumenti

Navodila in video navodila za uporabo sistema za detekcijo podobnih vsebin najdete na https://dpv.openscience.si/navodila/ Naš detektor uporabljajo vse štiri univerze in 21 samostojnih visokošolskih zavodov in višjih šol.