Nothing Special   »   [go: up one dir, main page]

TWI594135B - 英文資料之抄襲偵測方法 - Google Patents

英文資料之抄襲偵測方法 Download PDF

Info

Publication number
TWI594135B
TWI594135B TW102102093A TW102102093A TWI594135B TW I594135 B TWI594135 B TW I594135B TW 102102093 A TW102102093 A TW 102102093A TW 102102093 A TW102102093 A TW 102102093A TW I594135 B TWI594135 B TW I594135B
Authority
TW
Taiwan
Prior art keywords
phrase
word
words
data
similarity
Prior art date
Application number
TW102102093A
Other languages
English (en)
Other versions
TW201430591A (zh
Inventor
蘇嘉穎
王惠嘉
劉繼仁
羅鄉儀
林柏安
Original Assignee
國立成功大學
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 國立成功大學 filed Critical 國立成功大學
Priority to TW102102093A priority Critical patent/TWI594135B/zh
Publication of TW201430591A publication Critical patent/TW201430591A/zh
Application granted granted Critical
Publication of TWI594135B publication Critical patent/TWI594135B/zh

Links

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

英文資料之抄襲偵測方法
本發明係關於一種英文資料之抄襲偵測方法。
隨著台灣高學歷的需求與普及化,學生的論文報告產出量也大幅增加,現今主要的學術研究成果大多以英文發表,但英文寫作對台灣的學生而言並非易事,加上學生為了爭取時間通過考試或獲得學位,抄襲的行為也日趨增加。以學術論理而言,抄襲不但是對原作者的不尊重,也無法進一步發展專業知識。
然而,目前抄襲偵測軟體(例如Turnitin、CopyCatch或EVE2)的功能大多為比對論文資料庫或網路資源,並且只單純以單一字詞(word)為基礎進行比對,因此往往同義字無法被偵測出而降低抄襲偵測的準確性。
有鑑於上述課題,本發明之目的為提供一種英文資料之抄襲偵測方法,不僅可利用語法結構分析及擷取句子中的字詞及片語,更以片語為抄襲偵測的比對單位,並輔以語意,以改善習知技術中使用單一字詞進行比對的正確性。
為達上述目的,依據本發明之一種英文資料之抄襲偵測方法係實施於一電腦上,抄襲偵測方法包括一語法處理程序、一片語識別程序以及一相似度比對程序。語法處理程序包括一語法分析步驟,其將一來源文件與一使用者文件分別進行一語法分析,以分別得到一來源字詞資料與一來源片語資料,以及一使用者字詞資料與一使用者片語資料。片語識別程序包括一集合產生步驟,其比對來源字詞資料與使用者字詞資料及比對來源片語資料與使用者片語資料,以產生一集合字詞資料,並比對來源 片語資料與使用者片語資料,以產生一集合片語資料。相似度比對程序依據集合字詞資料及集合片語資料並從語意方面進行相似度比對,以藉由集合字詞資料及集合片語資料之語意相似度及次序相似度,計算使用者文件相對於來源文件之抄襲程度。
在一實施例中,來源字詞資料或使用者字詞資料分別包含至少一個字詞,來源片語資料或使用者片語資料分別包含至少一個片語。
在一實施例中,語法分析步驟係使用一自然語言處理技術。
在一實施例中,於語法處理程序中,更包含一斷句步驟、一完全抄襲偵測步驟及一字根還原步驟。
在一實施例中,於語法分析步驟中,係將來源文件與使用者文件與一辭典比對,以進行詞性標註及片語擷取。
在一實施例中,集合字詞資料內之字詞係與辭典內之字詞相對應。
在一實施例中,於片語識別程序中,係以片語作為比對單位。
在一實施例中,集合字詞資料中之字詞係包含來源文件與使用者文件中經字根還原後的所有字詞,集合片語資料中之片語係包含來源文件與使用者文件中相同的片語。
在一實施例中,於語意相似度及次序相似度的計算中,係以片語為比對單位。
在一實施例中,於相似度比對程序中,係分別計算集合字詞資料及集合片語資料中,字詞對字詞、字詞對片語及片語對片語的語意相似度。
在一實施例中,於計算字詞對字詞的語意相似度中,係依據字詞的詞性分別進行計算。
在一實施例中,於計算字詞對字詞的語意相似度中,係將集合字詞資料中的所有字詞彼此進行比對,以找出字詞對字詞之一相似度最大值。
在一實施例中,於計算字詞對片語或片語對片語的語意相似度中,係分別以字詞為基礎進行計算。
在一實施例中,於計算字詞對片語的語意相似度中,係將集合字詞資料中之每一字詞與集合片語資料中的每一字詞進行比對,以找出字詞對片語之一相似度最大值。
在一實施例中,於計算片語對片語的語意相似度中,係將集合片語資料中的所有字詞彼此進行比對,以找出片語對片語之一相似度最大值。
在一實施例中,於計算語意相似度或次序相似度係分別依據字詞對字詞之相似最大值、字詞對片語之相似最大值,及片語對片語之相似最大值。
在一實施例中,當抄襲程度高於一閥值時,則使用者文件有抄襲行為。
承上所述,因依據本發明之英文資料之抄襲偵測方法包括語法處理程序、片語識別程序以及相似度比對程序。其中,係透過將來源文件與使用者文件分別進行語法分析,並比對來源字詞資料與使用者字詞資料及比對來源片語資料與使用者片語資料,以及比對來源片語資料與使用者片語資料,再從語意方面進行相似度比對,藉此可計算出使用者文件相對於來源文件之抄襲程度。因此,與習知相較,本發明不僅可利用語法結構分析及擷取句子中的字詞及片語,更以片語為抄襲偵測的比對單位,並輔以語意,因此可改善習知技術中使用單一字詞進行比對的正確性。
P01‧‧‧斷句步驟
P02‧‧‧完全抄襲偵測步驟
P03‧‧‧語法分析步驟
P04‧‧‧字根還原步驟
S01‧‧‧語法處理程序
S02‧‧‧片語識別程序
S03‧‧‧相似度比對程序
圖1所示,其為本發明較佳實施例之一種英文資料之抄襲偵測方法的程序流程圖。
圖2為圖1中,語法處理程序的步驟流程圖。
以下將參照相關圖式,說明依本發明較佳實施例的英文資料之抄襲偵測方法,其中相同的元件將以相同的參照符號加以說明。
請參照圖1所示,其為本發明較佳實施例之一種英文資料 之抄襲偵測方法的程序流程圖。
本發明英文資料之抄襲偵測方法係可實施於電腦上(例如但不限於軟體程序)。其中,英文資料之抄襲偵測方法包括一語法處理程序S01、片語識別程序S02以及一相似度比對程序S03。
首先,語法處理程序S01是將一來源文件與一使用者文件進行語法處理。其中,來源文件可包含複數文件,每一文件中可包含至少一個句子(sentence),而使用者文件亦可包含至少一個句子。於此,來源文件指的是資料庫中的文件,而其來源可例如但不限為論文資料庫或網路資源,或其它方式取得的英文文件。另外,使用者文件指的是使用者所寫,並要被偵測是否為抄襲來源文件的文件資料。
語法處理程序S01是分別將來源文件及使用者文件的內容進行句子切割,並透過語法結構分析及擷取句子裡的所有字詞及片語,且進行詞性標註和字根還原等處理動作。本發明係使用一自然語言處理(Natural Language Processing,NLP)技術來進行語法處理及分析,並以Stanford Parser分析工具來進行語法處理及分析的工作。Stanford Parser分析工具為史丹佛大學自然語言處理研究團(The Stanford Natural Language Processing Group)所發展出來的文法解析工具。
請參照圖2所示,其為圖1中,語法處理程序S01的步驟流程圖。於此,語法處理程序S01可包含一斷句步驟P01、一完全抄襲偵測步驟P02、一語法分析步驟P03及一字根還原步驟P04。
首先,進行斷句步驟P01。
於斷句步驟P01中,是將來源文件與使用者文件分別使用Stanford Parser切割成獨立句子,並從樹狀結構中找出片語(phrase)、字詞(word,或稱單字)關係及子句等語法結構。
接著,進行完全抄襲偵測步驟P02。
於完全抄襲偵測步驟P02中,是偵測使用者文件中,完全抄襲來源文件內的句子。換言之,係比對使用者文件內的句子及來源文件內的句子,先找出完全抄襲的部分,以降低後續計算及處理的複雜度。
接著,進行語法分析步驟P03。
於語法分析步驟P03中,是將來源文件與使用者文件分別 進行語法分析,以分別得到一來源字詞資料與一來源片語資料,以及得到一使用者字詞資料與一使用者片語資料。其中,語法分析(Syntactic Analysis,或稱Parsing),是利用電腦來分析句子的文法規則及架構,再以樹狀結構的模式展開。另外,亦使用Stanford Parcer將來源文件與使用者文件與一英語詞彙資料庫(例如WordNet)進行比對,以進行字詞的詞性標註及片語擷取。換言之,語法分析步驟P03就是將已經斷句及完全抄襲偵測後的句子,利用Stanford Parser所產生的樹狀結構及其相依關係,並以WordNet作為輔助工具,以擷取出來源文件及使用者文件中所有的字詞及片語。其中於詞性標註中,係將Stanford Parcer所得到的詞性標註轉換成WordNet可讀的形式:包含四種詞性:名詞(Nouns)、動詞(Verbs)、形容詞(djectives)及副詞(Adverbs)。另外,於片語擷取中,係以片語作為抄襲偵測的比對單位,並輔以語意,且分別利用Stanford Parser所產生的樹狀結構及相依關係,擷取出所有的片語。
最後,進行字根還原步驟P04。
於字根還原步驟P04中,係將步驟P03所擷取出之字詞及片語,利用WordNet進行字根還原,避免同一字詞因單複數或時態的不同而造成誤判。經過上述的4個步驟後,可完成語法處理程序S01,並可分別得到來源字詞資料與來源片語資料,以及使用者字詞資料與使用者片語資料。於此,來源字詞資料或使用者字詞資料可分別包含至少一個字詞,且來源片語資料或使用者片語資料分別包含至少一個片語(或稱有意義的英文字詞的組合)。
以下,以實際的英文句子來說明上述的語法處理程序S01。為了簡化說明,來源文件以一個句子為例,並例如為「John has turned on his new radio.」,而使用者文件亦以一個句子為例,並例如為「John switched the new radio on.」。
在使用Stanford Parser進行詞性標註及語法分析,並擷取出所有的字詞及片語後,得到的結果如下:S11={John,has,turned on,his new radio},tree_p11={turned on,his new radio},T11={John,has}。另外,S1={John,switched on,the new radio},tree_p1={the new radio},dep_p1={switched on},T1={John}。於此,Sni為第n份來源文件的第i句,tree_pni為第n份來源文 件的第i句中,從樹狀結構擷取的片語集合,Tni為第n份來源文件中第i句的字詞集合,Sj為使用者文件的第j句,tree_pj為使用者文件的第j句中,從樹狀結構擷取的片語集合,dep_pj為使用者文件的第j句中,從Typed dependencies擷取的片語集合,而Tj為使用者文件中第j句的字詞集合。
接著進行字根還原,可得到:S11={John,have,turn on,his new radio},tree_p11={turn on,his new radio},T11={John,have}。另外,S1={John,switch_on,the new radio},tree_p1={the new radio},dep_p1={switch_on},T1={John}。在此定義,來源字詞資料為T11、來源片語資料為tree_p11、使用者字詞資料為T1,而使用者片語資料為tree_p1加上dep_p1
接著,請再參照圖1所示,進行片語識別程序S02。其中,片語識別程序S02係包括一集合產生步驟,集合產生步驟是比對來源字詞資料與使用者字詞資料及比對來源片語資料與使用者片語資料,以產生一集合字詞資料,另外,集合產生步驟亦比對來源片語資料與使用者片語資料,以產生一集合片語資料。於此,片語識別程序S02仍以片語為比對的單位。
在上一程序中已將使用者文件中所有的片語擷取出,分別為tree_p1及dep_p1,其中,dep_p1內的片語已經過WordNet的識別,但tree_p1只是單純從樹狀結構擷取,對抄襲比對而言並沒有意義。因此需透過來源文件與使用者文件中句子的比對,篩選出具有意義的片語,再將兩句子的字詞集合和片語集合聯合起來,以產生集合字詞資料及集合片語資料。
其過程為,係先透過句子的比對以及機器可讀辭典(即WordNet)的查詢以篩選出符合資格的片語。不符合資格的片語則需要進行拆解,而拆解後的片語又重新進行篩選動作,直到所有拆解出來的片語都經過篩選或被拆解成為單字(字詞)為止。其中,將來源文件與使用者文件中無法配對(不相同)之片語拆解,並將拆解而得到之字詞中可被識別者歸入集合字詞資料,將拆解而得到的片語再配對,配對成功放入集合片語資料中,沒有配對成功再放入WordNet查詢,若可查詢到則收入集合字詞資料內,若查詢不到再拆解,直到集合片語資料中的片語無法於WordNet中查到時,則完成片語識別程序S02。其中,集合字詞資料中之字詞係包含 來源文件與使用者文件中經字根還原後的所有字詞,而集合片語資料中之片語係至少包含來源文件與使用者文件中相同的片語。於此,集合字詞資料內之字詞係與WordNet辭典內之字詞相對應。所謂相對應是指可於WordNet辭典內被查詢到,並為可識別或有意義之字詞。
仍沿用上述來源文件及使用者文件的英文句子,經語法處理程序S01後得到:S11={John,have,turn on,his new radio},tree_p11={turn on,his new radio},T11={John,have}。另外,S1={John,switch_on,the new radio},tree_p1={the new radio},dep_p1={switch_on},T1={John}。
再經片語識別程序S02的比對、篩選、拆解…等過程後,得到的結果如下:S11={John,have,turn_on,his,new radio},S1={John,switch_on,the,new radio},集合字詞資料={John,have,turn_on,his,John,switch_on,the},以及集合片語資料={new radio,new radio}。
最後,請再參照圖1所示,進行相似度比對程序S03。
相似度比對程序S03係依據集合字詞資料及集合片語資料,並從語意方面進行相似度比對,以藉由集合字詞資料及集合片語資料之語意相似度及次序相似度,計算使用者文件相對於來源文件之抄襲程度。其中,於語意相似度及次序相似度的計算中,係以片語為比對單位。另外,係分別計算集合字詞資料及集合片語資料中,字詞對字詞、字詞對片語及片語對片語的語意相似度。此外,計算語意相似度或次序相似度係分別依據字詞對字詞之相似最大值、字詞對片語之相似最大值,及片語對片語之相似最大值,以下將分別說明。
於計算字詞w對字詞w的語意相似度中,係依據字詞w的詞性分別進行計算。另外,係將集合字詞資料中的所有字詞w彼此進行比對,以找出字詞對字詞之一相似度最大值。因為在WordNet中,名詞和動詞會以上下義詞關係組成階層式架構,而形容詞和副詞則無法以階層式架構呈現,因此,在計算字詞之間的語意相似度時,須先判斷兩個字詞的詞性,並採取不同的相似度計算方法。如果兩字詞為名詞或動詞,將使用Path-based measure來計算相似度,如果兩字詞是形容詞或副詞,則使用Gloss-based measure來計算相似度。
本發明是以WordNet中名詞和動詞的階層架構為基礎,結 合PATH(Rada,et al.,1989)和WUP(Wu & palmer,1994)的方法來計算名詞或動詞的語意相似度,而形容詞或副詞則使用VECTOR(Patwardhan,2003)來計算語意相似度,故以下說明係將PATH、WUP及VECTOR的論文全文內容納入本發明之揭露說明內。詳細內容及公式如下所示。
PATH方法是使用兩字詞在WordNet中最短路徑長度來計算,如公式3-1所示:
WUP方法則是考慮了兩字詞的深度,以及它們的最小共通父節點(LCS)在WordNet中的深度來計算字詞相似度,如公式3-2所式:
VECTOR方式則利用兩字詞w1、w2在WordNet中的註解組成向量v1、v2,再使用Cosine(餘弦)計算字詞的相似度,如公式3-3所示:
因此,整體而言,字詞與字詞(以下稱為狀況A、狀況B、狀況C)的語意相似度計算可如公式3-4~3-6所示,其中,len(w1)為集合字詞資料內的字詞w1的長度:
另外,於計算字詞對片語的語意相似度中,係以字詞為基礎進行計算。其中,係將集合字詞資料中之每一字詞與集合片語資料中的每一字詞進行比對,以找出字詞對片語之一相似度最大值。由於集合片語 資料中的片語p是在片語識別程序S02中,單純因兩句子的比對而產生,且在WordNet中沒有被查詢到,因此,需要一一比對集合片語資料中所有片語p內的所有字詞,找出當中的相似度最大值。
假設片語p={p_t1,p_t2,...,p_tN,...},其中,p_tN為片語p的第N個字詞,因此,字詞與片語(以下稱為狀況D、狀況E)的相似度計算方式可如公式3-7~3-10所示:sim(w,p)=max N sim(w,p_t N ) (3-7)
此外,於計算片語對片語的語意相似度中,也是以字詞為基礎進行計算。其中,係將集合片語資料中的所有字詞彼此進行比對,以找出片語對片語之一相似度最大值。由於集合片語資料中的片語p1、p2是在片語識別程序S02中單純因兩句子的比對而產生,且在WordNet中沒有被查詢到,因此,需要一一比對集合片語資料中,所有片語之所有字詞,找出當中相似度最大值。
假設片語p1={p1_t1,p1_t2,...,p1_tM,...},其中,p1_tM為片語p1的第M個字詞,片語p2={p2_t1,p2_t2,...,p2_tN,...},其中,p2_tN為片語p2的第N個字詞,因此,片語與片語(以下稱為狀況F)的計算公式如3-11~3-14所示,其中len(p1)為片語p1的長度:
接著,需要將集合字詞資料和集合片語資料按照次序排序並去除重覆的項目,組成一聯集U,再跟來源文件與使用者文件進行語意比對及次序比對。
假設此聯集U={JTP1,JTP2,...,JTPf,...,JTPF},Sni={TP1,TP2,...,TPg,...TPG},而Sj={TP’1,TP’2,...,TP’h,...TP’H},再參考Li,et al.(2006)所定義的句子相似度計算方法,同時考量同義字替代及字詞次序的改變,結合語意相似度(Semantic Similarity)與次序相似度(Order Similarity)來計算Sni和Sj的整體相似度,計算步驟如下:第一步驟-計算句子語意相似度如下:聯集U內所有的JTPf與句子Sni內所有的TPg進行比對:sem 1={max g sim(JTP 1,TP g ),max g sim(JTP 2 ,TP g ),…max g sim(JTP f ,TP g )} (3-15)
聯集U內所有的JTPf與句子Sj內所有的TPh進行比對:sem 2={max h sim(JTP 1 ,TP' h ),max h sim(JTP 2 ,TP' h ),…max h sim(JTP f ,TP' h )}(3-16)
最後,兩句子的語意相似度需要使用cosine similarity來計算:
第二步驟-計算句子次序相似度如下:在計算sem1和sem2的同時,需要將每一個產生最大相似度的g和h記錄起來,若相似度皆為0,則order就是0,藉此可組成order1和order2,最後,兩句子的次序相似度為:
最後,進行第三步驟-計算句子整體相似度如下:於此,係給予不同的權重,並結合上述兩種相似度計算公式,計算句子整體相似度:Sim(S ni ,S j )=αSim sem +(1-α)Sim order (3-19),其中α≦1,而Li,et al.(2006)認為,α應大於0.5,因此可介於0.5~1之間(0.5≦α≦1),使用者可依據其需求而自訂。
當抄襲程度高於一閥值τ時,則本發明可認定使用者文件 有抄襲行為。換言之,若Sim(Sni,Sj)>τ時,則使用者文件會被視為有抄襲來源文件的行為。
以下,仍利用上述的例子說明相似度比對程序S03的過程。
經由前面程序S01及S02之後,S11={John,have,turn_on,his,new radio},S1={John,switch_on,the,new radio},集合字詞資料={John,have,turn_on,his,John,switch_on,the},集合片語資料={new radio,new radio},以及聯集U={John,has,turn_on,his,new radio,switch_on,the}.
因此,字詞及片語的所有可能比對狀況如下表所示:
藉由將來源文件的句子與聯集U內容進行比對,便會出現6將比對狀況(狀況A~F)。其中,狀況A、狀況B及狀況C分別為字詞與字詞的比對,狀況D及狀況E分別為字詞與片語的比對,而將況F為片語與片語的比對。
若詞性無法直接給予0,則需要個別處理。以狀況D的例子來說,Sim(John,new radio)=max(Sim(John,new),Sim(John,radio))=max(0,Sim(John,radio))=Sim(John,radio)。
再將來源文件句子與聯集U進行比對,可得到以下的比對表:
於此,將行(Column)中最大的數字記錄起來,得到sem1={1,1,2,1,2,1,0},並將產生行最大數字時的列(Row)的位置記錄起來,得到order1={1,2,3,4,5,3,0}。
接著,將使用者文件句子與聯集U進行比對,可得到以下的比對表:
於此,再將行中最大的數字記錄起來,假設Sim(have,switch_on)=0.2(可自訂其它數字),可得到sem2={1,0.2,1,0,2,2,1},並將產生行最大數字時的列的位置記錄起來,得到order2={1,2,2,0,4,2,3}。
最後,計算句子的整體相似度得到:
整體相似度Sim(S 11 ,S 1)=α×0.79931+(1-α)×0.60114
假設α=0.6(可為其它數字),閥值τ例如為0.7(可依需求自訂其它數字),則Sim(S11,S1)=0.60.79931+0.40.60114=0.720042> τ(0.7),因此,判定使用者文件相對於來源文件有抄襲行為。
綜上所述,因依據本發明之英文資料之抄襲偵測方法包括語法處理程序、片語識別程序以及相似度比對程序。其中,係透過將來源文件與使用者文件分別進行語法分析,並比對來源字詞資料與使用者字詞資料及比對來源片語資料與使用者片語資料,以及比對來源片語資料與使用者片語資料,再從語意方面進行相似度比對,藉此計算出使用者文件相對於來源文件之抄襲程度。因此,與習知相較,本發明不僅可利用語法結構分析及擷取句子中的字詞及片語,更以片語為抄襲偵測的比對單位,並輔以語意,因此可改善習知技術中使用單一字詞進行比對的正確性。
以上所述僅為舉例性,而非為限制性者。任何未脫離本發明之精神與範疇,而對其進行之等效修改或變更,均應包含於後附之申請專利範圍中。
S01‧‧‧語法處理程序
S02‧‧‧片語識別程序
S03‧‧‧相似度比對程序

Claims (16)

  1. 一種英文資料之抄襲偵測方法,係實施於一電腦上,該抄襲偵測方法包括:一語法處理程序,係包括一語法分析步驟,其將一來源文件與一使用者文件分別進行一語法分析,以分別得到一來源字詞資料與一來源片語資料,以及一使用者字詞資料與一使用者片語資料;一片語識別程序,係包括一集合產生步驟,其比對該來源字詞資料與該使用者字詞資料及比對該來源片語資料與該使用者片語資料,以產生一集合字詞資料,並比對該來源片語資料與該使用者片語資料,以產生一集合片語資料,其中該集合字詞資料中之字詞係包含該來源文件與該使用者文件中經字根還原後的所有字詞,該集合片語資料中之片語係包含該來源文件與該使用者文件中相同的片語;以及一相似度比對程序,係依據該集合字詞資料及該集合片語資料並從語意及次序方面進行相似度比對,以藉由分析該集合字詞資料及該集合片語資料與該來源文件及該使用者文件間之語意相似度及次序相似度,計算該使用者文件相對於該來源文件之抄襲程度。
  2. 如申請專利範圍第1項所述之英文資料之抄襲偵測方法,其中該來源字詞資料或該使用者字詞資料分別包含至少一個字詞,該來源片語資料或該使用者片語資料分別包含至少一個片語。
  3. 如申請專利範圍第1項所述之英文資料之抄襲偵測方法,其中該語法分析步驟係使用一自然語言處理技術。
  4. 如申請專利範圍第1項所述之英文資料之抄襲偵測方法,其中於該語法處理程序中,更包含一斷句步驟、一完全抄襲偵測步驟及一字根還原步驟。
  5. 如申請專利範圍第1項所述之英文資料之抄襲偵測方法,其中於該語法分析步驟中,係將該來源文件與該使用者文件與一辭典比對,以進行詞性標註及片語擷取。
  6. 如申請專利範圍第5項所述之英文資料之抄襲偵測方法,其中該集合字詞資料內之字詞係與該辭典內之字詞相對應。
  7. 如申請專利範圍第1項所述之英文資料之抄襲偵測方法,其中於該片語識別程序中,係以片語作為比對單位。
  8. 如申請專利範圍第1項所述之英文資料之抄襲偵測方法,其中於該語意相似度及該次序相似度的計算中,係以片語為比對單位。
  9. 如申請專利範圍第7項所述之英文資料之抄襲偵測方法,其中於該相似度比對程序中,係分別計算該集合字詞資料及該集合片語資料中,字詞對字詞、字詞對片語及片語對片語的語意相似度。
  10. 如申請專利範圍第9項所述之英文資料之抄襲偵測方法,其中於計算字詞對字詞的語意相似度中,係依據字詞的詞性分別進行計算。
  11. 如申請專利範圍第9項所述之英文資料之抄襲偵測方法,其中於計算字詞對字詞的語意相似度中,係將該集合字詞資料中的所有字詞彼此進行比對,以找出字詞對字詞之一相似度最大值。
  12. 如申請專利範圍第9項所述之英文資料之抄襲偵測方法,其中於計算字詞對片語或片語對片語的語意相似度中,係分別以字詞為基礎進行計算。
  13. 如申請專利範圍第11項所述之英文資料之抄襲偵測方法,其中於計算字詞對片語的語意相似度中,係將該集合字詞資料中之每一字詞與集合片語資料中的每一字詞進行比對,以找出字詞對片語之一相似度最大值。
  14. 如申請專利範圍第13項所述之英文資料之抄襲偵測方法,其中於計算片語對片語的語意相似度中,係將該集合片語資料中的所有字詞彼此進行比對,以找出片語對片語之一相似度最大值。
  15. 如申請專利範圍第14項所述之英文資料之抄襲偵測方法,其中於計算該語意相似度或該次序相似度係分別依據字詞對字詞之該相似最大值、字詞對片語之該相似最大值,及片語對片語之該相似最大值。
  16. 如申請專利範圍第1項所述之英文資料之抄襲偵測方法,其中當該抄襲程度高於一閥值時,則該使用者文件有抄襲行為。
TW102102093A 2013-01-18 2013-01-18 英文資料之抄襲偵測方法 TWI594135B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
TW102102093A TWI594135B (zh) 2013-01-18 2013-01-18 英文資料之抄襲偵測方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
TW102102093A TWI594135B (zh) 2013-01-18 2013-01-18 英文資料之抄襲偵測方法

Publications (2)

Publication Number Publication Date
TW201430591A TW201430591A (zh) 2014-08-01
TWI594135B true TWI594135B (zh) 2017-08-01

Family

ID=51796893

Family Applications (1)

Application Number Title Priority Date Filing Date
TW102102093A TWI594135B (zh) 2013-01-18 2013-01-18 英文資料之抄襲偵測方法

Country Status (1)

Country Link
TW (1) TWI594135B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI719537B (zh) * 2019-07-16 2021-02-21 國立清華大學 文字比對方法、系統及其電腦程式產品

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW200519638A (en) * 2003-12-11 2005-06-16 Inst Information Industry Method for feature extraction and data decoding and method and system for searching piratic articles
TWI368144B (en) * 2008-04-11 2012-07-11 Univ Hong Kong Chinese Systems and methods for checking similarity of files

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW200519638A (en) * 2003-12-11 2005-06-16 Inst Information Industry Method for feature extraction and data decoding and method and system for searching piratic articles
TWI368144B (en) * 2008-04-11 2012-07-11 Univ Hong Kong Chinese Systems and methods for checking similarity of files

Also Published As

Publication number Publication date
TW201430591A (zh) 2014-08-01

Similar Documents

Publication Publication Date Title
Tabassum et al. A survey on text pre-processing & feature extraction techniques in natural language processing
CN109271626B (zh) 文本语义分析方法
CN104933027B (zh) 一种利用依存分析的开放式中文实体关系抽取方法
Alzahrani et al. Fuzzy semantic-based string similarity for extrinsic plagiarism detection
US10339453B2 (en) Automatically generating test/training questions and answers through pattern based analysis and natural language processing techniques on the given corpus for quick domain adaptation
US20150227505A1 (en) Word meaning relationship extraction device
Zaninello et al. Multiword expression aware neural machine translation
Jayan et al. A hybrid statistical approach for named entity recognition for malayalam language
Hamdi et al. The effects of factorizing root and pattern mapping in bidirectional Tunisian-standard Arabic machine translation
Zeroual et al. Adapting a decision tree based tagger for Arabic
Mataoui et al. A new syntax-based aspect detection approach for sentiment analysis in Arabic reviews
Garg et al. Maulik: A plagiarism detection tool for hindi documents
CN104166550A (zh) 一种面向软件维护的修改请求重新定制的方法
Duran et al. Some issues on the normalization of a corpus of products reviews in Portuguese
Pal et al. Automatic classification of bengali sentences based on sense definitions present in bengali wordnet
CN107862045A (zh) 一种基于多特征的跨语言剽窃检测方法
Unnikrishnan et al. A novel approach for English to South Dravidian language statistical machine translation system
Abdurakhmonova et al. Uzbek electronic corpus as a tool for linguistic analysis
Hakkani-Tur et al. Statistical sentence extraction for information distillation
Das Semi-supervised and latent-variable models of natural language semantics
TWI594135B (zh) 英文資料之抄襲偵測方法
Mirrezaei et al. The triplex approach for recognizing semantic relations from noun phrases, appositions, and adjectives
Bloodgood et al. Data cleaning for XML electronic dictionaries via statistical anomaly detection
TWI636370B (zh) Establishing chart indexing method and computer program product by text information
Liu et al. Linked open data query based on natural language

Legal Events

Date Code Title Description
MM4A Annulment or lapse of patent due to non-payment of fees