TWI594135B

TWI594135B - 英文資料之抄襲偵測方法

Info

Publication number: TWI594135B
Application number: TW102102093A
Authority: TW
Inventors: 蘇嘉穎; 王惠嘉; 劉繼仁; 羅鄉儀; 林柏安
Original assignee: 國立成功大學
Priority date: 2013-01-18
Filing date: 2013-01-18
Publication date: 2017-08-01
Also published as: TW201430591A

Description

英文資料之抄襲偵測方法

本發明係關於一種英文資料之抄襲偵測方法。

隨著台灣高學歷的需求與普及化，學生的論文報告產出量也大幅增加，現今主要的學術研究成果大多以英文發表，但英文寫作對台灣的學生而言並非易事，加上學生為了爭取時間通過考試或獲得學位，抄襲的行為也日趨增加。以學術論理而言，抄襲不但是對原作者的不尊重，也無法進一步發展專業知識。

然而，目前抄襲偵測軟體(例如Turnitin、CopyCatch或EVE2)的功能大多為比對論文資料庫或網路資源，並且只單純以單一字詞(word)為基礎進行比對，因此往往同義字無法被偵測出而降低抄襲偵測的準確性。

有鑑於上述課題，本發明之目的為提供一種英文資料之抄襲偵測方法，不僅可利用語法結構分析及擷取句子中的字詞及片語，更以片語為抄襲偵測的比對單位，並輔以語意，以改善習知技術中使用單一字詞進行比對的正確性。

為達上述目的，依據本發明之一種英文資料之抄襲偵測方法係實施於一電腦上，抄襲偵測方法包括一語法處理程序、一片語識別程序以及一相似度比對程序。語法處理程序包括一語法分析步驟，其將一來源文件與一使用者文件分別進行一語法分析，以分別得到一來源字詞資料與一來源片語資料，以及一使用者字詞資料與一使用者片語資料。片語識別程序包括一集合產生步驟，其比對來源字詞資料與使用者字詞資料及比對來源片語資料與使用者片語資料，以產生一集合字詞資料，並比對來源片語資料與使用者片語資料，以產生一集合片語資料。相似度比對程序依據集合字詞資料及集合片語資料並從語意方面進行相似度比對，以藉由集合字詞資料及集合片語資料之語意相似度及次序相似度，計算使用者文件相對於來源文件之抄襲程度。

在一實施例中，來源字詞資料或使用者字詞資料分別包含至少一個字詞，來源片語資料或使用者片語資料分別包含至少一個片語。

在一實施例中，語法分析步驟係使用一自然語言處理技術。

在一實施例中，於語法處理程序中，更包含一斷句步驟、一完全抄襲偵測步驟及一字根還原步驟。

在一實施例中，於語法分析步驟中，係將來源文件與使用者文件與一辭典比對，以進行詞性標註及片語擷取。

在一實施例中，集合字詞資料內之字詞係與辭典內之字詞相對應。

在一實施例中，於片語識別程序中，係以片語作為比對單位。

在一實施例中，集合字詞資料中之字詞係包含來源文件與使用者文件中經字根還原後的所有字詞，集合片語資料中之片語係包含來源文件與使用者文件中相同的片語。

在一實施例中，於語意相似度及次序相似度的計算中，係以片語為比對單位。

在一實施例中，於相似度比對程序中，係分別計算集合字詞資料及集合片語資料中，字詞對字詞、字詞對片語及片語對片語的語意相似度。

在一實施例中，於計算字詞對字詞的語意相似度中，係依據字詞的詞性分別進行計算。

在一實施例中，於計算字詞對字詞的語意相似度中，係將集合字詞資料中的所有字詞彼此進行比對，以找出字詞對字詞之一相似度最大值。

在一實施例中，於計算字詞對片語或片語對片語的語意相似度中，係分別以字詞為基礎進行計算。

在一實施例中，於計算字詞對片語的語意相似度中，係將集合字詞資料中之每一字詞與集合片語資料中的每一字詞進行比對，以找出字詞對片語之一相似度最大值。

在一實施例中，於計算片語對片語的語意相似度中，係將集合片語資料中的所有字詞彼此進行比對，以找出片語對片語之一相似度最大值。

在一實施例中，於計算語意相似度或次序相似度係分別依據字詞對字詞之相似最大值、字詞對片語之相似最大值，及片語對片語之相似最大值。

在一實施例中，當抄襲程度高於一閥值時，則使用者文件有抄襲行為。

承上所述，因依據本發明之英文資料之抄襲偵測方法包括語法處理程序、片語識別程序以及相似度比對程序。其中，係透過將來源文件與使用者文件分別進行語法分析，並比對來源字詞資料與使用者字詞資料及比對來源片語資料與使用者片語資料，以及比對來源片語資料與使用者片語資料，再從語意方面進行相似度比對，藉此可計算出使用者文件相對於來源文件之抄襲程度。因此，與習知相較，本發明不僅可利用語法結構分析及擷取句子中的字詞及片語，更以片語為抄襲偵測的比對單位，並輔以語意，因此可改善習知技術中使用單一字詞進行比對的正確性。

P01‧‧‧斷句步驟

P02‧‧‧完全抄襲偵測步驟

P03‧‧‧語法分析步驟

P04‧‧‧字根還原步驟

S01‧‧‧語法處理程序

S02‧‧‧片語識別程序

S03‧‧‧相似度比對程序

圖1所示，其為本發明較佳實施例之一種英文資料之抄襲偵測方法的程序流程圖。

圖2為圖1中，語法處理程序的步驟流程圖。

以下將參照相關圖式，說明依本發明較佳實施例的英文資料之抄襲偵測方法，其中相同的元件將以相同的參照符號加以說明。

請參照圖1所示，其為本發明較佳實施例之一種英文資料之抄襲偵測方法的程序流程圖。

本發明英文資料之抄襲偵測方法係可實施於電腦上(例如但不限於軟體程序)。其中，英文資料之抄襲偵測方法包括一語法處理程序S01、片語識別程序S02以及一相似度比對程序S03。

首先，語法處理程序S01是將一來源文件與一使用者文件進行語法處理。其中，來源文件可包含複數文件，每一文件中可包含至少一個句子(sentence)，而使用者文件亦可包含至少一個句子。於此，來源文件指的是資料庫中的文件，而其來源可例如但不限為論文資料庫或網路資源，或其它方式取得的英文文件。另外，使用者文件指的是使用者所寫，並要被偵測是否為抄襲來源文件的文件資料。

語法處理程序S01是分別將來源文件及使用者文件的內容進行句子切割，並透過語法結構分析及擷取句子裡的所有字詞及片語，且進行詞性標註和字根還原等處理動作。本發明係使用一自然語言處理(Natural Language Processing,NLP)技術來進行語法處理及分析，並以Stanford Parser分析工具來進行語法處理及分析的工作。Stanford Parser分析工具為史丹佛大學自然語言處理研究團(The Stanford Natural Language Processing Group)所發展出來的文法解析工具。

請參照圖2所示，其為圖1中，語法處理程序S01的步驟流程圖。於此，語法處理程序S01可包含一斷句步驟P01、一完全抄襲偵測步驟P02、一語法分析步驟P03及一字根還原步驟P04。

首先，進行斷句步驟P01。

於斷句步驟P01中，是將來源文件與使用者文件分別使用Stanford Parser切割成獨立句子，並從樹狀結構中找出片語(phrase)、字詞(word，或稱單字)關係及子句等語法結構。

接著，進行完全抄襲偵測步驟P02。

於完全抄襲偵測步驟P02中，是偵測使用者文件中，完全抄襲來源文件內的句子。換言之，係比對使用者文件內的句子及來源文件內的句子，先找出完全抄襲的部分，以降低後續計算及處理的複雜度。

接著，進行語法分析步驟P03。

於語法分析步驟P03中，是將來源文件與使用者文件分別進行語法分析，以分別得到一來源字詞資料與一來源片語資料，以及得到一使用者字詞資料與一使用者片語資料。其中，語法分析(Syntactic Analysis，或稱Parsing)，是利用電腦來分析句子的文法規則及架構，再以樹狀結構的模式展開。另外，亦使用Stanford Parcer將來源文件與使用者文件與一英語詞彙資料庫(例如WordNet)進行比對，以進行字詞的詞性標註及片語擷取。換言之，語法分析步驟P03就是將已經斷句及完全抄襲偵測後的句子，利用Stanford Parser所產生的樹狀結構及其相依關係，並以WordNet作為輔助工具，以擷取出來源文件及使用者文件中所有的字詞及片語。其中於詞性標註中，係將Stanford Parcer所得到的詞性標註轉換成WordNet可讀的形式：包含四種詞性：名詞(Nouns)、動詞(Verbs)、形容詞(djectives)及副詞(Adverbs)。另外，於片語擷取中，係以片語作為抄襲偵測的比對單位，並輔以語意，且分別利用Stanford Parser所產生的樹狀結構及相依關係，擷取出所有的片語。

最後，進行字根還原步驟P04。

於字根還原步驟P04中，係將步驟P03所擷取出之字詞及片語，利用WordNet進行字根還原，避免同一字詞因單複數或時態的不同而造成誤判。經過上述的4個步驟後，可完成語法處理程序S01，並可分別得到來源字詞資料與來源片語資料，以及使用者字詞資料與使用者片語資料。於此，來源字詞資料或使用者字詞資料可分別包含至少一個字詞，且來源片語資料或使用者片語資料分別包含至少一個片語(或稱有意義的英文字詞的組合)。

以下，以實際的英文句子來說明上述的語法處理程序S01。為了簡化說明，來源文件以一個句子為例，並例如為「John has turned on his new radio.」，而使用者文件亦以一個句子為例，並例如為「John switched the new radio on.」。

在使用Stanford Parser進行詞性標註及語法分析，並擷取出所有的字詞及片語後，得到的結果如下：S₁₁={John,has,turned on,his new radio}，tree_p₁₁={turned on,his new radio}，T₁₁={John,has}。另外，S₁={John,switched on,the new radio}，tree_p₁={the new radio}，dep_p₁={switched on}，T₁={John}。於此，S_ni為第n份來源文件的第i句，tree_p_ni為第n份來源文件的第i句中，從樹狀結構擷取的片語集合，T_ni為第n份來源文件中第i句的字詞集合，S_j為使用者文件的第j句，tree_p_j為使用者文件的第j句中，從樹狀結構擷取的片語集合，dep_p_j為使用者文件的第j句中，從Typed dependencies擷取的片語集合，而T_j為使用者文件中第j句的字詞集合。

接著進行字根還原，可得到：S₁₁={John,have,turn on,his new radio}，tree_p₁₁={turn on,his new radio}，T₁₁={John,have}。另外，S₁={John,switch_on,the new radio}，tree_p₁={the new radio}，dep_p₁={switch_on}，T₁={John}。在此定義，來源字詞資料為T₁₁、來源片語資料為tree_p₁₁、使用者字詞資料為T₁，而使用者片語資料為tree_p₁加上dep_p₁。

接著，請再參照圖1所示，進行片語識別程序S02。其中，片語識別程序S02係包括一集合產生步驟，集合產生步驟是比對來源字詞資料與使用者字詞資料及比對來源片語資料與使用者片語資料，以產生一集合字詞資料，另外，集合產生步驟亦比對來源片語資料與使用者片語資料，以產生一集合片語資料。於此，片語識別程序S02仍以片語為比對的單位。

在上一程序中已將使用者文件中所有的片語擷取出，分別為tree_p₁及dep_p₁，其中，dep_p₁內的片語已經過WordNet的識別，但tree_p₁只是單純從樹狀結構擷取，對抄襲比對而言並沒有意義。因此需透過來源文件與使用者文件中句子的比對，篩選出具有意義的片語，再將兩句子的字詞集合和片語集合聯合起來，以產生集合字詞資料及集合片語資料。

其過程為，係先透過句子的比對以及機器可讀辭典(即WordNet)的查詢以篩選出符合資格的片語。不符合資格的片語則需要進行拆解，而拆解後的片語又重新進行篩選動作，直到所有拆解出來的片語都經過篩選或被拆解成為單字(字詞)為止。其中，將來源文件與使用者文件中無法配對(不相同)之片語拆解，並將拆解而得到之字詞中可被識別者歸入集合字詞資料，將拆解而得到的片語再配對，配對成功放入集合片語資料中，沒有配對成功再放入WordNet查詢，若可查詢到則收入集合字詞資料內，若查詢不到再拆解，直到集合片語資料中的片語無法於WordNet中查到時，則完成片語識別程序S02。其中，集合字詞資料中之字詞係包含來源文件與使用者文件中經字根還原後的所有字詞，而集合片語資料中之片語係至少包含來源文件與使用者文件中相同的片語。於此，集合字詞資料內之字詞係與WordNet辭典內之字詞相對應。所謂相對應是指可於WordNet辭典內被查詢到，並為可識別或有意義之字詞。

仍沿用上述來源文件及使用者文件的英文句子，經語法處理程序S01後得到：S₁₁={John,have,turn on,his new radio}，tree_p₁₁={turn on,his new radio}，T₁₁={John,have}。另外，S₁={John,switch_on,the new radio}，tree_p₁={the new radio}，dep_p₁={switch_on}，T₁={John}。

再經片語識別程序S02的比對、篩選、拆解…等過程後，得到的結果如下：S₁₁={John,have,turn_on,his,new radio}，S₁={John,switch_on,the,new radio}，集合字詞資料={John,have,turn_on,his,John,switch_on,the}，以及集合片語資料={new radio,new radio}。

最後，請再參照圖1所示，進行相似度比對程序S03。

相似度比對程序S03係依據集合字詞資料及集合片語資料，並從語意方面進行相似度比對，以藉由集合字詞資料及集合片語資料之語意相似度及次序相似度，計算使用者文件相對於來源文件之抄襲程度。其中，於語意相似度及次序相似度的計算中，係以片語為比對單位。另外，係分別計算集合字詞資料及集合片語資料中，字詞對字詞、字詞對片語及片語對片語的語意相似度。此外，計算語意相似度或次序相似度係分別依據字詞對字詞之相似最大值、字詞對片語之相似最大值，及片語對片語之相似最大值，以下將分別說明。

於計算字詞w對字詞w的語意相似度中，係依據字詞w的詞性分別進行計算。另外，係將集合字詞資料中的所有字詞w彼此進行比對，以找出字詞對字詞之一相似度最大值。因為在WordNet中，名詞和動詞會以上下義詞關係組成階層式架構，而形容詞和副詞則無法以階層式架構呈現，因此，在計算字詞之間的語意相似度時，須先判斷兩個字詞的詞性，並採取不同的相似度計算方法。如果兩字詞為名詞或動詞，將使用Path-based measure來計算相似度，如果兩字詞是形容詞或副詞，則使用Gloss-based measure來計算相似度。

本發明是以WordNet中名詞和動詞的階層架構為基礎，結合PATH(Rada,et al.,1989)和WUP(Wu & palmer,1994)的方法來計算名詞或動詞的語意相似度，而形容詞或副詞則使用VECTOR(Patwardhan,2003)來計算語意相似度，故以下說明係將PATH、WUP及VECTOR的論文全文內容納入本發明之揭露說明內。詳細內容及公式如下所示。

PATH方法是使用兩字詞在WordNet中最短路徑長度來計算，如公式3-1所示：

WUP方法則是考慮了兩字詞的深度，以及它們的最小共通父節點(LCS)在WordNet中的深度來計算字詞相似度，如公式3-2所式：

VECTOR方式則利用兩字詞w₁、w₂在WordNet中的註解組成向量v1、v2，再使用Cosine(餘弦)計算字詞的相似度，如公式3-3所示：

因此，整體而言，字詞與字詞(以下稱為狀況A、狀況B、狀況C)的語意相似度計算可如公式3-4~3-6所示，其中，len(w₁)為集合字詞資料內的字詞w₁的長度：

另外，於計算字詞對片語的語意相似度中，係以字詞為基礎進行計算。其中，係將集合字詞資料中之每一字詞與集合片語資料中的每一字詞進行比對，以找出字詞對片語之一相似度最大值。由於集合片語資料中的片語p是在片語識別程序S02中，單純因兩句子的比對而產生，且在WordNet中沒有被查詢到，因此，需要一一比對集合片語資料中所有片語p內的所有字詞，找出當中的相似度最大值。

假設片語p={p_t₁,p_t₂,...,p_t_N,...}，其中，p_t_N為片語p的第N個字詞，因此，字詞與片語(以下稱為狀況D、狀況E)的相似度計算方式可如公式3-7~3-10所示：sim(w,p)=max_N sim(w,p_t _N) (3-7)

此外，於計算片語對片語的語意相似度中，也是以字詞為基礎進行計算。其中，係將集合片語資料中的所有字詞彼此進行比對，以找出片語對片語之一相似度最大值。由於集合片語資料中的片語p₁、p₂是在片語識別程序S02中單純因兩句子的比對而產生，且在WordNet中沒有被查詢到，因此，需要一一比對集合片語資料中，所有片語之所有字詞，找出當中相似度最大值。

假設片語p₁={p₁_t₁,p₁_t₂,...,p₁_t_M,...}，其中，p₁_t_M為片語p₁的第M個字詞，片語p₂={p₂_t₁,p₂_t₂,...,p₂_t_N,...}，其中，p₂_t_N為片語p₂的第N個字詞，因此，片語與片語(以下稱為狀況F)的計算公式如3-11~3-14所示，其中len(p₁)為片語p₁的長度：

接著，需要將集合字詞資料和集合片語資料按照次序排序並去除重覆的項目，組成一聯集U，再跟來源文件與使用者文件進行語意比對及次序比對。

假設此聯集U={JTP₁,JTP₂,...,JTP_f,...,JTP_F}，S_ni={TP₁,TP₂,...,TP_g,...TP_G}，而S_j={TP’₁,TP’₂,...,TP’_h,...TP’_H}，再參考Li,et al.(2006)所定義的句子相似度計算方法，同時考量同義字替代及字詞次序的改變，結合語意相似度(Semantic Similarity)與次序相似度(Order Similarity)來計算S_ni和S_j的整體相似度，計算步驟如下：第一步驟-計算句子語意相似度如下：聯集U內所有的JTP_f與句子S_ni內所有的TP_g進行比對：sem ₁={max_g sim(JTP ₁,TP _g),max_g sim(JTP ₂ ,TP _g),…max_g sim(JTP _f ,TP _g)} (3-15)

聯集U內所有的JTP_f與句子S_j內所有的TP_h進行比對：sem ₂={max_h sim(JTP ₁ ,TP' _h),max_h sim(JTP ₂ ,TP' _h),…max_h sim(JTP _f ,TP' _h)}(3-16)

最後，兩句子的語意相似度需要使用cosine similarity來計算：

第二步驟-計算句子次序相似度如下：在計算sem₁和sem₂的同時，需要將每一個產生最大相似度的g和h記錄起來，若相似度皆為0，則order就是0，藉此可組成order₁和order₂，最後，兩句子的次序相似度為：

最後，進行第三步驟-計算句子整體相似度如下：於此，係給予不同的權重，並結合上述兩種相似度計算公式，計算句子整體相似度：Sim(S _ni ,S _j)=αSim _sem+(1-α)Sim _order (3-19)，其中α≦1，而Li,et al.(2006)認為，α應大於0.5，因此可介於0.5~1之間(0.5≦α≦1)，使用者可依據其需求而自訂。

當抄襲程度高於一閥值τ時，則本發明可認定使用者文件有抄襲行為。換言之，若Sim(S_ni,S_j)>τ時，則使用者文件會被視為有抄襲來源文件的行為。

以下，仍利用上述的例子說明相似度比對程序S03的過程。

經由前面程序S01及S02之後，S₁₁={John,have,turn_on,his,new radio}，S₁={John,switch_on,the,new radio}，集合字詞資料={John,have,turn_on,his,John,switch_on,the}，集合片語資料={new radio,new radio}，以及聯集U={John,has,turn_on,his,new radio,switch_on,the}.

因此，字詞及片語的所有可能比對狀況如下表所示：

藉由將來源文件的句子與聯集U內容進行比對，便會出現6將比對狀況(狀況A~F)。其中，狀況A、狀況B及狀況C分別為字詞與字詞的比對，狀況D及狀況E分別為字詞與片語的比對，而將況F為片語與片語的比對。

若詞性無法直接給予0，則需要個別處理。以狀況D的例子來說，Sim(John,new radio)=max(Sim(John,new),Sim(John,radio))=max(0,Sim(John,radio))=Sim(John,radio)。

再將來源文件句子與聯集U進行比對，可得到以下的比對表：

於此，將行(Column)中最大的數字記錄起來，得到sem₁={1,1,2,1,2,1,0}，並將產生行最大數字時的列(Row)的位置記錄起來，得到order₁={1,2,3,4,5,3,0}。

接著，將使用者文件句子與聯集U進行比對，可得到以下的比對表：

於此，再將行中最大的數字記錄起來，假設Sim(have,switch_on)=0.2(可自訂其它數字)，可得到sem₂={1,0.2,1,0,2,2,1}，並將產生行最大數字時的列的位置記錄起來，得到order₂={1,2,2,0,4,2,3}。

最後，計算句子的整體相似度得到：

整體相似度Sim(S ₁₁ ,S ₁)=α×0.79931+(1-α)×0.60114

假設α=0.6(可為其它數字)，閥值τ例如為0.7(可依需求自訂其它數字)，則Sim(S11,S1)=0.60.79931+0.40.60114=0.720042> τ(0.7)，因此，判定使用者文件相對於來源文件有抄襲行為。

綜上所述，因依據本發明之英文資料之抄襲偵測方法包括語法處理程序、片語識別程序以及相似度比對程序。其中，係透過將來源文件與使用者文件分別進行語法分析，並比對來源字詞資料與使用者字詞資料及比對來源片語資料與使用者片語資料，以及比對來源片語資料與使用者片語資料，再從語意方面進行相似度比對，藉此計算出使用者文件相對於來源文件之抄襲程度。因此，與習知相較，本發明不僅可利用語法結構分析及擷取句子中的字詞及片語，更以片語為抄襲偵測的比對單位，並輔以語意，因此可改善習知技術中使用單一字詞進行比對的正確性。

以上所述僅為舉例性，而非為限制性者。任何未脫離本發明之精神與範疇，而對其進行之等效修改或變更，均應包含於後附之申請專利範圍中。

S01‧‧‧語法處理程序

S02‧‧‧片語識別程序

S03‧‧‧相似度比對程序

Claims

一種英文資料之抄襲偵測方法，係實施於一電腦上，該抄襲偵測方法包括：一語法處理程序，係包括一語法分析步驟，其將一來源文件與一使用者文件分別進行一語法分析，以分別得到一來源字詞資料與一來源片語資料，以及一使用者字詞資料與一使用者片語資料；一片語識別程序，係包括一集合產生步驟，其比對該來源字詞資料與該使用者字詞資料及比對該來源片語資料與該使用者片語資料，以產生一集合字詞資料，並比對該來源片語資料與該使用者片語資料，以產生一集合片語資料，其中該集合字詞資料中之字詞係包含該來源文件與該使用者文件中經字根還原後的所有字詞，該集合片語資料中之片語係包含該來源文件與該使用者文件中相同的片語；以及一相似度比對程序，係依據該集合字詞資料及該集合片語資料並從語意及次序方面進行相似度比對，以藉由分析該集合字詞資料及該集合片語資料與該來源文件及該使用者文件間之語意相似度及次序相似度，計算該使用者文件相對於該來源文件之抄襲程度。
如申請專利範圍第1項所述之英文資料之抄襲偵測方法，其中該來源字詞資料或該使用者字詞資料分別包含至少一個字詞，該來源片語資料或該使用者片語資料分別包含至少一個片語。
如申請專利範圍第1項所述之英文資料之抄襲偵測方法，其中該語法分析步驟係使用一自然語言處理技術。
如申請專利範圍第1項所述之英文資料之抄襲偵測方法，其中於該語法處理程序中，更包含一斷句步驟、一完全抄襲偵測步驟及一字根還原步驟。
如申請專利範圍第1項所述之英文資料之抄襲偵測方法，其中於該語法分析步驟中，係將該來源文件與該使用者文件與一辭典比對，以進行詞性標註及片語擷取。
如申請專利範圍第5項所述之英文資料之抄襲偵測方法，其中該集合字詞資料內之字詞係與該辭典內之字詞相對應。
如申請專利範圍第1項所述之英文資料之抄襲偵測方法，其中於該片語識別程序中，係以片語作為比對單位。
如申請專利範圍第1項所述之英文資料之抄襲偵測方法，其中於該語意相似度及該次序相似度的計算中，係以片語為比對單位。
如申請專利範圍第7項所述之英文資料之抄襲偵測方法，其中於該相似度比對程序中，係分別計算該集合字詞資料及該集合片語資料中，字詞對字詞、字詞對片語及片語對片語的語意相似度。
如申請專利範圍第9項所述之英文資料之抄襲偵測方法，其中於計算字詞對字詞的語意相似度中，係依據字詞的詞性分別進行計算。
如申請專利範圍第9項所述之英文資料之抄襲偵測方法，其中於計算字詞對字詞的語意相似度中，係將該集合字詞資料中的所有字詞彼此進行比對，以找出字詞對字詞之一相似度最大值。
如申請專利範圍第9項所述之英文資料之抄襲偵測方法，其中於計算字詞對片語或片語對片語的語意相似度中，係分別以字詞為基礎進行計算。
如申請專利範圍第11項所述之英文資料之抄襲偵測方法，其中於計算字詞對片語的語意相似度中，係將該集合字詞資料中之每一字詞與集合片語資料中的每一字詞進行比對，以找出字詞對片語之一相似度最大值。
如申請專利範圍第13項所述之英文資料之抄襲偵測方法，其中於計算片語對片語的語意相似度中，係將該集合片語資料中的所有字詞彼此進行比對，以找出片語對片語之一相似度最大值。
如申請專利範圍第14項所述之英文資料之抄襲偵測方法，其中於計算該語意相似度或該次序相似度係分別依據字詞對字詞之該相似最大值、字詞對片語之該相似最大值，及片語對片語之該相似最大值。
如申請專利範圍第1項所述之英文資料之抄襲偵測方法，其中當該抄襲程度高於一閥值時，則該使用者文件有抄襲行為。