發佈日期:2017-02-16

利用專利分類-專利文件矩陣提升專利潛在語意分析效率

作者:林倞

專利資訊大數據文字探勘字詞-文件矩陣專利分析資料探勘潛在語意分析機器學習Big datadata mininglatent semantic analysis (LSA)machine learningpatent analysisterm-document matrixtext mining

文章圖片所有權:https://flic.kr/p/a7wnJj,Created by Peter J. Bury
版權適用聲明:姓名標示-非商業用途-禁止改作

前言

1. 研究動機

我們正處在資訊爆炸的時代,以人力處理資訊變得越來越沒有效率,而運用電腦執行資料探勘(data mining),從大數據(big data)中取得有用訊息,甚至進一步對人類提供決策建議,已是大勢所趨。資料探勘的結果若要用來影響人類決策,其須具有高的準確度(與人類判讀結果一致),否則會導致決策錯誤;提升資料探勘結果準確度是本研究的目標。

專利文件,作為一種資料的形式,其重要性可以由三個角度切入:對研發者而言,當面臨技術障礙時,可以從專利資料庫中找到解決方案,甚至參考先前專利開發出新的技術(Trappey & Trappey, 2008);對企業管理者而言,專利文件是專利訴訟攻防戰中的主要參考資料,其亦可利用專利資料庫比較各企業的技術價值,以擬定企業未來的技術走向(Mogee & Kolar, 1994);對政策制定者而言,則可以從專利分析觀察各國科技定位,知悉本國優劣勢,以進行科技政策的擬定(Yang, Park, & Heo, 2010)。直至筆者撰寫本文的當下,單單是美國一個國家的專利及申請案總計已達14,672,220件,文件量甚至高於某些國家層級的圖書館;由此可知,專利資料探勘結果的準確度左右了研發、訴訟、政策的成敗。

資料探勘屬於機器學習(machine learning)的範疇,其中,經過人類監督的訓練過程將辨識對象歸入已知種類,為一分類(classification)過程;不受監督(unsupervised)、未經人類訓練地將辨識對象歸入任意假設數量的未定義群組,為一分群(clustering)過程。分類法相關的研究方面,如Lai和Che (2009)將多個量化的專利書目資料代入類神經網絡而預測了專利侵權賠償金額;Trappey,Trappey,Wu和Lin (2012)亦利用專利書目資料的類神經網絡進行專利價值分析。分群法方面,Trappey,Trappey和Wu (2010)所研究的非耗盡重疊(non-exhaustive overlaps)分群法,能用於讓研發或法務人員發覺競爭對手的專利組合、潛在侵權專利,進而達成專利佈局或避免侵權。

2. 潛在語義分析

結構化(表格化)的資料可以直接進行資料探勘,而文字經由人類的語言及文法進行書寫,屬於「非結構化」的資訊,為資料的一種特例,一般文字探勘(text mining)的第一步驟會先將文章結構化。潛在語義分析(latent semantic analysis, LSA)是常用的文字探勘技術(Dumais, 1991),本文利用潛在語義分析進行提升專利文字探勘準確度的研究。潛在語義分析的基本概念跳過文章的詞性、含義,利用線性代數的餘弦相似性(cosine similarity)判斷一組文件中的字詞(term)間,或文件間的相關性,屬於分群法。第一步驟如圖1所示,將研究的一組文件結構化為字詞-文件矩陣X’,字詞 ti 被置於矩陣之列 (row),文件 dj 置於行(column), X’ 中的每個元素 xij 為各字詞在特定文件中出現的字頻,n 為字詞數(矩陣列數),m 為文件數(矩陣行數)。

圖1 字詞-文件矩陣

為了消除文章字數差異對餘弦相似性的影響,在第二步驟中,對字頻進行了常態化:

其中 pij 為常態化後的字頻, 為字詞 ti 在所有文件出現的次數總和。

直觀上,一個字詞在字詞-文件矩陣每篇文章中出現的次數越相近,則越不特別;相反的,在同篇文章中出現的次數則與重要性正相關;這樣的邏輯可透過整體加權 (global weighting) 與局部加權 (local weighting) 的處理顯現出來。整體加權 gi

其中

H 借用了統計力學的亂度 (entropy) 概念;意義上,一個字詞在字詞-文件矩陣每篇文章中出現的次數越相近,亂度越大。局部加權 lij

此處局部加權的目的主要在於避免字數 xij 過大時造成電腦運算資源的浪費。加權方式有許多,可以透過各種函數進行,上述各式僅為其中的幾種。加權後的字詞-文件矩陣如圖 2。

圖2 經過加權後的字詞-文件矩陣

第三步驟應用了特徵值分解 (eigenvalue decomposition) 的近似過程。數學上,內積矩陣 (dot-product matrix) 為一可以被對角化 (diagonalizable) 的對稱矩陣 (symmetric matrix),對角化的過程就是特徵值分解,以文件相似性為例:

其中

此處 X 是加權後的字詞-文件矩陣, XTX 之轉置,代表降維後形成的概念 (concept) -文件矩陣,V 矩陣中的元素 vi之特徵向量 (eigenvector);D 為一對角矩陣,主對角線上的元素 λ1的特徵值 (eigenvalue),其餘元素為 0,且 λ1 > λ2 > … > λm ≧ 0。此時 λk+1…到 λm 的值已小到可以忽略,使得可以簡化為維度較低之。降低維度所形成的概念-文件矩陣如圖 3 所示;即可用來求降維後文件間的餘弦相似性。

低維矩陣近似具有兩種效果,第一是減少電腦運算量與資料儲存量,第二是去除雜訊。高維矩陣所造成的資源消耗在處理大數據時尤其明顯,龐大字詞-文件矩陣的運算時間可能達數小時以上,降低維度可大幅減低電腦工時。降低矩陣維度雖然遺失部分資訊,但遺失的訊息多屬雜訊;利用低維近似可以大幅提高資訊處理效能。

圖3 字詞-文件矩陣 X 降低維度後形成的概念-文件矩陣

餘弦相似性在第四步驟中求得。此處將每篇文件視為一向量,以 n 維字詞降低維度後形成的 k 維概念作為座標軸,詞頻為該向量 dj 在個別座標軸之分量:

兩向量夾角的餘弦值定義為其所代表文章間的相似度:

其中分別為向量的長度,為向量的轉置;兩向量的夾角越小其文件相似度愈高,重疊的兩個向量間有最大值 Cosine(0) = 1。

3. ThemeScape

以Thomson Innovation (TI) 的商用軟體ThemeScape為例,本研究的抽樣結果顯示,其準確度為22.5%。ThemeScape 是一種將專利文字探勘的分群結果視覺化的軟體。ThemeScape 首先由使用者選擇執行文字探勘的資料來源(如專利的標題、摘要、申請專利範圍等),接著將文字探勘結果以地圖 (圖4) 的方式,呈現一批被分析專利間的相似性,每點代表一篇專利,位置越接近的專利越相似,點數密度越高的區域等高線就越密,點數密度有極大值的區域則會形成地圖上代表專利間共同主題的山峰 ("ThemeScape – Quick Reference Guide," n.d.)。本研究以1,542件積層製造相關未重複專利為母體,以專利的標題、摘要、申請專利範圍作為文字探勘資料來源,繪製 ThemeScape 地圖,並兩次隨機抽樣了 20 對地圖上,點位置相近的專利,以人工閱讀的方式判斷每一對專利間的相似性;兩次抽樣中,分別僅有 5、4 對專利相似,換算所得平均準確度為 22.5%。

圖4 積層製造相關專利的ThemeScape地圖

4. 合作專利分類

為了開發具有高準確度的專利文字探勘方法,本研究將合作專利分類 (Cooperative Patent Classification, CPC) 視為字詞,作為輸入資料進行文字探勘,並獲得最佳74.4%之高辨識準確度。

各專利官方組織所建立的專利分類主要是用來作為索引,讓專利資料庫的龐大資訊量變得易於檢索,讓使用者更快獲得想要的資訊(Montecchi, Russo, & Liu, 2013)。而CPC是歐洲專利局(European Patent Office, EPO) 美國專利及商標局(United States Patent and Trademark Office, USPTO) 合作開發的專利分類,一方面整合雙方的行政流程,提升分類效率,另一方面,至今CPC已包含超過250,000個類別,並持續在增加中;相較於EPO或USPTO過去的分類方式,CPC更為精細的分類內容也提升了使用者檢索的精確度。

每個CPC分類碼由第1到第5個階層(hierarchy)構成,分別為第一階的節 (sections)、第二階的類別 (classes)、第三階的次類別 (subclasses)、第四階的群組 (groups) 與第五階的次群組 (subgroups),鄰近階層間是上位 (superordinate) 概念及下位 (subordinate) 概念的關係,「節」是「類別」的上位概念,「類別」是「節」的下位概念,以此類推,形成本體論型式(ontological)的架構;每一階層由其對應技術領域的摘要文字來定義(圖5)。以「積層製造控制」為例,其CPC為B33Y50/02,自第一階至第五階之符號及定義依序為B (程序)、33 (積層製造技術)、Y (積層製造)、50 (積層製造資訊處理)、02 (積層製造控制)。審查人員分類專利時使用完整的五階分類碼,並在跨技術領域的同一篇專利中,標記多個對應的CPC分類碼,其中列於首位的首要(primary) CPC分類碼代表審查人員認為該篇專利最為相關的技術領域;大部分的專利都有一個以上的CPC分類碼;德溫世界專利指標資料庫(Derwent World Patents Index, DWPI )分析人員所提供的DWPI CPC亦具有參考價值。

圖5 歐洲專利局所揭露的CPC資訊(此處以積層製造相關分類為例)

基於上述CPC分類碼的特性,本研究將每個CPC分類碼視為一字詞,進而運用字詞-文件矩陣的相同概念,建立CPC-專利文件矩陣,並期望CPC-專利文件矩陣能用來提升專利相似性分析的準確度。此運用的合理性基於兩個事實:其一,每個CPC分類碼與字典裡每個字詞同樣可視為一具有背後含義的符號;其二,字詞-文件矩陣中的字詞僅被當作數學向量進行運算,不考慮順序、文法上的意義。如圖 5所示,歐洲專利局所揭露的CPC內容中,每個CPC符號對應一定義,這就如同我們能在一般字典見到的,字詞與其字義的對應關係;這是CPC能利用矩陣操作的第一個理由。另一方面,由前文可知,利用字詞-文件矩陣進行文字探勘時,每一成對的字詞之間,是一種參考對應使用環境的量化關係,這種分析過程不考慮字義、文法、來龍去脈(context);在這種特性之下,筆者認為,字詞-文件矩陣中的字詞與文件關係可以套用在CPC與專利文件之間;研究結果也證實,相較於商用專利分析軟體,CPC-專利文件矩陣能有效判斷專利文件關係。

5. 積層製造

本研究以積層製造相關專利作為CPC-專利文件矩陣分析的資料來源。行政院於2015年9月17日核定「行政院生產力 4.0發展方案」作為推動國家生產力 4.0科技發展計畫之依據,其中將「積層製造相關科技」列為三大關鍵核心技術之一。筆者期望開發具有高效率的專利文字探勘方法,以協助國家科技政策之規劃與擬定。

二、 研究方法

圖6揭示本研究流程。第一步,在Thomson Innovation (TI)資料庫取得有關積層製造(CPC包括B33)之未重複1,542件美國專利資料,包括已核准專利,及審查中或未核准之專利申請案,其中剔除已核准專利之申請案,或是標題相同之專利。資料內容包括專利號、標題、摘要、申請專利範圍、最新更新首要CPC (current primary CPC)、最新更新CPC (current CPC)、最新更新首要DWPI CPC、最新更新DWPI CPC;如前所述,DWPI CPC為德溫世界專利指標資料庫分析人員所分類的CPC;美國專利不論在內容或數量皆具有指標性意義,本研究僅針對美國專利進行分析。第二步,利用上述取得之最新更新首要CPC、最新更新CPC、最新更新首要DWPI CPC、最新更新DWPI CPC,建立CPC-專利矩陣,以潛在語意分析方法分析積層製造相關專利的文件餘弦相似性。對照組方面,則是利用上述標題、摘要、申請專利範圍資料所建立傳統字詞-文件矩陣的潛在語意分析結果。第三步,以人工閱讀的方式,逐篇確認餘弦相似性大於0.8之成對專利是否相似。傳統上將餘弦相似性大於0.5之兩篇文件視為相似,但由於人工逐篇閱讀耗費時日,本研究僅分析餘弦值大於0.8之專利文件;餘弦相似性準確度定義如下:

上述第三步中「人工判定相似」的定義則為:依具有材料學博士學位之筆者,學習積層製造技術半年後的知識背景,判定每對專利間除了「同屬積層製造技術領域」外,進一步具有類似特徵。若要量化人工判定準則,大約對應於餘弦相似性0.6~1;值得注意的是,對人類而言,相似到相同,是一模糊範圍,上述人工判定準則的量化僅具參考性質。在未來的研究中,會進一步檢視,美國審查人員核駁專利時所用的前案與被核駁專利之間,是否具有本研究的相似關係。

圖6 本研究專利潛在語意分析流程圖

三、 結果與討論

潛在語意分析結果顯示,經由CPC-專利文件矩陣計算而得的文件餘弦相似性,其準確度高於字詞-專利文件矩陣計算結果(表1)。此處的CPC-專利文件矩陣使用了完整的5階CPC,字詞-專利文件矩陣則使用每篇專利的標題、摘要、申請專利範圍作為字詞來源,並剔除停用字(stop words,指任何文章皆常用之非關鍵字等,認定並無特定標準,本研究停用字詳見附錄 1);潛在語意分析經歷上述結構化、加權、降低維度、計算文件間餘弦值。人工認定的結果顯示,CPC-專利文件矩陣所得餘弦值大於0.8的93對專利文件中,人工認定相似的專利共41對,換算準確度為44.1%;字詞-專利文件矩陣則得到114對,人工認定28對相似,準確度為24.6%。

表1 專利潛在語意分析初步結果對照

矩陣形式降維前維度餘弦值≧0.8
成對數
餘弦值≧0.8
人工認定準確度
CPC-專利文件48329344.1%
字詞-專利文件1426711424.6%

以下是字詞-專利文件矩陣計算得到的文件餘弦相似性準確度較低可能的原因:專利申請人傾向將專利內容寫得抽象,以獲得更大範圍的專利保護,這種策略會透過使用更上位的抽象文字而實現,使得專利具有「盡量避免使用具體關鍵字」的特性。加上潛在語意分析無法考慮文件的前後文關係,當針對相同領域(如本研究的積層製造)的專利進行文字探勘時,專利間使用相同字詞的比例進一步提升,使得字詞-專利文件矩陣計算得到的文件餘弦相似性,相較於一般字詞-文件(如網頁文件)矩陣,更不易準確。此處所看到的準確度與商用的ThemeScape結果接近,顯示傳統文字探勘技術應用於專利時,準確度有其極限。

另一方面,直觀上,CPC-專利文件矩陣之所以能提供較佳的文件餘弦相似性準確度,是因為CPC具有萃取出專利技術特徵的效果。不論是官方的審查人員或德溫世界專利指標資料庫的分析人員,都明確地將每篇專利分類到特定的CPC,這種將專利明確化的企圖,正好與專利申請人想將專利模糊化的企圖相反;這可能造就了CPC-專利文件矩陣所提供的較佳文件餘弦相似性準確度。同時,如表 1所示,執行潛在語意分析時,CPC-專利文件矩陣所用到的CPC維度(4,832)僅為字詞-專利文件矩陣所用到字詞維度(14,267)的三分之一,這也大幅減少了電腦所需的運算時間;提升準確度同時減低運算時間,即達到了本研究提升文字探勘效率的目的。

若進一步同時將4階及5階CPC放入CPC-專利文件矩陣進行潛在語意分析,文件餘弦相似性的準確度由原來的44.1%提升到74.4%(人工認定結果請見附錄 2)。以H05K72/0336這個CPC為例,同時使用4階及5階CPC指的是,同時將H05K72及H05K72/0336放入CPC-專利文件矩陣以進行分析;以下會提到的1~3階CPC以此類推。在CPC-專利文件矩陣中同時使用4階及5階CPC,相當於在已知數量的維度(5階CPC的維度)之外,加入了較上位概念(4階CPC為5階CPC的上位概念)的維度。本研究觀察到文件餘弦相似性準確度與CPC維度之間非線性的關係,準確度由4,832維(只使用5階CPC)時的44.1%提升到6,057維(同時使用4、5階CPC)的74.4%,進一步使用6,316(3~5階CPC)、6,414(2~5階CPC)、6,423個維度(1~5階CPC)時,準確度則逐步下降(表2)。Dumais (1991)對這種現象提出了解釋:維度-準確度座標中,到達準確度峰值之前,維度過低時,字詞數量不足以鑑別文件關係,增加維度的字詞對提升準確度而言都是有意義的,而維度的增加有助於文章之間的鑑別;到達準確度峰值之後,多出來的維度中的字詞雜訊越來越多,模糊了焦點,使得準確度逐漸下降。從潛在語意分析被發明至今,持續有研究在討論維度的最佳化(Zhu & Ghodsi, 2006)。

表2 將不同階層CPC放入CPC-專利文件矩陣的潛在語意分析結果

CPC
1階2階3階4階5階降維前
維度
餘弦值≧0.8
成對數
餘弦值≧0.8
人工認定準確度
HH05H05KH05K72H05K72/0336
48329344.1%
60577874.4%
63163161.3%
64142941.4%
64234139.0%

具有上下位關係的不同階層CPC正好提供了利用維度的變化改變潛在語意分析準確度的研究機會,這是因為CPC各階層間上下位關係明確,這種關係是一般字詞間不易定義的;在傳統的潛在語意分析中,即使知道文件餘弦相似性準確度與字詞維度之間的關係是非線性的,還是不可能藉由隨機添加無意義字詞、或任意刪減字詞以獲得較佳準確度。本研究一方面針對狹義的專利文件而言,直接提升了潛在語意分析準確度,另一方面對廣義的所有文件的文字探勘提供了一個研究方向:透過字詞的抽象化或具體化以增減字詞維度,可能進一步形成較佳文字探勘準確度。

四、 結論

與利用傳統字詞-專利文件矩陣所執行的潛在語意分析相比,利用CPC-專利文件矩陣所執行的潛在語意分析能提供較高的專利文件餘弦相似性準確度。當進一步在CPC-專利文件矩陣中加入上位概念的維度,也就是同時使用4階及5階CPC時,執行潛在語意分析所得到的專利文件餘弦相似性準確度提升到74.4%,遠高於從傳統字詞-專利文件矩陣得到的24.6%;此時CPC維度數為6,057,不到字詞-專利文件矩陣所用到14,267字詞維度的二分之一,顯示利用CPC-專利文件矩陣所執行的潛在語意分析不但準確度較高,運算資源消耗也較低,效率明顯高於傳統分析方法。24.6%這個結果與商用軟體ThemeScape的分析結果接近,顯示傳統文字探勘技術用於分析專利時有其極限。本研究同時觀察到文件餘弦相似性準確度與維度間的非線性關係。在字詞-文件矩陣中利用字詞的抽象化、具體化以增減維度的做法,可以應用於往後一般文件的潛在語意分析的研究。

參考文獻

  1. Dumais, S. T. (1991). Improving the retrieval of information from external sources. Behavior Research Methods, Instruments, & Computers, 23(2), 229–236. doi:10.3758/bf03203370
  2. Lai, Y.-H., & Che, H.-C. (2009). Evaluating patents using damage awards of infringement lawsuits: A case study. Journal of Engineering and Technology Management, 26(3), 167–180. doi:10.1016/j.jengtecman.2009.06.005
  3. Mitchell, T. M. (1997). Machine learning (7th ed.). New York: McGraw Hill Higher Education.
  4. Mogee, M. E., & Kolar, R. G. (1994). International patent analysis as a tool for corporate technology analysis and planning. Technology Analysis & Strategic Management, 6(4), 485–504. doi:10.1080/09537329408524188
  5. Montecchi, T., Russo, D., & Liu, Y. (2013). Searching in cooperative patent classification: Comparison between keyword and concept-based search. Advanced Engineering Informatics, 27(3), 335–345. doi:10.1016/j.aei.2013.02.002 ThemeScape – Quick Reference Guide. (n.d.). Retrieved from http://info.thomsoninnovation.com/sites/default/files/assets/ti_themescape_qrg.pdf
  6. Trappey, A. J. C., & Trappey, C. V. (2008). An R&D knowledge management method for patent document summarization. Industrial Management & Data Systems, 108(2), 245–257. doi:10.1108/02635570810847608
  7. Trappey, A. J. C., Trappey, C. V., Wu, C.-Y., & Lin, C.-W. (2012). A patent quality analysis for innovative technology and product development. Advanced Engineering Informatics, 26(1), 26–34. doi:10.1016/j.aei.2011.06.005
  8. Trappey, C. V., Trappey, A. J. C., & Wu, C.-Y. (2010). Clustering patents using non-exhaustive overlaps. Journal of Systems Science and Systems Engineering, 19(2), 162–181. doi:10.1007/s11518-010-5134-x
  9. Yang, C. H., Park, H. W., & Heo, J. (2010). A network analysis of interdisciplinary research relationships: The Korean government’s R&D grant program. Scientometrics, 83(1), 77–92. doi:10.1007/s11192-010-0157-0
  10. Zhu, M., & Ghodsi, A. (2006). Automatic dimensionality selection from the scree plot via the use of profile likelihood. Computational Statistics & Data Analysis, 51(2), 918-930. doi:10.1016/j.csda.2005.09.010

附錄 1 本研究潛在語意分析之停用字

a, able, about, above, abst, accordance, according, accordingly, across, act, actually, added, adj, affected, affecting, affects, after, afterwards, again, against, ah, all, almost, alone, along, already, also, although, always, am, among, amongst, an, and, announce, another, any, anybody, anyhow, anymore, anyone, anything, anyway, anyways, anywhere, apparently, approximately, are, aren, arent, arise, around, as, aside, ask, asking, at, auth, available, away, awfully, b, back, be, became, because, become, becomes, becoming, been, before, beforehand, begin, beginning, beginnings, begins, behind, being, believe, below, beside, besides, between, beyond, biol, both, brief, briefly, but, by, c, ca, came, can, cannot, can't, cause, causes, certain, certainly, co, com, come, comes, contain, containing, contains, could, couldnt, d, date, did, didn't, different, do, does, doesn't, doing, done, don't, down, downwards, due, during, e, each, ed, edu, effect, eg, eight, eighty, either, else, elsewhere, end, ending, enough, especially, et, et-al, etc, even, ever, every, everybody, everyone, everything, everywhere, ex, except, f, far, few, ff, fifth, first, five, fix, followed, following, follows, for, former, formerly, forth, found, four, from, further, furthermore, g, gave, get, gets, getting, give, given, gives, giving, go, goes, gone, got, gotten, h, had, happens, hardly, has, hasn't, have, haven't, having, he, hed, hence, her, here, hereafter, hereby, herein, heres, hereupon, hers, herself, hes, hi, hid, him, himself, his, hither, home, how, howbeit, however, hundred, i, id, ie, if, i'll, im, immediate, immediately, importance, important, in, inc, indeed, index, information, instead, into, invention, inward, is, isn't, it, itd, it'll, its, itself, i've, j, just, k, keep, keeps, kept, kg, km, know, known, knows, l, largely, last, lately, later, latter, latterly, least, less, lest, let, lets, like, liked, likely, line, little, 'll, look, looking, looks, ltd, m, made, mainly, make, makes, many, may, maybe, me, mean, means, meantime, meanwhile, merely, mg, might, million, miss, ml, more, moreover, most, mostly, mr, mrs, much, mug, must, my, myself, n, na, name, namely, nay, nd, near, nearly, necessarily, necessary, need, needs, neither, never, nevertheless, new, next, nine, ninety, no, nobody, non, none, nonetheless, noone, nor, normally, nos, not, noted, nothing, now, nowhere, o, obtain, obtained, obviously, of, off, often, oh, ok, okay, old, omitted, on, once, one, ones, only, onto, or, ord, other, others, otherwise, ought, our, ours, ourselves, out, outside, over, overall, owing, own, p, page, pages, part, particular, particularly, past, per, perhaps, placed, please, plus, poorly, possible, possibly, potentially, pp, predominantly, present, previously, primarily, probably, promptly, proud, provides, put, q, que, quickly, quite, qv, r, ran, rather, rd, re, readily, really, recent, recently, ref, refs, regarding, regardless, regards, related, relatively, research, respectively, resulted, resulting, results, right, run, s, said, same, saw, say, saying, says, sec, section, see, seeing, seem, seemed, seeming, seems, seen, self, selves, sent, seven, several, shall, she, shed, she'll, shes, should, shouldn't, show, showed, shown, showns, shows, significant, significantly, similar, similarly, since, six, slightly, so, some, somebody, somehow, someone, somethan, something, sometime, sometimes, somewhat, somewhere, soon, sorry, specifically, specified, specify, specifying, still, stop, strongly, sub, substantially, successfully, such, sufficiently, suggest, sup, sure, t, take, taken, taking, tell, tends, th, than, thank, thanks, thanx, that, that'll, thats, that've, the, their, theirs, them, themselves, then, thence, there, thereafter, thereby, thered, therefore, therein, there'll, thereof, therere, theres, thereto, thereupon, there've, these, they, theyd, they'll, theyre, they've, think, this, those, thou, though, thoughh, thousand, throug, through, throughout, thru, thus, til, tip, to, together, too, took, toward, towards, tried, tries, truly, try, trying, ts, twice, two, u, un, under, unfortunately, unless, unlike, unlikely, until, unto, up, upon, ups, us, use, used, useful, usefully, usefulness, uses, using, usually, v, value, various, 've, very, via, viz, vol, vols, vs, w, want, wants, was, wasnt, way, we, wed, welcome, we'll, went, were, werent, we've, what, whatever, what'll, whats, when, whence, whenever, where, whereafter, whereas, whereby, wherein, wheres, whereupon, wherever, whether, which, while, whim, whither, who, whod, whoever, whole, who'll, whom, whomever, whos, whose, why, widely, willing, wish, with, within, without, wont, words, world, would, wouldnt, www, x, y, yes, yet, you, youd, you'll, your, youre, yours, yourself, yourselves, you've, z, zero.


附錄 2 由包括4、5階CPC之CPC-專利文件矩陣所得文件餘弦相似性準確度人工認定結果