運用人工智慧發掘具訴訟風險專利
美國專利訴訟往往成為台灣廠商營運的轉捩點,故提早發現高訴訟風險專利有利企業發展。本研究利用多層感知器解析美國專利的申請專利範圍文字內容,以預測該等專利是否曾用於訴訟。過程中比較了不同類神經網路參數對預測效果的影響。
著作權聲明: CC0 Public Domain-可以做商業用途-不要求署名
一、前言
法律定義上,專利是政府授予專利權人排除他人製造、販賣、使用或進口其發明的權利,而實務上,除非專利權人拿專利來(威脅)提告,否則取得專利之後什麼也不會發生。所以專利的最原始目的就是拿來興訟的,專利的轉讓、授權,僅僅是同業用來避免被告的手段而已。由此可知,能用來興訟或避免被告的專利才具有價值(林倞,2016)。尤其以美國的專利為例,專利訴訟是非常昂貴而且耗費時日的,一場訴訟往往讓雙方至少付出65至250萬美金不等的代價(Kersetter, 2012)。這對依賴外銷市場的台灣廠商之生存影響甚鉅,投入美國專利的訴訟戰爭,即代表面臨公司營運的轉捩點(林倞,2016)。如何高效率地觀測己方與競爭對手的專利訴訟風險,提出因應之道(如興訟、迴避設計、收購專利、高風險專利之授權或被授權等),對面臨專利戰之企業的經營非常重要。
本研究測試了運用多層感知器(multilayer perceptron)之文字探勘技術預測專利涉訟與否的效果。在過去的研究中,Lai與Che曾利用倒傳遞類神經網路(back-propagation artificial neural network)解析17個量化的專利書目資料與法院判決之專利損害賠償金間的關係(Lai & Che, 2009)。由於專利損害賠償金額不一定載於公開資料中,該研究作者一共閱讀了超過四千件的專利訴訟文件,其中能找到賠償金額的有效樣本僅數十件。為了有利於電腦運算,其專利損害賠償金被正規化(normalized)到0.2~0.8這個區間,而作為預測成功與否判斷的均方根誤差(root-mean-square error, RMSE)達0.1;該等作者認為應提供更多的數據來看是否能降低均方根誤差。
Cowart等人則對已知會發生訴訟的專利,比較了邏輯回歸(logistic regression)與分類樹(classification trees)演算法,對其訴訟結果的預測力(Cowart, Lirely, & Avery, 2014)。以邏輯回歸預測時,49件中勝訴猜對了8件(16.33%),敗訴猜對了30件(61.22%),而以分類樹預測時,勝訴猜對了6件(12.24%),敗訴猜對了32件(65.31%);其研究同樣有樣本數過少的問題。其後,在Wongchaisuwat等人的研究中,併用了專利的文章內容與書目資料,以支持向量機(support vector machine, SVM)、決策樹(decision tree)、提升樹(boosted tree)、隨機森林(random forest)等混合而成的演算法,對無線網路、廣告、通訊三個領域的專利,分別預測其專利涉訟與否(Wongchaisuwat, Klabjan, & McGinnis, 2016);以無線網路專利為例,特定條件下,總數7,667件專利中,涉訟專利猜對了24件(0.31%),未涉訟專利猜對了7,398件(96.49%)。
本研究同樣討論了人工智慧對專利涉訟與否的預測能力;其中運用了多層感知器對專利文章內容進行解析。
二、多層感知器
多層感知器屬於前饋式(feedforward)類神經網路演算法的一種。從簡單的概念來看,一個類神經網路就像是一個函數,假設函數F(X m )本身未知,而已知一組「訓練電腦用」的自變數X 1 及其應變數Y 1 的值,若能找出已知數值的X 1 及Y 1 之間的關係,也就是找到F(X m ),則對F(X m )輸入另一組自變數X 2 ,即能「獲得」(例如可用於預測)相對應Y 2 的值。
更進一步來看,如圖 1所示,多層感知器包括一個輸入層、一個輸出層、及數量大於等於一的隱藏層,每一層中各包含特定數量(通常由研究者定義)的神經元;同層內的神經元之間並無聯繫,而鄰層間的神經元是完全相連(fully connected)的;從最初的輸入X m ,到最後輸出Y m ,訊號(也就是X m 轉變成Y m 的過程中各層傳遞的數值)層層傳遞,每一層分別都經歷訊號輸入、輸出的過程。若僅從最初輸入值到最終輸出值「單方向」傳輸,即稱為向前傳播(forward propagation)的前饋式類神經網路(Kubat, 2015)。
訊號一般正規化到[-1, 1]之間,每一次輸入神經元的訊號會因權重(如圖所示w)而改變,而類神經網路演算最基本的過程,可以說就是不斷「猜」各個權重,直到獲得較準確輸出值的過程;改良類神經網路的方法,除了使用新的類神經網路架構,就是優化猜的技巧。
隱藏層、輸出層的神經元則透過轉換函數(transfer function)對加權又加總的訊號進行處理,常用的轉換函數包括三種:S形(sigmoid)函數、雙曲正切(hyperbolic tangent,縮寫為tanh)函數、受限線性單位(restricted linear unit, ReLU)函數;S形函數為
當加權後進入同一神經元的總訊號z非常大時,神經元的輸出接近1,訊號為負且數字極大時,神經元的輸出接近0。雙曲正切函數同樣為S形,但在總訊號z非常大時,神經元的輸出接近1,訊號為負且數字極大時,神經元的輸出接近-1。受限線性單位函數則為
在總訊號z大於0時,神經元會輸出z,訊號為任意負值時,神經元皆輸出0。
除了上述三個轉換函數,當最終的輸出有關互斥(mutually exclusive)分類標籤(如本研究的涉訟或未涉訟兩類)的機率分佈(分類機率總和為100%)時,輸出層會以正規化指數(normalized exponential或softmax)函數對訊號進行處理:
其中z i 為輸出層第i個神經元加權後函數處理前的總訊號,y i 為輸出層第i個神經元最終輸出值,分母為整個輸出層所有神經元加權後函數處理前總訊號之總和(Buduma & Locascio, 2017)。若以「單層」隱藏層的情況為例,則
其中w ji (2) 為第j個隱藏層神經元與第i個輸出層神經元之間傳遞訊號的權重(上標「2」指的是輸出層),w kj (1) 為第k個輸入層神經元與第j個隱藏層神經元之間傳遞訊號的權重(上標「1」指的是隱藏層),x k 為輸入第k個輸入層神經元的最初輸入值,函數f()可為上述三種神經元函數。
為了猜到答案,修正各個權重猜測值使用到誤差函數(error function)
其中y (i) 為第i個輸出層神經元最終輸出值,t (i) 為其對應的真實答案。以下以簡化的神經元,討論本研究所用到的系統化的權重猜測方法:假設使用的類神經網路僅有一個神經元,最初輸入值兩個,故考慮兩個權重w 1 與w 2 。想像w 1 、w 2 、E三個座標軸所構成的立體座標系,「所有」w 1 、w 2 猜測值跟其對應的E最後會在立體座標系中形成一個開口方向與E軸平行的「套狀」曲面(也就是誤差函數為一套狀曲面函數)。套狀曲面封閉端的頂點代表最佳的w 1 、w 2 使得輸出層神經元最終輸出值與真實答案最為接近(誤差值最小)。
呈上,可以在w 1 、w 2 為軸的平面座標系上,畫出誤差函數E的「等高線圖」,而套狀曲面的等高線圖就像樹的年輪一樣,為一條條近楕圓的封密曲線。由簡單的幾何概念可知,一層又一層地朝樹的年輪曲線「切線垂直方向(也代表鄰近兩條等高線之間高度變化的『梯度最大』方向)」前進,最終就能找到誤差函數的最低點。不論實際應用時的權重有幾個,其概念是相同的;這種修正權重的方法稱為梯度下降法(gradient descent)。
由上可知,研究者手邊已有轉換函數、誤差函數、權重三個「工具」,這使得權重的猜測已經可以變得系統化。由簡單的微分概念可知,當任一權重w k 對誤差函數E進行平面作圖,此時橫軸權重的變量與誤差函數斜率存在以下關係:
其中兩次權重猜測值之差為Δw k ,其與誤差函數在w k 的梯度呈正比,兩者間由因子ϵ而關聯,ϵ稱為機器的學習率(learning rate)。由轉換函數、誤差函數、權重之間的關係進一步推導可得
其中轉換函數在w k 的微分因S形函數、雙曲正切函數…等之應用而有所不同。
而實際情況下,誤差函數一般不是完美的錐狀套狀曲面,曲面上會有很多區部極小值(local minimum),導致找不到最佳權重;此時可將訓練用資料隨機分成資料量較小的多組,利用多次疊代的方式找出最佳權重。這種方法稱為迷你批次(mini-batch)梯度下降法,其權重的推導結果為
其中Δw ij 是第j個隱藏層神經元到第i個輸出層神經元間權重兩次猜測值差值,其與每次迷你批次取樣結果有上式關係;利用取樣進行疊代的次數稱為期(epoch)。
上述方法將用於以下的研究,其中學習率與迷你批次大小等稱為超參數(hyper-parameters),其等與預測效果的關係,將在研究結果中討論。
三、研究方法
本研究首先自Clarivate Analytics資料庫,取得無線通訊網路相關專利(合作專利分類號為H04W)與化學相關專利(合作專利分類號開頭為C),至2017年12月5號為止,所有已知涉訟專利(分別為848、2,653件)之申請專利範圍文字內容。另外,分別取得公告日至2014年底,隨機3,000篇未涉訟無線通訊網路或化學相關專利之申請專利範圍文字內容;此處專利公告時間之限制,是為了盡量避免以後可能涉訟的專利,影響對涉訟與否的判斷。接著,對無線通訊網路相關專利合併其中隨機800筆涉訟專利與隨機3,000篇未涉訟專利資料,對化學相關專利合併其中隨機2,100筆涉訟專利與隨機3,000篇未涉訟專利資料,以作為以下之使用;主要分析對象為無線通訊網路相關專利,化學相關專利則用來二次確認研究結果。在這種採樣方式中,涉訟專利為過採樣(over-sampling),未涉訟專利(無線通訊網路相關專利總數約14萬件)為不足採樣(under-sampling),關於採樣方式,筆者將於往後的研究中進行分析;過去研究可見文獻(Chawla, Bowyer, Hall, & Kegelmeyer, 2002)。
接著以軟體「R」進行文字探勘,使用之套件請見參考文獻。首先將文件去除數字、符號、停用字,接著進行字根化(stemming),再結構化為字詞-文件矩陣(林倞,2017),接著,對矩陣進行詞頻-反向文件頻率(term frequency-inverse document frequency, tf-idf)加權(Silge & Robinson, 2017),對照組則進一步進行潛在語義分析(latent semantic analysis)的特徵值分解(eigenvalue decomposition)降低維度處理(林倞,2017);最後將99%文章都沒出現過的字詞移除。
對字詞-文件矩陣中第p個字詞在第q篇文章出現的頻率npq而言,其tf加權為
其中分母為第q篇文章中第1、2…到第r個所有字詞的出現頻率總和。對第p個字詞tp的idf加權而言,
其中D為所有文章總數,分母為第p個字詞tp出現過的文章總數(加1確保分母不為零)。而一個字詞-文件矩陣的tf-idf加權,即為對每個元素進行tf×idf處理。
處理過後的矩陣,對應每篇專利文件涉訴與否的資訊後,最後進行多層感知器預測,其中輸出層使用正規化指數函數。
四、結果與討論
在本研究利用多層感知器解析美國專利的「申請專利範圍」文字內容以預測該等專利是否曾用於訴訟的結果中,在輸出層神經元為2 (對應涉訟與未涉訟)、單一隱藏層的條件下,具有2~128隱藏層神經元的多層感知器,其F1值在0.36~0.43之間。如表 1所示,使用的資料總數為3,800件無線通訊相關專利,其中涉訟專利為800件(訴訟件除以總件數為21.1%),隨機抽出80%(3,040件)作為訓練電腦之用,其餘760件用來測試預測效果。n-gram為1,代表建構字詞-文件矩陣(林倞,2017)所用到的字詞,為單字;迷你批次數量為訓練件數的1%(30件)。真陽性指實際為涉訟且電腦猜測為涉訟,偽陽性指實際未涉訟電腦猜測為涉訟,真陰性指實際未涉訟且電腦猜測未涉訟,偽陰性指實際為涉訟而電腦猜測未涉訟。精密度為
可以說,精密度看的是,猜測涉訟的專利中,有多少猜對、多少猜錯。召回率:
召回率可以看出,真正涉訟的專利中漏掉了多少。精密度與召回率可合併為
神經元數量從少到多的複雜性對預測結果的影響,可以簡單由線性函數與非線函數的比較來理解:一條直線(線性函數)若通過若干點p 1 、p 2 …p n ,基本上一定能找到一個波動很大的振盪曲線(非線性函數)同樣能通過上述各點;但合理可知,這一系列的點用直線就能描述,當對p n+1 的位置進行預測時,簡單的直線反而比複雜的非線性函數更準確。對上述非線性函數而言,這種p 1 、p 2 …p n 作為訓練時都能通過而無法預測p n+1 的情況,稱為過度配適(overfitting)。所以神經元數量、隱藏層數量並非越多越好;對本研究的資料而言,64個隱藏神經元是較為恰當的數量。
當取F1值最佳的64個隱藏層神經元之多層感知器,對其迷你批次量進行比較時,F1值隨迷你批次的取樣比例為1%時最佳(表 2)。如前所述,這應該是因為較高的取樣比例,會受到誤差函數局部極小值的影響而導致預測能力下降。與上述最初條件相同而學習率在0.4、0.6、0.8、1下的比較可以發現(表 3),F1值還是在學習率0.8時最佳。由上述的學習率定義可知,太大的學習率,會導致兩次權重猜測值之間差異的放大,在「不鄰近」的誤差函數等高線之間跳躍,而沒有達到逐次接近年輪狀誤差函數等高線中心的效果;太小的學習率,則可能在原地打轉,落入誤差函數局部極小值。表 4所示則為相同條件下不同隱藏層轉換函數的十次平均值比較結果,其中使用受限線性單位函數的預測結果最佳。
當隱藏層提升至兩層時(表 5),學習率在0.3比在0.8有較佳預測力;不論兩層隱藏層神經元數量分別是64/32、64/4、16/8、8/4的結果相同,這應該同樣是神經元過於複雜所導致的過度配適;其等F1值略低於前述單隱藏層之最佳結果。
當比較n-gram分別為1與2 (1-gram與2-gram),也就是建構字詞-文件矩陣所用到的字詞,分別為單字或兩個單字構成的片語,在相同條件下的十次平均值,則可以發現,使用單字的結果較佳(表 6)。同樣可觀察到,對化學領域的專利而言,1-gram與2-gram的趨勢是一致的。筆者直觀上認為,片語所能提供的文義更為豐富,對建立語義與涉訟與否的關係上會有幫助;而結果與直觀是相反的,往後可做更深入的相關研究。
在相同條件下,對tf-idf加權後的字詞-文件矩陣進一步進行潛在語義分析(林倞,2017),其預測十次平均值並未改善(表 7)。由於潛在語義分析前、後,文件矩陣從沒有負值變為有負值,且由轉換函數的定義可知,相較於使用受限線性單位函數時任何自變數最後僅輸出零,S形函數對多負值矩陣有較佳處理,故此處對轉換函數使用S形函數的結果進行比較。而潛在語義分析的目的,除了將字詞-文件矩陣轉換為「潛在語意」-文件矩陣,降低矩陣維度,而減低電腦運算負擔外,亦將字詞-文件矩陣中語義可能重複的字詞,簡化為語義互斥的潛在語意,直觀上亦對建立語義與涉訟與否的關係上會有幫助;顯然結果亦是相反的。
如前所述,由於涉訟專利僅佔所有數十萬專利中之數百而已,所以處理這種問題,往往要將過少的部分過採樣,過多的部分不足採樣;由表 8可以看出,當被預測資料中的涉訟專利件數下降時,預測準確性也會下降,這是相關研究的困難所在。
五、結論
本研究利用多層感知器解析美國無線通訊相關專利的申請專利範圍文字內容以預測該等專利是否曾用於訴訟,最佳之F1十次均值為0.403;較直觀的表達方式為,猜測涉訟時,有45.2%會猜對,同時漏掉63.2%涉訟專利。過程中分別比較了不同隱藏層神經元數、迷你批次比率、學習率、轉換函數、片語組成字數、潛在語意分析等,對預測效果的影響。單隱藏層下的最佳條件包括:隱藏層64神經元,迷你批次量為訓練資料之1%,學習率為0.8,轉換函數為受限線性單位函數。多字片語或潛在語意分析的使用對預測沒有幫助,而雙隱藏層可能因為過度配適的關係,不同神經元所獲得的結果相同而略差於單隱藏層之最佳結果。對無線通訊或化學相關的兩批資料而言,各因子對預測結果影響的趨勢相同。隨著涉訟專利的數量在總資料佔比的下降,預測準確性也會下降,所以預測方法還有很大的改善空間,將在往後的研究中持續改良。