發佈日期:2015-12-30

如何運用資料探勘技術判斷高品質專利—以LED產業為例

作者:樊晉源

專利資訊資料探勘高品質專利產業分析LEDPatent QualityData MiningMachine LearningLED IndustrySelf-Organizing Map (SOM)

▶【延伸閱讀 | STPI 電子書城】主要競爭國家專利動態觀測與優勢總體分析

文章圖片所有權:https://goo.gl/XR5as7,Created by Billie Grace Ward
版權適用聲明:可做商業用途,但需註明出處

一、前言—資料探勘與專利價值

資料探勘技術可說是現今資料分析技術之核心,主要是運用包含統計、數據分析、資料庫運算及機器學習和專家系統等技術,從龐大之資料中,篩選出具有價值之資訊,並協助研究人員從中找尋出關鍵,進一步協助決策人員做出正確之判斷。因此資料探勘技術可說是現今資訊發展之重要關鍵,也是促進資料技術發展之重大核心。

現今資料探勘技術發展已趨成熟,整體探勘狀態已從傳統之數據型資料,轉化為價值型、語言型資料庫;藉由數據與數值之轉換,讓使用者可以進一步獲取更多更有價值之資訊,也由於資料探勘技術之發展,使得以往許多較為偏重於語言型及字彙型之資料,開始可以從中擷取其重要資訊,並進一步從中獲得重要資訊,而這其中專利資料庫可說是至關重要,畢竟以往專利資料多半需要耗費大量之人工時間及專家時間進行閱讀,且統整專家意見更需要花費眾多時間,往往藉此獲得之資訊經常會遭受不同領域之專家質疑,因此現階段運用資料探勘,甚至文字探勘技術藉此快速擷取重點資訊,似乎會成為此一領域之新方法。

至於專利分析中,以往最讓專家判斷困難,並耗費最多人力的部分,在於如何正確判斷專利的價值。此部分議題值到現在,仍是讓人最為注意的地方,在專利分析領域中,專利價值一值均是較為無解之議題,畢竟單純依賴專家之判斷準則,雖然可以定義出適當之價值,但是耗費之時間、判斷所需之經驗均過於冗長,且依賴專家又過於人為,對於經驗之保存及未來再一次之判斷準則部分,均缺乏系統化之保存方式,因此是否有可資運用之系統化判斷方式,針對專利價值做出適當之判斷?這部分似乎可以依賴現有之資料探勘技術,從中找尋出相對應之判斷準則。

為此,本篇文章目的,即在於運用資料探勘技術中,分類、分群及迴歸分析之手法,進一步針對專利品質部分進行分析,並從中有效將其規則做出一定義,期望透過資料探勘之運作及分析,有效將以往較為偏重於經驗判斷之專利品質轉化為較具有系統性之專利判斷法則,並從中建立一系統性之模式。

二、研究方法

本研究為了有效針對此一議題進行研究,首先第一部分即在於針對專利狀況進行分析,並從中找尋具有價值之指標,作為專利價值評估之重要依據。在一篇專利中,我們特別針對幾項較有可能跟「品質」具有關聯之指標,進行搜尋,並依照相關狀況,進行分析,相關指標概述如下(參見表一):

表一 相關重點專利指標

指標名稱指標定義
1. 專利核准天數由申請日減核准日算出,專利核准天數主要運用於判別專利申請至核准所經歷之天數。
2. IPC-Current Numbers現今世界專利分類數(計數值),理論上數值越多,代表此一專利可對應之技術越廣。
3. Assignee/Applicant專利申請人數目(計數值),理論上越多專利申請人,代表此專利是由越多機構共同發明而成。
4. Inventor Count專利發明人人數,理論上越多專利發明人,代表此一專利由越多發明人所共同完成
5. CPC-Current合作分類號數目(計數值) 理論上數值越多,代表此一專利可對應之技術越廣。(合作分類號為新式分類號,不同於IPC,合作分類號會較為重視產品。)
6. Count of Citing Patents引用專利數,代表引用之專利數目。
7. Count of Cited Refs–Non-patent引用非專利文獻數,這代表引用之非專利(如圖書、期刊、研討會論文、產業報告)之多寡
8. INPADOC Family Members INPADOC專利家族多寡,專利家族數越多,代表此一公司對此一技術之保護越廣。
9. DWPI Family MembersDWPI專利家族專利家族多寡,專利家族數越多,代表此一公司對此一技術之保護越廣。
10. INPADOC Legal Status專利法律狀態,主要包含專利之繳費、專利轉讓、轉利訴訟、專利買賣等狀態

藉由上述專利分析指標,進一步搭配資料探勘模組進行分析,資料探勘模組部分,首先針對重點專利指標進行篩選,運用統計分析模組逐步迴歸法,針對此九項指標進行篩選,並從中選擇出影響最高之指標,此部分選擇方式主要是將九項指標視為一龐大之矩陣,進一步從中找出最為相關之數個指標,並透過數個指標,進行相關之後續資料分析。在此研究狀態下,經過六次迴歸完成之後,還包含有顯著性的是現今世界專利分類數、DWPI 專利家族、專利核准天數、專利引用非專利文獻(論文或期刊)、專利發明人人數、合作分類號數目這六個部份指標,而其依變項則是參考專利INPADOC Legal Status 作為統整。

確定完成專利指標篩選之後,進一步運用資料探勘技術中,專利分群之手法,針對此類型技術進行分群。在此一階段,本研究運用SOM(Self-Organizing Map),自組織映射圖網路進行分析,SOM(Self-Organizing Map)自組織映射圖網路是類神經網路的一種,更是資料探勘技術中,機器學習之核心。基本上類神經網路可以視之為一種仿生物神經網路的資訊處理系統。目前著名的類神經網路模式不下數十種,主要分成四大類:1.監督式學習網路(Supervised learning network),2.無監督式學習網路(Unsupervised learning network),3.聯想式學習網路(Associate learning network),4.最適化應用網路(Optimization application network)。而自組織映射圖網路便是屬於無監督式學習網路的一項分支。自組織映射圖網路理論觀點在 1980 年由T. Kohonen提出,主要基本原理是模仿人類大腦中,具有相似功能的腦細胞會聚集在一起的特性,進一步所發展出來的類神經網路。因此只要在學習範例中有內在的聚類規則,那麼就適用於自組織映射圖網路。而本研究目的,即在於運用此一技術,找出專利之聚類規則,並進一步針對同一類型之專利,進行其規則建立。

確認分群規則建立完成後,本研究進一步針對專利技術進行分群,從中找尋適當之群體數。而分群之群體規則將依照專利資料之狀況,進行統整,當確定分群數量之後,下一步則是透過此一狀況,詳細分析每一群體之狀況,並藉由每一群體之研究狀況,運用統計分析之迴歸技術,建立迴歸方程式,並運用迴歸方程式,針對不同群體之專利品質狀態進行預測,從中定義出適合之專利品質,並進一步確認專利品質之狀況,有效整理專利品質之成果,整體研究流程圖示如下(參見圖一):

圖一 整體研究流程圖

三、研究成果分析

本研究運用AMOLED產業作為分析依據,AMOLED專利搜尋來自於以Thomson Innovation 資料庫,搜尋資料鎖定自2001~2013年,搜尋關鍵字為AMOLED,搜尋資料庫主要來自於美國、南韓、中國、台灣、世界知識產權組織、歐盟、日本、加拿大、德國、印度等重要專利權人,進一步縮減相關不重要專利(主要其內容與AMOLED明顯不符),共計整理出2180件專利,此2180件專利經過逐步迴歸分析,共計保留六個變數,其整體概述如下(參見表二):

表二 逐步迴歸表

方差分析ANOVAg
ModelSum of SquaresdfMean SquareFSig.
1Regression10559.671110559.671145.969.000a
Residual79793.144110372.342
Total90352.8141104
2Regression16827.74328413.872126.108.000b
Residual73525.071110266.720
Total90352.8141104
3Regression20598.66536866.222108.376.000c
Residual69754.150110163.355
Total90352.8141104
4Regression21825.28645456.32187.585.000d
Residual68527.529110062.298
Total90352.8141104
5Regression22646.91954529.38473.521.000e
Residual67705.896109961.607
Total90352.8141104
6Regression23025.21463837.53662.584.000f
Residual67327.600109861.318
Total90352.8141104

a. Predictors: (Constant), ipc 第一階段 留現今世界專利分類數。

b. Predictors: (Constant), ipc, family 第二階段 留現今世界專利分類數、DWPI專利家族。

c. Predictors: (Constant), ipc, family, days 第三階段 留現今世界專利分類數、DWPI專利家族、由申請日減公告日算出。

d. Predictors: (Constant), ipc, family, days, npr 第四階段 留現今世界專利分類數、DWPI專利家族、由申請日減公告日算出、專利引用非專利文獻(論文或期刊)。

e. Predictors: (Constant), ipc, family, days, npr, inventor第五階段 留現今世界專利分類數、DWPI專利家族、由申請日減公告日算出、專利引用非專利文獻(論文或期刊)、專利發明人人數。

f. Predictors: (Constant), ipc, family, days, npr, inventor, cpc第六階段 留現今世界專利分類數、DWPI專利家族、由申請日減公告日算出、專利引用非專利文獻(論文或期刊)、專利發明人人數、合作分類號數目。

g. Dependent Variable: status(依變數) 第七階段 我們運用專利轉讓交易法律數目(計數值的部分),判斷專利價值之重點數值依變數。

藉由迴歸分析所得到之相關資訊,本研究進一步運用分群技術進行資料分析,主要目的在於將相似性較高的資料整合為一個群組,並進一步運用資料處理技術針對相似群組資料進行統整。在資料分群中,最佳分群結果是需符合群內變異最小、群間變異最大之準則,往往將集群數分得太多,但未必是最好的處理方式,再者避免利用過多的資料量建立模式去預測過少的案例資料,使得所得的平均方差(RMSE)有過好的情形或利用過少的資料量建立模式去預測過多的案例,使得所得的RMSE有過差的情形,因此本研究間群數育設在C=2~C=4之間,以觀察那一種分群結果較佳。

評選分群績效則依實務面(以最小群數解是最大的變異)、學習循環次數(速度越快越佳)、PMSE值(愈小愈佳)之三項指標綜合考量;期評估結果以C=4較佳(如表4.、圖4.所示);其學習循環次數達52,000次時,RMSE值則達到0.0085的穩定狀態,不再發生變動。詳細參數設定及實驗結果如下表三和圖二所示:

表三、 參數設定表

設定架構設定單位
初始設定
(1) 輸入層此層有6個輸入運算元
(2) 輸出層此層有1個輸出運算元
(3) 起始設定隱藏層處理單元數為1個
網路學習法則指數法則(Exponential)
轉換函數Exponential

圖二 四群分類圖

運用SOM進行專利資料分群,分群結果以四群最佳,我們利用法律地位來做為依變數加以分析,使用法律地位的專利的交易與訴訟次數來判別0~1為低價值專利,2~3為中低價值專利,4~10為中高價值專利,11以上為高價值專利。

在1105筆資料中,第一分群資料共有519筆專利資料其中包含69筆高價值專利資料、86筆中高價值專利資料、216筆中低價值專利資料、148筆低價值專利資料,第二分群資料共有368筆專利資料其中包含89筆高價值專利資料、58筆中高價值專利資料、110筆中低價值專利資料、111筆低價值專利資料,第三分群資料共有82筆專利資料其中包含38筆高價值專利資料、31筆中高價值專利資料、5筆中低價值專利資料、8筆低價值專利資料,第四分群資料共有136筆專利資料其中包含51筆高價值專利資料、54筆中高價值專利資料、25筆中低價值專利資料、6筆低價值專利資料。

由此可之以上的專利資料可定義第一分群為中低價值專利,第二分群為低價值專利,第三分群為高價值專利,第四分群為中高價值專利。進一步針對每一群體專利之價值,建構重要之迴歸分析式,結果如下:

(1) 中低價值專利預測式

Y1=-1.003+0.003X1+0.773X2-0.391X3-0.097X4-0.119X5+0.772X6有顯著性<0.05{VAR00001(天數)、VAR00002(現今世界專利分類數)、VAR00004(專利發明人人數)、VAR00006(引用非專利文獻數)、VAR00007(DWPI專利家族)}

在中低價值專利中,與天數、現今世界專利分類數、專利發明人人數、引用非專利文獻數、DWPI專利家族有顯著性,其他表示沒顯著性。這5個變數會影響到這個公式,影響性最高的。

(2) 低價值專利預測式

Y2=0.1022+0.005X1+0.475X2-0.442X3-0.079X4-0.104X5+0.324X6有顯著性<0.05{ (VAR00001(天數)、VAR00002(現今世界專利分類數)、VAR00006(引用非專利文獻數)、VAR00007(DWPI專利家族) }在低價值專利中,與天數、現今世界專利分類數、引用非專利文獻數、DWPI專利家族有顯著性,其他表示沒顯著性。這4個變數會影響到這個公式,影響性最高的。

(3) 高價值專利預測式

Y3=0.6440+0.000X1+0.271X2-0.927X3-0.282X4-0.003X5+0.224X6有顯著性<0.05{ VAR00004(專利發明人人數) }在中高價值專利中,與專利發明人人數有顯著性,其他表示沒顯著性。這1個變數會影響到這個公式,影響性最高的。

(4) 中高價值專利預測式

Y4=0.4466+0.001X1+1.828X2-1.557X3-0.421X4-0.059X5+0.265X6有顯著性<0.05{ VAR00002(現今世界專利分類數)、VAR00004(專利發明人人數)、VAR00005(合作分類號數目) }在中高價值專利中,與現今世界專利分類數、專利發明人人數、合作分類號數目有顯著性,其他表示沒顯著性。這3個變數會影響到這個公式,影響性最高的。

透過此一系列系統自動化之分析,本研究可以得知高價值專利,只有專利發明人人數有顯著性,其他表示沒顯著性;中高價值專利以引用非專利文獻號及專利家族性影響最大;中低價值專利影響較低;低價值專利受合作分類號數目及常數影響性較大。

四、結論

不同於傳統專利品質方法需要耗費大量人工工作經驗,也有可能需要花費大量時間由專家進行統整。本研究所使用之資料探勘判斷準則分析法可以快速針對大範圍群體之專利資料,運用資料探勘技術之SOM+集群分析及逐步迴歸技術快速將複雜的專利資料節選出重點相關之品質參數,並進一步運用判別分析法將研究之分群結果建立出迴歸預測式,且經過統計驗證,此一模式具有高度之效度。因此此一價值評估指標未來勢必可以大幅縮減判斷高價值專利之時間,並很快協助研究人員獲得其所需之經驗,快速評估其在此一領域之專利價值,從中找尋出重要評估準則,因此本研究勢必可以有效提升專利品質分析領域之穩定度,有效提升專利品質之判斷依據所需花費之經驗與時間。

至於本研究之標的AMOLED技術專利品質領域分析,所得到之結論中可以發現,AMOLED專利中,被系統分類為高價值及中高價值之專利,主要跟專利發明人數、世界專利分類數、合作專利分類數這三者指標息息相關,這分別代表了現階段在此領域之專利,被定義為高品質之專利,似乎都是較多專利發明人、專利分類數量較高,應用領域較廣之專利。因此未來再判斷評估此領域之專利時,建議研究者可以針對分類數量較多之專利(世界分類及合作分類),以及發明人較多之專利進行分析研究,未來似乎可以針對此類型之專利,進行更為廣泛之研究,作為判斷是否。

參考文獻

  1. Trappey, A. J. C., Trappey, C. V., Wu, C. Y. and Lin, C. L. 2012. A patent quality analysis for innovative technology and product development.Adv Eng Inform. 26, 26-34.
  2. Trappey, A. J. C., Trappey, C. V., Wu, C. Y. W., Fan, C. Y. and Lin, Y. L. 2013. Intelligent patent recommendation system for Innovative design collaboration.Journal of Network and Computer Applications. 36, 1441-1450.
  3. Shu-Hao Chang and Chin-Yuan Fan. (2015), Telematics Technology Development Forecasting: The Patent Analysis and Technology Life Cycle Perspective, Lecture Notes in Electrical Engineering 349, 149-158.
  4. 簡筱茹,兩階段群集分析法在員工離職傾向之預測分析研究,元智大學工業工程與管理學系碩士論文,2007年。