運用機器學習技術探討車聯網產業之高品質專利特徵
機器學習近年來逐漸成為各國重點發展之指標,越來越多之相關演算法技術應用於解決相關實務問題之上;透過一系列解決實務問題,機器學習技術不再僅僅是單純在研究階層,現階段藉由研究人員之應用,機器學習技術已經逐漸成為實務技術之重點研究方向,並成為新的顯學。有鑑於此,本研究嘗試運用機器學習技術(迴歸類神經)技術,進一步檢視專利品質相關題並進一步針對專利品質相關指標,做出適當之解釋,透過本研究之系統運用,有效將車聯網領域近10年之專利分為四個群體,並進一步透過此四群體,建構相關之迴歸式,藉此對未來之相關領域做出適當之判斷,期望藉由此一系列之研究,有效判斷車聯網領域之高價值專利,找出重要之關鍵準則。
著作權聲明: 姓名標示
一、前言
機器學習近年來逐漸成為各國重點發展之指標,越來越多之相關演算法技術應用於解決相關實務問題之上;透過一系列解決實務問題,機器學習技術不再僅僅是單純在研究階層,現階段藉由研究人員之應用,機器學習技術已經逐漸成為實務技術之重點研究方向,並成為新的顯學。現階段機器學習技術已經逐漸從輔助人類進行決策之角度,轉變成可替代人類做出最佳之決策之方法。這樣的轉變對於許多以往需要耗費較多較多工時之工作,將有顯著性的改變;為此,甚至可以提出不同於以往之見解,有效幫助研究學者及操作人員從不同之觀點,看待此一問題。
有鑑於此,本研究嘗試運用機器學習技術搭配迴歸類神經技術,進一步檢視專利品質相關議題;以往針對專利品質之判斷,多半運用專家之視角,針對專利品質相關指標,做出適當之解釋,但專家視角及判斷領域需要花費非常多之時間,並且耗費更多人力成本,而機器學習將可以有效縮減此類判讀時間,並減少判斷成本。這對於轉變快速及新近發展之高科技領域,將更有助益。畢竟如果可以快速針對重點產業狀況進行專利品質判斷,將更可以有效對研發人員及相關專利人員有更大之助益,並進一步協助研發人員快速掌握對手之技術布局策略,進一步思考出具有特點之技術布局狀況。
為了驗證機器學習在專利品質應用之特性,本研究特別選擇變動快速之車聯網產業作為範例,透過機器學習技術之幫助,有效針對車聯網領域影響專利品質之重點相關指標進行分析,並進一步針對重點專利進行分析,藉此找出此一產業高品質專利所擁有之模式,提供研究人員進行參考。
二、文獻探討
專利品質長久以來一直是研究人員重視的重點,如何有效提升專利品質至為關鍵,現階段專利品質評估標準,多半是運用專利相關指標或相關法律訴訟相關經驗作為判斷,這部分主要偏重於傳統之分析方式,在傳統專利相關指標分析部分,主要之研究學者包含Beaudry & Schiffauerova(2011)運用社群網路針對作者之共著狀況進行統整、Squicciarini et al.(OECD) (2013)運用專利家族,專利引用及被引用狀況、專利經濟體、專利宣告項、專利發明人等眾多因素,並進一步根據其穩定度綜整成一指標,進行相關專利品質之分析,至於Schettino et al.(2013)則是透過專利發明人之思考方向,進一步針對專利發明人之專利撰寫品質,進行深度之評斷、Park & Heo (2013)則是針對專利指標,搭配產品生命週期進行分析,並進一步針對相關專利進行分析、Michele Grimaldi (2015)則是進一步運用專利相關指標,包含引用、專利家族、專利發明人、專利年齡等研究進行分析,並進一步從中找出策略規劃之方向。從上述分析方式中,可發現其主要之運用仍是以相關重點指標進行統整,這類型指標不外乎是專利引用狀況(不論是專利後引,或是前引)亦或是專利家族狀況、專利權利項數目及專利發明人狀況,這類型指標普遍代表專利所顯示出之外在訊息,透個這類型外在訊息,將可以快速針對專利之相關狀況進行統整,並針對其品質做出一概略之分析,從中解決專利相關之狀況,運用指標分析可說是最為普遍,也最容易使用之專利品質評估基準。
除了指標分析之外,另一部分則是針對專利法務狀態進行評估,專利法務狀態可說是現階段另一個評估專利品質之顯學,包含Dietmar Harhoff (2003)、Cremers(2004)、Allison et al.(2004,2009,2011)均針對法務狀態之狀況,評估專利之品質。不過此三位學者之作法並不相同,Dietmar Harhoff (2003)主要將專利訴訟之狀況視之為另一項影響專利品質之變數,主要觀察重點專利訴訟,給予其在相關專利品質模式之加權的狀況。至於Cremers(2004)則從實際研究德國專利訴訟案例1993-1995年之狀況,進一步分析出高品質專利之可行性。Allison et al.(2004,2009,2011)則主要在其研究中,藉由專利訴訟過程之變數,思考其對於專利品質之影響性,透過此五篇文章,可發覺專利法務狀態,包含專利是否被訴訟,專利繳費狀況,以及專利整體之維護情形可說是另外一種判斷基準,透過此一類型判斷基準也是判斷專利品質之另一層重點。
前述之專利品質判斷基準可說是現階段運用之核心,主要即是運用專利指標及專利法務進行判斷,不過判斷模型基本上仍是以傳統之經濟模型及數量模式進行協助,此類模型不論是判斷時間及判斷狀況均較機器學習技術花費更多之時間,機器學習技術中最具代表性的主要是以類神經網路為主,類神經網路主要發展於1945年,當時是由McCulloch, Warren S.; Pitts, Walter參位學者所發展出來,早期的類神經網路非常原始,主要是作為解釋人類神經相關之狀況,之後Rochester, N.; Holland, J.; Haibt, L.; Duda, W.(1956)創造了感知機網路才有了較為顯著的突破,感知機網路主要是一種模式識別算法,用簡單的加減法實現了兩層的計算機學習。但真正發展仍是在Paul Werbos(1975)創造了倒傳遞網路,才使得此一系統較為成熟。
現階段類神經網路在強大之網路及運算系統上,發展更為快速,這類型發展將更適合應用於處理高複雜,甚至是高強度之判斷,本篇研究將採用混合式類神經網路,有效提升專利品質判斷之能量,並進一步針對車聯網產業相關重點專利進行判斷。
三、研究方法
如前所述,為了節省大量之資料判讀時間,本研究將運用混合式類神經網路針對車聯網專利狀況,進行相關之專利判讀,並依此找出相對應之高品質專利。
本研究之研究流程如下
(一)車聯網相關專利搜尋
近年來車聯網發展逐漸成為一重點產業關鍵,現階段車聯網領域之主要發展方向是以”自動駕駛部分”作為其發展主流,為了達到此一目標,智慧車輛勢必不單單僅只有單獨之自我駕駛系統,更進一步需考量車子與相關系統間之連結狀況,因此包含車子與車輛間之共同之關係,車子與交通設備間之共同關係,車子與行人之間之共同關係、車輛對雲端(資料庫)之間的資訊交流、車輛與家庭(智慧家庭設備)相關的交流及車輛對手持裝置設備之交流,都必須考量進去。而這一切考量之狀況,簡稱V2X,V2X意謂著車輛與一切相關設備之交流,在此X 意味著everything,在這個概念下,這代表智慧車輛將成為一個整體系統之媒介,此一系統媒介將可以有效連結現有之各種交通及智慧生活可能性,並進一步協助對整體車輛、家電、網路、半導體、甚至交通運輸產業帶來革命並進一步進行升級,為此,本研究特別針對上述相關發展,進行重點專利搜尋 ,本研究主要鎖定在全球重點資料庫,主要運用Thomson Innovation 專利資料搜尋工具,鎖定美國專利局進行專利搜尋,其中主要搜尋關鍵字除了包含各類型車聯網常用之分析詞之外,更加入智慧車及現行輔助駕駛系統相關之詞彙,進一步將相關詞彙整理如下:
表1 專利搜尋關鍵字詞
關鍵字詞彙 | 關鍵字詞彙定義 |
車聯網技術相關 | |
V2X (Vehicle To Everything) | 車輛與各類規格標準之連結 |
V2V(Vehicle to Vehicle), | 車輛與車輛間之連結 |
VANET(Vehicular ad hoc network) | 車輛連結網路 |
V2P (Vehicle to Pedestrian), | 車輛與行人間之連結和交流 |
V2I (Vehicle to Infrastructure), | 車輛與交通設備間資訊交流 |
V2C (Vehicle to Cloud) | 車輛與雲端設備之交流 |
V2H (Vehicle to Home) | 車與家庭相關的交流 |
M2M(Machine to Machine) | 物聯網與機器 |
車載通訊系統 | |
Automotive navigation system | 自動導航系統 |
WAVE, Wireless access for vehicular environment | 車用環境無線存取技術 |
Fleet telematics system | 車隊車載資通訊系統 |
Intelligent vehicle technologies | 智慧車輛科技 |
DSRC, Dedicated short-range communications | 專用短程通訊 |
IVI , In-vehicle information system | 車載資訊娛樂系統 |
駕駛輔助系統 | |
ADAS (Advanced Driver Assistance System) | 先進駕駛輔助系統,主要功能是提供駕駛人目前汽車狀況、行車環境以及預先警告有可能發生的危險或意外,目的是讓駕駛人在“意外發生前”提早採取因應措施。 |
Parking Assist(Aid) System、Backup parking aid system | 停車輔助系統、支持型停車輔助系統 |
Night vision system | 夜視系統 |
LWDS, Lane departure warning system | 偏離車道警示系統 |
Blind spot detection system | 盲點偵測系統 |
AFS, Adaptive front-lighting system) | 適路性車燈系統 |
ACC, Adaptive cruise control | 主動車距控制巡航系統 |
CMS, Collision mitigation system | 緩解撞擊煞車系統 |
TPMS, Tire-pressure monitoring system | 胎壓偵測系統 |
確定相關專利關鍵字之後,本報告進一步針對專利搜尋範圍及搜尋時間做出整理,主要搜尋近10年(2005-2016)已核准之專利,並以 美國專利局 作為搜尋主角,搜尋範圍包含標題、摘要、權利項中有出現此一系列關鍵字為主之專利進行搜尋,經過分析,共計有11,335筆專利,扣掉INPADOC專利家族(相近專利家族,代表內容有技術上重複,這部分INPADOC會將其中最具有代表性的一筆算出來,做為參考。),最後本研究共計保留4,613筆專利進行分析,此4,613筆專利將作為此次分析之主要判斷準則。
進一步針對上述需求完整專利資料彙整其相關重點專利指標,重點專利指標概述如表2:
表2 重點關鍵專利指標
指標名稱 | 指標定義 |
專利宣告項數 | 專利宣告項(claims)主要針對專利之技術相關進行敘述,原則上越多宣告代表專利創新部分越多 |
專利擁有權人數 | 專利擁有權人數(assignee counts),主要針對專利之所有權人進行計算,原則上專利所有權人數越多,代表專利越屬於共同發明 |
專利發明人數 | 專利發明人數(inventor counts)專利發明人是指發明家,原則上專利發明人越多,代表越多發明家共同發明。 |
專利申請到核准天數 | 這代表專利由申請到核准所經歷之天數,天數越短代表專利越快被核准 |
專利優先權到核准天數 | 這代表專利由優先權日到專利核准所經歷之天數,專利優先權代表這筆專利最早申請地之時間,時間越長代表專利所經歷之保護越多 |
被引用數 | 專利被引用狀況 |
引用數 | 專利引用其他專利數 |
非專利引用數 | 專利引用其他參考專利之數目 |
專利家族數 | 這部分針對專利家族狀況,提出分析 |
專利家族國家數 | 針對專利家族國家,提出分析 |
專利法務事件數 | 針對專利法務事件發生之次數進行分析,法務事件包含繳交管理費、被訴訟、專利權人轉讓等狀況 |
藉由上述相關之專利指標統整,將影響專利品質之重點參數擷取出來,進一步針對最為重點之參數,也就是專利法務事件發生次數作為主要之判斷參數,而後運用第2步研究流程,進行分析
(二)重點參數篩選
此部分運用逐步迴歸模型,針對上述重點參數進行分析,逐步迴歸模型主要是逐以t值(及其顯著水準α值)作為決定是否挑選某個自變項的參考指標,如果某個自變項迴歸係數的|t|考驗值大於查表的理論t值(或說其值已達α的顯著水準)時,電腦便自動決定要挑選該自變項進入迴歸方程式中,若未達顯著水準的標準時,則電腦會自動排除該自變項於迴歸方程式之外。在此針對11項指標進行分析,進一步保留可資運用之指標,做為下一步判斷式之運用條件。
(三)模式分析
在完成模式運算後,本研究進一步運用機器學習模式,針對相關之資料集進行分群,並透過分群了解其最佳狀況,此研究選用自組織映射圖網路SOM(Self-Organizing Maps/Kohonen map, 自組織映射圖)作為主要之研究工具,自組織映射圖網路SOM是一種分群演算法(非監督式演算法),屬於類神經一類。與其他分群演算法的最大不同在於,SOM有一個拓樸空間(Topological map),此拓樸圖用來表達每個輸出值(output/cluster)的分布狀況。因此,SOM可透過視覺化的低維度空間來表達原本的高維度空間的資料,視覺化後的結果亦能有效說明分群後的結果。
本研究在資料處理之後,將進一步運用自組織映射圖網路法鑑定車聯網資料之分群效果,並進一步搭配專業研究人員之判斷,從中將判斷專利分類結果進行細部分析,並進一步針對判斷結果概述,做出適當之結論。
(四)品質判斷模式建構
當上述模式之建構達到穩定之後,每一筆專利都被模型到相對應之品質類別,進一步針對每一群體之專利,建構相對等之迴規判斷式,透過回規判斷式,進一步將每一群體之專利實際成果進行判斷,並透過此一模式進行分析,將每一群體之指標及其相關之權重進行統整,以協助專家進行判讀。
(五)車聯網領域品質專利分析狀況
確定建構完模式之後,進一步針對車聯網品質相關模式進行分析,並針對分析狀況搭配研究成果,進行結論概述,並思考可能性之分析。
四、實驗結果
本研究運用自組織映射圖網路SOM(Self-Organizing Maps)針對車聯網相關專利進行分群,藉此找尋出最佳之分群狀況,進一步從中思考最佳分群所代表之定義,並透過實驗結果,進行分析。
本研究首先針對車聯網相關專利資料進行逐步迴歸分析,並進一步針對此11種指標進行分析,從中找尋出影響力最為關鍵之重要指標,擷取進行分析。
透過逐步迴歸之運用,本研究進一步針對相關領域專利進行重點分析,本研究主要選用Inpadoc legal status作為主要之因變項,而其他變數作為自變項,這麼選擇之目的是在於 Inpadoc legal status將可以有效針對專利之整體狀況,包含專利之繳費狀況,專利轉讓狀況,專利移轉狀況及專利訴訟狀況作出完整之整理,此一資料可說是對專利整體品質表現最佳之定義。確定選定因變數及自變數後,本計畫進一步運用迴歸分析針對狀況進行統整,相關詳細資料可參考下圖表3。
表3 迴歸分析相關變數
模型 | 平方和 | 自由度 | 均方 | F | 顯著性 |
迴歸 殘差 總計 |
106.530 37895.759 38002.289 |
1 4549 4550 |
106.530 8.331 |
12.788 | 0.000b |
迴歸 殘差 總計 |
2676.433 35325.856 38002.289 |
2 4548 4550 |
1338.217 7.767 |
172.288 | 0.000c |
迴歸 殘差 總計 |
2892.942 35109.347 38002.289 |
3 4547 4550 |
964.314 7.721 |
124.888 | 0.000d |
迴歸 殘差 總計 |
3078.283 34924.006 38002.289 |
4 4546 4550 |
769.571 7.682 |
100.174 | 0.000e |
迴歸 殘差 總計 |
3117.141 34885.148 38002.289 |
5 4545 4550 |
623.428 7.627 |
81.223 | 0.000f |
a 應變數 INPADOC LEGAL STATUS COUNT
b 解釋變數:(常數) ,INVENTOR COUNT
c 解釋變數:(常數) ,INVENTOR COUNT,APP-PUB, DATE BY DAY-NORMAL
d解釋變數:(常數) ,INVENTOR COUNT,APP-PUB, DATE BY DAY-NORMAL,PUB-EARLIEST PRIOR-BY DAY NORMAL
e解釋變數:(常數) ,INVENTOR COUNT,APP-PUB, DATE BY DAY-NORMAL,PUB-EARLIEST PRIOR-BY DAY NORMAL,count of citing patents
f解釋變數:(常數) ,INVENTOR COUNT,APP-PUB, DATE BY DAY-NORMAL,PUB-EARLIEST PRIOR-BY DAY NORMAL,count of citing patents,DWPI COUNT OF FAMILYCOUNTRIES
透過表3之分析,可發現在最後階段,總計保留出六個變數,此六個變數分別為INVENTOR COUNT(專利發明人數)、APP-PUB(專利申請到核准天數)、 DATE BY DAY-NORMAL(專利申請到核准天數正規化)、PUB-EARLIEST PRIOR-BY DAY NORMAL(專利優先權到核准天數正規化)、count of citing patents(被引用數)、,DWPI COUNT OF FAMILYCOUNTRIES(專利家族國家數),本研究將進一步統整此五個變數,並針對此五個變數進行系列之SOM分群,從中找出最佳之分群數。
藉由一系列之SOM分群,可發現當分群數達到第四群時,整體資料之顯著性最佳,這代表此一研究中,可以運用四個分群作為判斷重點指標之判斷依據,此四個分群依照專家之判讀,分別定義為高價值專利、中高價值專利、中低價值專利、中低價值專利,並進一步透過研究分群,針對重點專利之布局狀況,進行了解與整理。
進一步針對分群之狀況專利進行觀察,透過表5可發覺此四個群體中,以第四個群體之專利數量占最多數,第四個群體之主要共有1,787篇專利,透過表5之觀察,第四個群體在 inpadoc legal status 部分表現平均狀況較差,其平均數狀況最不理想,因此在本研究中被定義為較差之專利品質,至於第三個群體主要平均數狀況較為理想,且平均值最高,因此被定義為高價值之專利,至於第二個群體之平均值狀況較第一個群體來得高,因此第二個群體被定義為中低品質專利,至於第三個群體則為792筆專利,此792筆專利被定義為高價值專利,第一個群體及第二個群體分別為低價值專利及中低價值專利,群體內部之分析狀況可以參照表5所示。
本數據現階段知收斂狀況仍有待加強,主要原因在於現階段所選之數據量仍較少,未來將持續增加專利數量之選取,並進一步加強數據之篩選。
藉由表5,可發現分群結果部分,透過上述資料,可發現在分群結果中各組專利之分布狀況,進一步將各類型專利透過迴歸分析進行細部分析,藉由迴歸分析,進一步思考各專利組群之內部分布狀況,從中針對相關之專利組群進行分析,並思考其整體相關性,從中找尋最相關之布局狀況。
進一步由分群結果進行判斷,第一群之迴歸預測式為
y1=7.694-0.001x 1 +0.119x 2 +4.069x 3 -4.858x 4 +0.005x 5 -0.048x 6
第二群之迴歸預測式為
y2=8.326+0.136x 1 +0.205x 2 +7.181x 3 -5.569x 4 +0.14x 5 -1.84x 6
第三群之迴歸預測式為
y3=2.466+0.365x 1 +0.232x 2 +1.427x 3 -4.611x 4 +0.04x 5 -0.032x 6
第四群迴歸預測式為
y4=0.789+0.069x 1 +0.09x 2 +4.084x 3 -0.558x 4 +0.007x 5 -0.032x 6
透過上述分析,可發現在此四個群體中,專利家族國家數及專利優先權到核准天數這兩個指標(編號分別為x4及x6)均呈現負相關,至於其他變數之值大約呈現正相關,透過此一系列之迴歸預測式,將可以有效針對未來專利之品質狀況進行相關之統整,並進一步從中找到適合之預測樣貌,而此一公式也可針對不同類型之專利,分別進行鑑定,進一步從中判斷專利之屬性,針對不同品質之專利進行預測
五、結論
車聯網產業之變動性遠遠大於一般產業,而其專利之複雜度及廣度更牽涉到不同之領域別,嚴格說來包含資訊產業、通訊產業、機械產業、物聯網各領域都跟車聯網息息相關,這代表車聯網產業其實基本上就是一統合之未來聯網產業之代表,因此車聯網產業之專利表現與未來之物聯網產業息息相關。
透過本研究之論述,可發現基本上現階段車聯網產業中,專利之品質與六項指標,包含專利發明人數、專利申請到核准天數、專利優先權到核准天數、專利被引用數、專利家族國家數這六項息息相關,因此未來評估車聯網相關專利時,這六項指標之表現勢必可說是最為值得追蹤的重點,藉由這六項分析重點,將可以幫助我們進一步針對相類似之產業專利過濾出較為重要之重點專利,這也可以協助我們針對車聯網相關之領域較為重點之專利,進行更為詳盡之分析。未來更可進一步針對迴歸式之斜率,針對不同狀況之專利,進行分析與評估。
本研究所提之模式,可說是擷取近10年來之車聯網相關專利進行分析,因此受限於資料形態研究限制為近10年來之專利狀況,研究產業現階段也僅限制於車聯網產業,未來可將此一系列模式拓展至其他相關領域,抑或進一步思考運用其他統計模式驗證此一預測模式之準確性。