數位典藏新價值:第一屆科技大擂台賽事「AI語音大數據」建置梗概
AI正加速改變全球產業、經濟與社會生活發展型態,為加速我國語音AI技術突破,科技部釋出AI基礎建設之一的語音大數據。
一、科技部釋出免費「AI語音大數據」
不可否認地,人工智慧(AI)正加速改變全球產業、經濟與社會生活發展型態,為搶佔先機,科技部自2017年推出「科技大擂台:與AI對話」,目的是運用高額獎勵賽的模式吸引高手齊聚,共同加速開發中文語音對話的核心技術,齊力突破技術瓶頸,提升人民福祉。2019年3月第一屆決賽落幕,期間競賽依照題型難度分為初賽、複賽、決賽等,每階段競賽主辦單位都會釋出1,000至4,000題不等的測試資料,第一屆正式賽賽事總計約有15,000題選擇題,在比賽後重新整理且除錯之後,於2019年6月在國家實驗研究院高速網路與計算中心資料集平台(NCHC DATA MARKET)上架,此數據集公開釋出後,可讓我國企業、學研界免費取得授權,用於技術研發以提升台灣產業競爭力。語音大數據被視為AI基礎建設之一,隨著新賽事的進行,未來釋出的「AI語音大數據」數量可望持續擴大,內容形式與知識領域也日趨多元化。
企業導入AI技術有助提升企業競爭力,因此許多科技公司都搶著開發AI技術,以便盡早提供企業新管理工具,強化生產力(天下雜誌,2019)。然而,一般而言,若一家公司的資料集是散亂、無統一格式的非結構化資料,則需先雇用人力蒐集、分析、清理所需的資料集,完成標註之後,才能著手發展AI技術,如此一來,可以想像這個過程不僅所費不貲、曠日費時,人力也難免發生錯誤,構成許多企業跨入AI的一大門檻。而雪上加霜的是,全球與使用者有關的數位資訊多半掌握在雲端巨擘手中,資料量數量越龐大越多元,AI技術就越容易有突破性的進展,換言之,技術後進者要突破技術重圍,還需要先克服「資料霸權」的嚴峻議題(陳杰翰、莊坤達,2019)。
科技部釋出的「AI語音大數據」之所以獲得眾多關注,正是因為高品質的語音數據集有助大幅節省公司的人力和時間,降低開發語音AI技術的門檻,讓企業、學研界專注於技術端的開發。首次釋出的15,000題選擇題中,包含不同辨識難度(例如有無環境音干擾)與不同理解難度的題型,內容包括新聞時事、台灣民情、經典文學等等,期望藉由高品質的語音資料集吸引更多企業、學研機構齊力投入,共同推動我國語音AI技術躍進,協助台灣企業進行數位轉型。
二、設定挑戰目標及規劃數據資料
對話是人機互動最直覺的方式,像是Siri這類任務型的語音智慧助理將人機對話場景帶入日常生活,無疑是近年行動裝置普及後,最令人興奮的進展之一。「科技大擂台:與AI對話」的宏遠目標是打造與台灣在地民眾溝通無礙的對話機器人,這個難度比完成指定任務的語音助理更困難,除了AI要聽得懂台灣在地腔調,並且理解對話內容的意涵之外,還得用台灣人聽得懂的方式表達出來。
為了讓民眾認識我國語音AI目前的程度,參考國外其它AI競賽,以及未來要挑戰的難度,科技部將競賽目標設定為挑戰「華語文能力測驗」 (Test of Chinese as Foreign Language, TOCFL)的「流利精通級」。TOCFL是我國專為母語非華語人士所設立的華語文能力標準化測驗,分為四等八級,四等分別為準備級、入門基礎級(Band A)、進階高階級(Band B)及流利精通級(Band C),而每一等又可再細分為兩級,分別為準備級一級、準備級二級、入門級、基礎級、進階級、高階級、流利級、精通級,共八級。網路流傳韓星少女時代潤娥的中文能力是漢語水平考試十級(約是新漢語水平考試六級),表示能夠掌握5,000個以上常用語詞,而「華語文能力測驗」的精通級比新漢語水平考試六級更難,需要掌握8,000個以上常用詞彙,可見這是一個大挑戰。
在樹立挑戰目標之後,另一個關鍵的AI基礎工程,即是建置競賽語音資料庫。人工智慧的討論存在已久,近年來新一波人工智慧的浪潮,來自於「深度學習」的進展,這類技術的程式模型訓練與資料集之間息息相關。為了執行不同的任務,往往需要建立不同的資料集,以便訓練、驗證、測試AI。例如,機器閱讀理解領域最知名的測試SQuAD(Stanford Question Answering Dataset)就選取超過 500 篇的維基百科文章,做了一個包含十萬個問題的大規模機器閱讀理解數據集,讓AI閱讀這些文章之後,再去回答問題。許多一流大公司,如Google,Facebook,IBM,微軟等,都曾利用這個資料集相互切磋較勁,比方說阿里巴巴的AI在2018年刷新排行榜,創下歷史上首次超越人類成績的里程碑,並將該技術應用於電商平台客服,在當時引發科技界熱議(陳曉莉,2019)。
如前所述,不同的資料集可以訓練AI執行不同的任務,SQuAD採用文字的形式訓練AI閱讀理解的能力,僅有文字沒有語音,而此次競賽為了測試AI是否理解台灣人的對話內容,包括語音與文字內容,所以除了華測會已對外公開的官方題庫之外,主辦單位亦同步建立語音資料庫,題型包含選擇與問答兩種題型,考驗機器是否能夠通過語音辨識加上語意理解的雙重關卡。在語意內容方面,有別於SQuAD取材自維基百科,科技大擂台的題庫內容包含警廣新聞節目,科技部的數位資料典藏,如科學發展雜誌、新作坊,現代小說、古典小說白話版,以及部分來自大學高中的眾籌內容。希望藉此可以打造出熟悉在地用語、自然和社會科學知識領域均有涉獵的數據資料集。
三、收集語料的限制與瓶頸
行文至此,許多人不禁好奇,什麼樣的數據資料適合做為機器訓練之用,而又為什麼數據資料庫的建立如此困難,在管理上又會遇上什麼瓶頸。
實際上,只要同時具備聲音與文字的電子檔案,都有成為語料的潛力。因此,廣播節目、電視節目、有聲書籍、網路平台上的短片等,都是相當理想的來源。以廣播節目為例,將節目內容去除音樂,把人聲轉成逐字稿後,以人工方式校正錯字或編碼時間,接著針對文字內容進行機器可讀的標注,如:分割句子、標明詞性、分詞命名識別等,便可製成語音大數據庫。這樣的資料庫不但能為我國語音辨識及人工智慧、華語教學領域奠定基礎,更可以提升數位典藏節目的價值(蔡玉秀、廖元甫,2019)。
另一方面,建置語音大數據庫的瓶頸,與個人資訊保護及版權所有息息相關。作為公開比賽所用的數據集,合法性是不可忽視的一環。
近年來,個資保護意識蓬勃,因此在建置語音數據庫的時候,數據處理者必須清楚地披露任何數據收集,聲明數據處理的合法基礎和目的。然而,許多節目在錄製之初個資法尚未出現,或是錄完後已經難以一一向所有參與者補足相關的使用同意文件,導致數據資料集即便辛苦整理完成,也僅限用於教學或是研發目的,產業難以進一步授權回去進行商業使用,造成語音大數據庫的綜效無法大力發揮。警察廣播電台為了支持科技部發展人工智慧,提供旗下記者所產製的新聞內容,響應語音大數據庫的建置。
除了個人資訊保護之外,內容版權是另一個難題。如從數位化角度出發,能夠提供巨量且多元資料來源的,無非是網路的數位內容。網路語料是人們利用網路交流的產物,同時也是真實語言的反映,最貼近民眾的日常生活。不難想像,許多實驗室可能會運用大量Youtube的影音內容來訓練AI。但是網路上的內容,常出現版權所有者不清、版權費用高昂、文本內容缺乏結構、話題雜亂等分類篩選等問題。因此,主辦單位運用科技部的數位典藏,如科學發展、人文創新與社會實踐計畫的新作坊等,不但讓主題聚焦,也讓數位資料有全新的運用價值。
第一屆賽事的里程碑賽頻繁,在極有限的時間及資源之下,若無教育部和內政部警政署的大力協助,難以順利推動語音大數據庫的建置。這項任務需要大量的溝通協調,艱難程度不亞於比賽本身,能夠完成這樣的階段性任務十分可貴,也為跨部會合作立下典範。
四、AI,不只是資訊部門的工作
筆者認為跨部門或是跨部會的協調合作,需要建立在擁有共同的知識背景、慣用詞彙之上,才能運作順暢且永續循環。過去,與資訊科技相關的事務,常常被視為資訊部門的事,與其他單位無關,沒有相互往來的必要。這樣的思維容易導致溝通障礙,上令不能下達,進而影響組織齊心齊力推動AI化的進度。隨著資訊科技越來越重要,十二年國教課綱已經將編寫程式列入,未來學生在校即可透過課程,培養邏輯思考與運算思維能力,即便未來沒有從事資訊相關行業,也具備一定程度的溝通能力,理解科技趨勢的變化。