中研院資料科學研究所 (NLP)
5 min readMar 14, 2019
自然語言理解實驗室
Natural Language Understanding LAB (NLU LAB)
- 蘇克毅 研究員
- 研究專長: 機器翻譯、中文語言處理、自然語言理解
- 計畫: 智慧型問答系統、跨文件處理(知識處理)
A.藉由糅合領域知識的深度學習來建立機器閱讀理解系統,以國小數學應用文字題、社會科為兩種不同測試案例。
B.藉由完成三種不同領域相關機器閱讀系統,建立一個可通用的機器閱讀架構(總計畫),並負責子計畫:國小數學應用文字題、社會科之兩個領域的機器閱讀系統。
C.結合微觀與巨觀之跨與跨語言跨文件知識發掘(總計畫):
子計畫: 建立從單語多文件中發掘新知識之模型及系統。與台大陳信希老師、本所古倫維老師與成大李政德老師的實驗室合作。
D. 從網路資料產生及時個人/公司簡介(合作計畫),並負責對話系統及跨文件處理部分。與本所的古倫維老師及馬偉雲老師合作。 - 不推崇參數式深度學習進行自然語言處理,而是以結合領域知識的深度學習作為研究方向與目標。機器學習是電腦從大量數據中習得一套規則,使未來數據走向最符合此規則的規範,屬於歸納學習法;人類學習是盡可能從少量數據中推論出全貌,以舉一反三的方式學習,屬於演繹學習法。兩者最顯著的差別在於機器學習是由外至內,邊界為資料本身;人類學習是由內至外,邊界是無窮的。當具備前人累積的領域知識,進而演繹至不同事例上的深度學習,比起參數式深度學習來說,除了在最佳化的過程中,能夠更快速對症下藥於關鍵錯誤上,不落得盲目調整參數的下場之外,在模型表現上亦能夠大幅提升。
- 領域知識與深度學習的三個層面與目的:
A. 使用領域概念/知識 (domain concept/knowledge),數學科
B. 利用世界知識/常識 (real world knowledge/common sense),社會科
C. 推論 (inference),自然科
D. 在結合深度學習,從三個切入點來提高電腦的語言理解能力後,就能將非結構化的文字資訊轉換為結構化的知識庫(knowledge base),下一步就可結合跨文件處理技術,做更多知識處理的應用。 - 領域知識與深度學習的結合作法:
A. 對輸入的文字做前處理
B. 在深度學習中加入眾所皆知的高階抽象特徵
C. 將類神經網路視為元件整合進原本系統流程中
D. 參考人類推論模式來建立深度學習架構
E. 將領域知識所蘊含的偏好(preference)加入深度學習的訓練過程中
F. 將領域知識預先儲存於記憶網路(memory network)中
G. 同時訓練領域知識的表達式(domain knowledge representation)與類神經網路架構
中文詞知識庫小組
Chinese Knowledge and Information Processing (CKIP)
- 馬偉雲 助研究員
- 研究專長: 自然語言處理、自然語言理解、機器翻譯
- 計畫:
A. 具推薦功能的聊天機器人: 新聞聊天機器人,與Line合作。
B. 不限主題的閒聊機器人: - 專有名詞辨識 / 實體辨識 (Named Entity Recognition, NER):
A. 語料蒐集。
B. 中文字詞轉成向量表達(word2vec)。
C. CKIP 中文斷詞系統和中文剖析系統擷取語法語義特徵。
D. 深度遞迴類神經網路模型,預測實體位置語類別。 - 指代消解 (Coreference Resolution):
A. 中文分詞程式中,多半討論分詞歧義的問題,較少討論unseen 詞彙的問題。如何解決unseen詞彙的分詞問題呢? 一般以高頻出現的關鍵字作為分詞依據。
B. 指式代名詞會使專有名詞的出現頻率降低,因而造成誤判的狀況。
C. 透過指代消解的處理,可以將被替換過的字詞還原成原有的意思,以提高權重計算的次數,增加檢索的正確性。 - 輿情分析系統
- 聊天機器人
自然語言處理與情感分析實驗室
Natural Language Processing and Sentiment Analysis Lab (NLPSA)
- 古倫維 副研究員
- 研究專長: 自然語言處理、計算語言學、資料檢索、情感分析、意見挖掘
- 計畫:
A. 語義標籤(Semantic Role Labeling) for 中英文