基於圖神經網路之中文健康照護命名實體辨識

盧毅、李龍豪。

中文計算語言學期刊 (IJCLCLP),25(2),21-36。


摘要

命名實體辨識任務的目標是從非結構化的輸入文本中,抽取出關注的命名實體, 例如:人名、地名、組織名、日期、時間等專有名詞,擷取的命名實體,可以 做為關係擷取、事件偵測與追蹤、知識圖譜建置、問答系統等應用的基礎。機 器學習的方法將其視為序列標註問題,透過大規模語料學習標註模型,對句子 的各個字元位置進行標註。我們提出一個門控圖序列神經網路 (Gated Graph Sequence Neural Networks, GGSNN) 模型,用於中文健康照護領域命名實體辨 識,我們整合詞嵌入以及部首嵌入的資訊,建構多重嵌入的字嵌入向量,藉由 調適門控圖序列神經網路,融入已知字典中的命名實體資訊,然後銜接雙向長 短期記憶類神經網路與條件隨機場域,對中文句子中的字元序列標註。我們透 過網路爬蟲蒐集健康照護相關內容的網路文章以及醫療問答紀錄,然後隨機抽 取中文句子做人工斷詞與命名實體標記,句子總數為 30,692 句 (約 150 萬字 /91.7 萬詞),共有 68,460 命名實體,包含 10 個命名實體種類:人體、症狀、 醫療器材、檢驗、化學物質、疾病、藥品、營養品、治療與時間。藉由實驗結 果與錯誤分析得知,我們提出的模型達到最好的 F1-score 75.69%,比相關研究 模型 (BiLSTM-CRF,Lattice,Gazetteers以及ME-CNER)表現好,且為效能與效 率兼具的中文健康照護命名實體辨識方法。