陳柏翰、曾昱翔、李龍豪。
In Proceedings of the 33th Conference on Computational Linguistics and Speech Processing (ROCLING’21).
Abstract
我們提出知識導入語言轉譯器模型架構,將弱監督層級資料視為知識來源,由其上下文推理並預測出被遮罩的焦點與面向,藉以捕獲相關領域知識。有鑒於當前缺乏公開的中文醫療問題多標籤分類資料集,因此我們從網路上蒐集醫療問題,屏且人工標記 1,814 則問句,橫跨 8 個問題類別:原由、疾病、檢驗、醫療資訊、營養補充、人物機構、症狀以及治療,標籤總數是 2,340,每則問題平均 1.29 個標籤。我們以百度醫學百科當作領域知識來源,比較 BERT 和 RoBERTa 兩個轉譯器的效能差異,實驗結果得知我們的知識導入機制,在不同評測指標 Macro F1、Micro F1、Weighted F1 及 Subset Accuracy 都能有效提升效能。