運用響應式知識蒸餾機制增進中文多標籤文本分類效能

黃思齊、曹程富、廖柏勛、李龍豪 、李柏磊、徐國鎧。

In Proceedings of the 34th Conference on Computational Linguistics and Speech Processing (ROCLING’22), pages 25-31.


摘要

資料類別不平衡存在長尾標籤問題, 單獨的多標籤分類模型一次預測所有 類別,針對個別標籤的最佳化十分困 難,對於出現次數較少的長尾標籤效 能通常不佳。本論文提出一種響應式 知識蒸餾機制,將多個最佳化的二元 模型作為教師網路,單一多標籤模型 做為學生網路,改善多標籤模型在非 平衡標籤的資料集分類效能。實驗資 料來自 2,724 個中文健康照護文本,人 工標記文章內容橫跨 9 個類別, 總共 標籤數量是 8,731,平均每個樣本有 3.2 個標籤。實驗設定採用 5 折交互驗證, 比較 TextRNN、TextCNN、HAN 和 GRU-att 模型,使用知識蒸餾機制與否 的效能差異,結果顯示透過知識蒸餾 機制能夠顯著提升單一多標籤分類模 型的 micro-F1 約 2 至 3 %、macro-F1 約 4至6 %、weighted-F1約3至4 %,以 及 subset accuracy 約 1 至 2 %。