【研究紀要】文本分析的基礎建設：臺灣國會研究詞庫的建置與測試

Volume:

27

Number:

1

Published date:

六月, 2023

Authors:

黃士豪

Abstract:

近年來，越來越多政治學者利用自然語言處理（Natural Language Processing）的技術，進行國會文本主題分類或是判別立場、情感和語意，節省人工過錄的成本。臺灣的國會是世界上唯一使用中文的民主國會，對於比較國會研究和中文文本分析的發展都至關重要。然而，在國會中使用的許多詞彙，並非一般常用的詞彙，而目前既有的中文斷詞系統不見得能區辨這些詞彙。斷詞的錯誤可能造成詞彙機率的估算偏誤，進而影響研究結果的信度與效度。本研究提出一個針對臺灣國會研究建置的斷詞詞庫（Lexicon for Taiwan Legislative Studies，以下簡稱：LTLS），蒐集約 13 萬 7 千個立法和政治相關詞彙。此外，本研究史無前例地同時評測了結巴（Jieba）、中央研究院 CKIP 以及 Articut 這三個臺灣較常使用的斷詞系統在面對國會文本的斷詞表現。我以這些系統分別在搭配與未搭配 LTLS 的情形下對立法院第 7 屆至第 9 屆（2008 ∼ 2020）口頭總質詢文本斷詞，進行主題模型分析，並同時以人工過錄文本主題，再評測何種斷詞方式更能使研究結果接近人工過錄。評測結果顯示，在未搭配 LTLS 的情況下，使用 Articut 斷詞的模型判斷文本主題的表現優於 CKIP 與結巴；搭配 LTLS 後，各模型判斷主題的表現都提高，F 值最高可提升約 8%，而使用 CKIP 搭配 LTLS 之後的表現最佳，超越 Articut。本研究為中文斷詞系統的選擇提供實證依據，而 LTLS 為一個使用成本低、近用性高的斷詞改善工具，不僅可幫助文本分析的發展更為穩健，也為日後建立政治學研究通用的斷詞詞庫奠立基礎。

註：有關詞庫及文本檔案，請參閱作者提供之網址（https://tohow2011.wixsite.com/polisci/data）

Keywords: