1. 程式人生 > 實用技巧 >自然語言處理之語料庫

自然語言處理之語料庫

語料庫

定義 :語料庫(corpus)就是存放語言材料的倉庫(語言資料庫)

語料庫技術的發展

早期:語料庫在語言研究中被廣泛使用:語言習得、方言學、語言教學、句法和語義、音系研究等

沉寂時期:1957年Chomsky 的《句法理論》及其以後一系列著作的發表,根本改變了語料庫語言學的發展狀況。Chomsky 及其轉換生成語法學派批判早期的語料庫研究方法

復甦與發展時期:

特徵之一:第二代語料庫相繼建成

1983年英國Lancaster 大學建成Lancaster-Oslo / Bergen Corpus (LOB語料庫): 研究英國英語,500 語篇,每個語篇約2000詞。
法國國家科學研究中心與美國芝加哥大學聯合建成法語語料庫(Tremor de la Langue Francaise, TLF語料庫):2000書面法語文字,1.5 億詞

芬蘭赫爾辛基大學建成歷史英語語料庫(The Helsinki Corpus of Historical English):850-1720年, 1600萬詞。
1988年倫敦大學建成國際英語語料庫(The International Corpus of English, ICE): 語料來自所有英語國家,各100萬詞,1990-1993年,口語和書面語各一半,18 歲以上接受英語教育的成人。

特徵之二:基於語料庫的研究專案增多

語料庫的型別

按內容構成和目的劃分(4種類型)
異質的(heterogeneous)-[黃昌寧,2002] 最簡單的語料收集方法,沒有事先規定和選材原則。
同質的(homogeneous) 與“異質”正好相反,比如美國的TIPSTER 專案只收集軍事方面的文字。

系統的(systematic)充分考慮語料的動態和靜態問題、代表性和平衡問題以及語料庫的規模等問題。
專用的(specialized)如:北美的人文科學語料庫

按語言種類劃分

  • 單語的
  • 雙語的或多語的 篇章對齊/ 句子對齊/ 結構對齊

是否標註?
-具有詞性標註
-句法結構資訊標註(樹庫)
-語義資訊標註

語料庫建設中的問題

語料庫設計需要考慮的問題 靜態和動態

平衡和非平衡