1. 程式人生 > >日本語語料庫

日本語語料庫

來自《日語語料庫建設的現狀綜述》上海外國語大學 毛文偉 2009年

(1)EDR語料庫(EDRコーパス)

該語料庫由日本電子化辭書研究所開發,並於1995年推出。素材選自新聞報道和雜誌, 規模為 20 萬句, 另有 10 萬
句左右的英語語料。在原始語料的基礎上, 添加了句法資訊, 是一個已賦碼語料庫。(http://www.iijnet.or.jp/edr/J_index.html)

(2) 京都大學語料庫 (京都大學コーパス)
由京都大學長尾研究室開發。收錄了日本 『毎日新聞』 光碟版1995年1月1日至1月17日的所有報道以及該年1月至12月的所有社論各約2萬句。在此基礎上, 運用語法資訊自動解析技術, 新增形態素和句法資訊, 並進行了人工修正。另外, 還對其中的5000句素材添加了格關係以及呼應等有關資訊。 (http://www-nagao.kuee.kyoto-u.ac.jp/)

(3) 日語口語語料庫(日本語話し言葉コーパス (CSJ) )
該語料庫是作為 「話し言葉の言語的·パラ言語的構造の解析に基づく 『話し言葉工學』 の構築」 課題的一個組成部分, 由國立國語研究所、 通訊綜合研究所和東京工業大學聯合研製的。其中包含約660小時的語音資訊, 共計約700萬詞。其內容按照特別設計的方式記錄下來, 有漢字假名混用和純假名兩個版本。還對這些文字進行了詞性分析。從內容上看, 大部分為講演和採訪, 文體比較單一。(http://www2.kokken.go.jp/~csj/public/index_j.html)

(4) 太陽語料庫 (太陽コーパス)
國立國語研究所推出的太陽語料庫收錄了1895 年、 1901 年、 1909 年、 1917 年、 1925 年刊登於博文館發行的月刊 『太陽』 雜誌上的3400篇作品,共計1450萬字。所有語料都儲存為xml檔案形式,其中添加了各種語法資訊。此外, 還提供了相應的 檢 索 軟 件 。(http://www.kokken. go.jp/lrc/index.php)

(5) 日本古典文學全文資料庫(日本古典文學本文データベース)
該語料庫收錄了巖波書店舊版 『日本古典文學大系』 中的全部作品約580部, 目前由國文學研究 資 料 館 管 理 。(http://base3.nijl.ac.jp/Rcgi-bin/hon_home.cgi)

(6) 中日對譯語料庫
中日對譯語料庫是北京日本學研究中心於2002年完成的一個雙語平行語料庫, 由中文原文子庫、 日文原文子庫、 中文譯文字型檔和日文譯文字型檔構成。收錄的作品時間跨度很大, 既有 『坊っちゃん』(1906年)、 『蒲団』 (1907年) 等明治晚期作品, 也有『心の危機管理術』 (1993年)、 『五體不満足』 (1998年)等較新的著作。

(7) RWC文字資料庫 (RWCテキストデータベース)
RWC 文字資料庫是由日本新情報處理開發機構(新情報処理開発機構)推出的已賦碼語料庫, 收錄了《日本的通商白皮書》、 日本電子工業振興協會的報告書以及《每日新聞》1991 年至1995 年的所有報道。在形態素自動分析的基礎上, 加以手工修正。此外, 還包含了巖波國語詞典的賦碼資料。
 

(8) IPA語料庫 (IPAコーパス)
該語料庫是由日本情報處理振興事業協會(情報処理振興事業協會) 製作的研究用語料庫。
其素材包括已公開的IPAL詞典中收錄的例句集約15000 句、 『日本語表現文型中級』 中的例句約 1600句、 面向外國留學生的中級日語教材、 巖波新書 13冊 以 及 『巖波ジュニア新書』 7 冊 中 的 內 容 約451000 句。日語教材和巖波新書部分進行了品詞分析, 還對一部分內容進行了句法分析。

(9) ATR談話資料庫 (ATR対話データベース)
由日本國際電氣通訊基礎技術研究所 (國際電気通訊基礎技術研究所) 開發的這套口語語料庫收錄了關於參加國際會議的申請者和會務組的對話以及旅行社和客人之間的對話等內容, 規模約 80 萬個形態素單位。所有素材都進行了品詞和單詞間相互關係的分析, 並附有英語對譯。