1. 程式人生 > >資源:中英平行語料庫--終於等到你

資源:中英平行語料庫--終於等到你

最近一直想用斯坦福大學的程式碼實現中英翻譯,但苦於沒有對應的中英文語料庫,遲遲得不到好的實驗結果。今天,終於發現了共計10M以上的中英語料庫,欣喜若狂,打算同大家分享一下:

以下資料都是從一個叫“北極光翻譯”的公眾號上下載的,只要先關注公眾號,再回復小標題內容,就能得到下載連結。

1.白皮書

在公眾號後臺回覆“白皮書”,就能下載8M左右的白皮書翻譯。是txt格式的,分為四個檔案。

2.春節大禮包

在公眾號後臺回覆“春節大禮包”,就能下載2M左右的政治新聞類語料庫。同樣是txt格式的,分為三個檔案。

除此之外,用中英文電影字幕作語料庫也是個不錯的選擇。因為它保證了句子可以對齊(也就是一句英語對應一句漢語)。我下載了《泰坦尼克號》的txt對照文字,和一部不知道叫什麼名字的電影的txt對照文字(暫時取名為King)。這兩個資源都只有一百多k。

補充:後來從開源統計機器翻譯軟體NiuTrans上獲得了無需預處理的40M中英平行語料庫,已分享至CSDN我的資源中。

文末福利:以上所有的資料都放在我的CSDN裡:

http://download.csdn.net/detail/lucygill/9809675

相關推薦

資源平行語料--終於等到

最近一直想用斯坦福大學的程式碼實現中英翻譯,但苦於沒有對應的中英文語料庫,遲遲得不到好的實驗結果。今天,終於發現了共計10M以上的中英語料庫,欣喜若狂,打算同大家分享一下: 以下資料都是從一個叫“北極

Facebook最新對抗學習研究無需「平行語料」完成「無監督」機器翻譯

來源:雷克世界 編譯:嗯~阿童木呀、多啦A亮 概要:得益於最近在深度學習方面取得的進展以及大規模平行語料庫的可用性,現如今,機器翻譯已經在多個語言對上取得了令人印象深刻的表現。 相信大家都知道,最近在機器翻譯領域取得了令人印象深刻的成果,而這主要歸功於最近在深度學習方面所取得巨大進步,以及大規模

DL之Attention-ED基於TF NMT利用帶有Attention的 ED模型訓練、測試(中英文平行語料)實現將英文翻譯為中文的LSTM翻譯模型過程全記錄

DL之Attention-ED:基於TF NMT利用帶有Attention的 ED模型訓練(中英文平行語料庫)實現將英文翻譯為中文的LSTM翻譯模型過程全記錄 測試輸出結果     模型監控 1、SCALARS clipp

《FlaskWeb開發基於Python的Web應用開發實戰第2版》PDF+源代碼4本書學習

開發實戰 leo 能夠 ffffff 第二版 http 資源 web開發 vpd 資源鏈接:https://pan.baidu.com/s/1p7CyLEodCy3e1u93jTVQLg《Flask Web開發 基於Python的Web應用開發實戰第2版》中英PDF+源代碼

百萬大獎阿里雲工業APP創新大賽來報名

2018年11月23日 阿里雲工業APP創新大賽正式啟動報名,首屆阿里雲工業APP創新大賽由阿里雲、Intel、物聯網智庫、阿里雲MVP等聯合舉辦,面向全國公開徵集新型工業APP,誠意邀請企業、團隊及個人開發者加入這場創新賽事,創意落地、成果孵化、品牌宣傳、專案機會,總獎池價值超百萬,有志者,速來挑戰!

愛分析精品課投研方法論專業實戰課來報名!

導讀本次課程由愛分析創始人&CEO金建華、聯合創始人&首席分析師張揚親自上陣授課

《數據設計入門經典》讀書筆記——第三章工作場所的數據建模

中間 特定 理論 大學 並且 外鍵 另一個 必須 所有 規範化用於粒度化和組織在數據庫中使用的數據。 在第4章中將詳細介紹規範化和應用範式的過程。在這個階段只需要知道規範化是用於將數據劃分到單獨表中的方法或公式——根據一組規則。 不信任將視圖用於除了安全性目標之外的任何事情

Flask之數據框架和模型類四再述SQLAlchemy配置和基本操作之增刪改查

模糊 offset odi com app ack 字符 add () from flask import Flask from flask_sqlalchemy import SQLAlchemy app = Flask(__name__) #設置連接數據庫的URL

資源分享】Half-Life(半條命)

*----------------------------------------------下載區----------------------------------------------* 下載地址:https://pan.baidu.com/s/1pFb8YZ4hdmHsla5ldQDqcg 提

SSM 生成mapperxml檔案未能解析對映資源“檔案巢狀異常

錯誤日記我就網上隨便找個貼著: 錯誤一: org.springframework.beans.factory.BeanCreationException: Error creating bean with name 'sqlSessionFactory' defined in class path res

SSM 生成mapperxml文件未能解析映射資源“文件嵌套異常

file except cat info lse tin 未能 builder pan 錯誤日記我就網上隨便找個貼著: 錯誤一: org.springframework.beans.factory.BeanCreationException: Error creating

python資料探勘實戰筆記——文字挖掘(1)語料構建

什麼是文字挖掘 ?   文字挖掘是抽取有效、新穎、有用、可理解的、散佈在文字檔案中的有價值知識,並且利用這些知識更好地組織資訊的過程。 一、搭建語料庫 語料庫:要進行文字分析的所有文件的集合。 需要用到的模組:os、os.path、codecs、pandas 程

淺談JSPJSTL【標籤】常用標籤,EL表示式在JSP四大域取值

宣告:本測試使用的Tomcat9,JDK9 建立web4.0專案進行測試: EL表示式中字串【能轉為數字的】會自動強轉: EL表示式的全稱: Expression Language  ;作用

【QT】QT的學習在QT如何呼叫ROS

舉例:目前正在QT開發介面等,但是需要用到ROS的訂閱釋出機制,訂閱別的ROS模組的topic. (3)特別重要,否則編譯不過: 配置qt的啟動檔案。需要在qt啟動時載入ros的環境變數 sudo gedit ~/.local/share/application

算法系列-佇列佇列線上程池有限資源的應用

整理自極客時間-資料結構與演算法之美。原文內容更完整具體,且有音訊。購買地址: 1.如何理解佇列 佇列可以把它想象成排隊買票,先來的先買,後來的人只能站末尾,不允許插隊。先進者先出,這就是典型的“佇列”。 佇列跟棧非常相似,支援的操作也很有限,最基本的操作也是兩個:入隊 enq

word2vec實戰獲取和預處理中文維基百科(Wikipedia)語料,並訓練成word2vec模型

前言 傳統的方法是將詞彙作為離散的單一符號,這些符號編碼毫無規則,無法提供詞彙之間可能存在的關聯關係,而詞彙的向量表示將克服上述難題。 向量空間模型(VSM)將詞彙表示在一個連續的向量空間中,語義近似的詞被對映為相鄰的資料點。VSM依賴於分散式假設思想,

libevent一個在網路伺服器事件驅動開發

Libevent 是一個基於事件觸發的網路庫。它提供一種機制,即當某個具體事件發生在一個檔案描述符上或已經達到超時時,來執行某一個回撥函式。此外,它也支援訊號或定時器事件的回撥。 Libevent 是為了取代在事件驅動的網路服務中的事件迴圈。應用程式只需要呼叫event_dispatch() 函式,然後動

THCHS-30一個免費的中文語料

摘要和第一部分是介紹目前語音識別開源語音庫的現狀,包括英文和中文的,由此引出來THCHS-30語料庫。都是一些無關痛癢的介紹,所以不做翻譯了。 以下是正式翻譯: 2 THCHS-30的特點 這部分我們介紹THCHS-30語音庫。這個資料庫是在2000-2001年記錄的,第一

佇列佇列線上程池有限資源的應用

本文是學習演算法的筆記,《資料結構與演算法之美》,極客時間的課程 電腦的CPU資源是有限的,任務的處理速度與執行緒數量之間並不是正相關。當執行緒數量過多,CPU要頻繁的在不同執行緒切換,反而會引起處理效能的下降。執行緒池中最大的執行緒數,是考慮多種因素來事先設定

【NLP】大資料之行,始於足下談談語料知多少

作者:白寧超 2016年7月20日13:47:51 摘要:大資料發展的基石就是資料量的指數增加,無論是資料探勘、文字處理、自然語言處理還是機器模型的構建,大多都是基於一定量的資料,資料規模達到一定程度,採用基於規則方法或者概率統計學的方法進行模型構建,感興趣知識的獲取才更有意義。那麼,是不是資料足