1. 程式人生 > 其它 >自然語言處理R8資料集介紹

自然語言處理R8資料集介紹

技術標籤:深度學習深度學習

自然語言處理R8資料集介紹


R8(全術語版)是路透21578資料集的兩個子集。R88個類別,分為5,485個培訓和2,189個測試文件。多用著文字分類上。

8個類別

ship
money-fx
grain
acq
trade
earn
crude
interest

根據谷歌翻譯大概是以下意思

船,運輸
金錢外匯
糧食
收購
貿易
賺錢
原油
利益,利息,利潤

檔案

R8資料集有很多版本(有的經過論文作者的預處理)

我的有兩個檔案R8.txtR8_label.txt,

也可以兩個都是R8.txt,只要不是放在同一個資料夾即可以

下載連結

連結:https://pan.baidu.com/s/1JSE_vAvxBJxywfvTbHAx5A


提取碼:4r3m
複製這段內容後開啟百度網盤手機App,操作更方便哦

R8.txt

image-20201229162114296

一行為一個文章

比如第一行

champion products ch approves stock split champion products inc said its board of directors approved a two for one stock split of its common shares for shareholders of record as of april the company also said its board voted to recommend to shareholders at the annual meeting april an increase in the authorized capital stock from five mln to mln shares reuter

冠軍產品公司(Champion Products ch)批准股票分拆冠軍產品公司(Champion Products Inc)表示,其董事會已批准將普通股分為兩股一股,以供4月之前登記在冊的股東使用。法定股本中的股份從500萬股增加到100萬股

R8_label.txt

是R8的對應標籤資訊,順序是和R8.txt對應的。

image-20201229162454579

文章序號	 是訓練集或測試集		類別
0			train				earn

由於是序號是和R8.txt對應的,其實一般沒有用到