自然語言處理R8資料集介紹
自然語言處理R8資料集介紹
R8
(全術語版)是路透21578資料集的兩個子集。R8
有8
個類別,分為5,485
個培訓和2,189
個測試文件。多用著文字分類上。
8個類別
ship
money-fx
grain
acq
trade
earn
crude
interest
根據谷歌翻譯大概是以下意思
船,運輸
金錢外匯
糧食
收購
貿易
賺錢
原油
利益,利息,利潤
檔案
R8資料集有很多版本(有的經過論文作者的預處理)
我的有兩個檔案R8.txt
和R8_label.txt
,
也可以兩個都是R8.txt,只要不是放在同一個資料夾即可以
下載連結
連結:https://pan.baidu.com/s/1JSE_vAvxBJxywfvTbHAx5A
提取碼:4r3m
複製這段內容後開啟百度網盤手機App,操作更方便哦
R8.txt
一行為一個文章
比如第一行
champion products ch approves stock split champion products inc said its board of directors approved a two for one stock split of its common shares for shareholders of record as of april the company also said its board voted to recommend to shareholders at the annual meeting april an increase in the authorized capital stock from five mln to mln shares reuter
冠軍產品公司(Champion Products ch)批准股票分拆冠軍產品公司(Champion Products Inc)表示,其董事會已批准將普通股分為兩股一股,以供4月之前登記在冊的股東使用。法定股本中的股份從500萬股增加到100萬股
R8_label.txt
是R8的對應標籤資訊,順序是和R8.txt對應的。
文章序號 是訓練集或測試集 類別
0 train earn
由於是序號是和R8.txt對應的,其實一般沒有用到
。
。
。