NLP——天池新聞文字分類 Task4：fasttext深度學習

阿新 • • 發佈：2020-07-27

NLP——新聞文字分類：TASK3 深度學習Fasttext

Fasttext是一種深度學習詞向量的表示方法，它是一種三層神經網路，包含輸入層，隱含層和輸出層。
模型架構:fastText 模型輸入一個詞的序列（一段文字或者一句話)，輸出這個詞序列屬於不同類別的概率。序列中的詞和片語組成特徵向量，特徵向量通過線性變換對映到中間層，中間層再對映到標籤。fastText 在預測標籤時使用了非線性啟用函式，但在中間層不使用非線性啟用函式。

層次softmax:在某些文字分類任務中類別很多，計算線性分類器的複雜度高。為了改善執行時間，fastText 模型使用了層次 Softmax 技巧。層次 Softmax 技巧建立在哈夫曼編碼的基礎上，對標籤進行編碼，能夠極大地縮小模型預測目標的數量。

N-gram 特徵：fastText 可以用於文字分類和句子分類。不管是文字分類還是句子分類，我們常用的特徵是詞袋模型。但詞袋模型不能考慮詞之間的順序，因此 fastText 還加入了 N-gram 特徵。

##coding=utf-8
import pandas as pd
from sklearn.metrics import f1_score
import numpy
train_df=pd.read_csv('train_set.csv',encoding='gbk', sep='\t')
train_df['label_ft'] = '__label__'+train_df['label'].astype(str)
train_df[['text','label_ft']].iloc[:-5000].to_csv('train.csv',index=None,header=None,sep='\t')

import fasttext.FastText as ff
model = ff.train_supervised('train.csv',lr=1.0,wordNgrams=2,verbose=2,minCount=1,epoch=25,loss='hs')

val_pred=[model.predict(x)[0][0].split('__')[-1] for x in train_df.iloc[-5000:]['text']]
print(f1_score(train_df['label'].values[-5000:].astype(str),val_pred,average='macro'))

可得到結果

Read 177M words
Number of words:  6858
Number of labels: 14
Progress: 100.0% words/sec/thread:  647070 lr:  0.000000 avg.loss:  0.091541 ETA:   0h 0m 0s
0.913031467414968

NLP——天池新聞文字分類 Task4：fasttext深度學習

NLP——新聞文字分類：TASK3 深度學習Fasttext

NLP——天池新聞文字分類 Task4：fasttext深度學習

Datawhale-新聞文字分類-task4-基於深度學習的文字分類2-word2vec-textcnn-textrnn

阿里天池文字分類競賽task1: 賽題理解

SRCNN論文與應用簡介：基於深度學習的影象超解析度方法

SRCNN：基於深度學習的超解析度開山之作回顧

手把手教你：基於深度學習的滾動軸承故障診斷

NLP——天池新聞文字分類 Task1

NLP——天池新聞文字分類 TASK3

NLP（三十一）：用transformers庫的BertForSequenceClassification實現文字分類

NLP文字分類學習筆記5：帶attention的文字分類

NLP文字分類學習筆記4.1：基於RCNN的文字分類

NLP文字分類學習筆記7：基於預訓練模型的文字分類

NLP文字分類學習筆記7.1：基於ERNIE的文字分類

使用FastText（Facebook的NLP庫）進行文字分類和word representatio...

大話深度學習：B站Up主麥叔教你零程式碼實現影象分類神經網路

基於Bert和通用句子編碼的Spark-NLP文字分類

基於機器學習的文字分類NLP基本介紹

基於fastText模型的文字分類

pytorch深度學習：一般分類器

深度學習loss值變為0_TF2.0深度學習實戰（一）：分類問題之手寫數字識別

NLP——天池新聞文字分類 Task4：fasttext深度學習

NLP——新聞文字分類：TASK3 深度學習Fasttext

相關推薦