XGBoost文字多分類記錄

阿新 • • 發佈：2020-07-09

1.資料預處理

　　xgb 訓練的資料是 DataFream 不能是List

讀取資料

　　　　利用pandas 讀取資料,這裡讀取的是excel資料

　　　　data = pd.read_excel(filename, sheet_name='tabelname')

分詞處理

　　　　利用jieba分詞搞定

　　　　seg1 = jieba.cut(str(table_note[i])) # 這個利用join函式連線分詞後的結果
　　　　seg1 = ' '.join(seg1)

　　　　seg1 = jieba.icut(str(table_note[i])) # 這個返回的是一個列表

去停處理

　　　　寫個函式將分詞處理完成的資料傳入此函式,一定記得返回字串

　　　　def ting(content):
    　　　　content = content.split(" ")
   　　　　 content = [w for w in content if w not in stopwords]
    　　　　return " ".join(content)

分離訓練集與測試集

　　　　x_train, x_test, y_train, y_test = train_test_split(data, label, test_size=0.2)

這裡使用Tfidf作詞頻-逆向檔案頻率

# CountVectorizer會將文字中的詞語轉換為詞頻矩陣
vectorizer = CountVectorizer(max_features=5000)

# TfidfTransformer用於統計vectorizer中每個詞語的TF-IDF值
tf_idf_transformer = TfidfTransformer()

# vectorizer.fit_transform()計算每個詞出現的次數
# tf_idf_transformer.fit_transform()將詞頻矩陣統計成TF-IDF值
tf_idf = tf_idf_transformer.fit_transform(vectorizer.fit_transform(x_train))
 
x_train_weight = tf_idf.toarray()  # 訓練集TF-IDF權重矩陣
tf_idf = tf_idf_transformer.transform(vectorizer.transform(x_test))
x_test_weight = tf_idf.toarray()  # 測試集TF-IDF權重矩陣

2.XGboost實現

　　具體參考連結https://blog.csdn.net/hbpartty/article/details/96098495

　　引數參考連結https://blog.csdn.net/iyuanshuo/article/details/80142730

　　第一步轉化為DMatrix格式的資料

　　　　dtrain = xgb.DMatrix(x_train_weight, label=y_train)
　　　　dtest = xgb.DMatrix(x_test_weight, label=y_test)
　第二步定義引數 開始訓練

param = {'silent': 0,
         'eta': 0.3,
         'max_depth': 6,
         'objective': 'multi:softmax',
         'num_class': 16,
         'eval_metric': 'merror'}  # 引數
evallist = [(dtrain, 'train'), (dtest, 'test')]
num_round = 100  # 迴圈次數
xgb_model = xgb.train(param, dtrain, num_round, evallist)
# 儲存訓練模型
xgb_model.save_model('data/xgb_model')
y_predict = xgb_model.predict(dtest)  # 模型預測
label_all = categories
confusion_mat = metrics.confusion_matrix(y_test, y_predict)
df = pd.DataFrame(confusion_mat, columns=label_all)
df.index = label_all
print('準確率：', metrics.accuracy_score(y_test, y_predict))
print('confusion_matrix:', df)
print('分類報告:', metrics.classification_report(y_test, y_predict))

XGBoost文字多分類記錄

1.資料預處理　　xgb 訓練的資料是 DataFream 不能是List 讀取資料　　　　利用pandas 讀取資料,這裡讀取的是excel資料

XGBoost文字分類，多分類、二分類、10-Fold（K-Fold）

做機器學習的時候經常用到XGB,簡單記錄一下 K折交叉驗證也是模型常用的優化方法。一起記錄。。。

C# ling to sql 取多條記錄最大時間

具體程式碼如下所述： var _setList = (from f in _postgreDbContext.settlements group f by ( new { f.settlement_code })into g

mysql儲存過程基礎之遍歷多表記錄後插入第三方表中詳解

前言自從學過儲存過程後，就再也沒有碰過儲存過程，這是畢業後寫的第一個儲存過程。

pytorch實現用CNN和LSTM對文字進行分類方式

model.py： #!/usr/bin/python # -*- coding: utf-8 -*- import torch from torch import nn import numpy as np

Keras中的多分類損失函式用法categorical_crossentropy

from keras.utils.np_utils import to_categorical 注意：當使用categorical_crossentropy損失函式時，你的標籤應為多類模式，例如如果你有10個類別，每一個樣本的標籤應該是一個10維的向量，該向量在對應有值的索

使用sklearn對多分類的每個類別進行指標評價操作

今天晚上，筆者接到客戶的一個需要，那就是：對多分類結果的每個類別進行指標評價，也就是需要輸出每個型別的精確率（precision），召回率（recall）以及F1值（F1-score）。

python實現二分類和多分類的ROC曲線教程

基本概念 precision：預測為對的當中，原本為對的比例（越大越好，1為理想狀態）

Unity實現本地文字多語言化

本文例項為大家分享了Unity實現本地文字多語言化的具體程式碼，供大家參考，具體內容如下

PyTorch: Softmax多分類實戰操作

多分類一種比較常用的做法是在最後一層加softmax歸一化，值最大的維度所對應的位置則作為該樣本對應的類。本文采用PyTorch框架，選用經典影象資料集mnist學習一波多分類。

pytorch 多分類問題,計算百分比操作

二分類或分類問題，網路輸出為二維矩陣：批次x幾分類，最大的為當前分類，標籤為one-hot型的二維矩陣：批次x幾分類

第三天學習進度--文字情感分類（二）

昨天在情感處理的學習中瞭解到了關於word2vec的用法，今天我們繼續康康doc2vec究竟在情感分類的過程中是如何使用的。

linq一對多錯誤記錄

錯誤日誌 ERROR 2020-07-27 09:14:41,870 [4 ] EvaluationSystem.CustomeExceptionFilter - variable \'list\' of type \'System.Collections.Generic.IEnumerable`1[EvaluationSystem.EntityDesign.SocietyScore]\'