python Sklearn實現xgboost的二分類和多分類

阿新 • • 發佈：2019-02-07

二分類：

train2.txt的格式如下：

import numpy as np
import pandas as pd
import sklearn
from sklearn.cross_validation import train_test_split,cross_val_score
from xgboost.sklearn import XGBClassifier
from sklearn.metrics import precision_score,roc_auc_score

min_max_scaler = sklearn.preprocessing.MinMaxScaler(feature_range 
=(-1,1))
resultX = []
resultY = []
with open("./train_data/train2.txt",'r') as rf:
train_lines = rf.readlines()
    for train_line in train_lines:
train_line_temp = train_line.split(",")
        train_line_temp = map(float, train_line_temp)
        line_x = train_line_temp[1:-1]
        line_y = train_line_temp[- 
1]
        resultX.append(line_x)
        resultY.append(line_y)

X = np.array(resultX)
Y = np.array(resultY)
X = min_max_scaler.fit_transform(X)
X_train,X_test, Y_train, Y_test = train_test_split(X,Y,test_size=0.3)

xgbc = XGBClassifier()
xgbc.fit(X_train,Y_train)
pre_test = xgbc.predict(X_test)

auc_score =  
roc_auc_score(Y_test,pre_test)
pre_score = precision_score(Y_test,pre_test)

print("xgb_auc_score:",auc_score)
print("xgb_pre_score:",pre_score)

多分類：有19種分類其中正常0，異常1~18種。資料格式如下：

# -*- coding:utf-8 -*-
from sklearn import datasets
from sklearn.multiclass import OneVsRestClassifier
from sklearn.svm import LinearSVC
from sklearn.cross_validation import train_test_split,cross_val_score
from sklearn.svm import SVC
from sklearn.linear_model import LogisticRegression
from xgboost.sklearn import XGBClassifier
import sklearn
import numpy as np
from sklearn.preprocessing import OneHotEncoder
from sklearn.metrics import precision_score,roc_auc_score
min_max_scaler = sklearn.preprocessing.MinMaxScaler(feature_range=(-1,1))

resultX = []
resultY = []
with open("../train_data/train_multi_class.txt",'r') as rf:
train_lines = rf.readlines()
    for train_line in train_lines:
train_line_temp = train_line.split(",")
        train_line_temp = map(float, train_line_temp)  # 轉化為浮點數
line_x = train_line_temp[1:-1]
        line_y = train_line_temp[-1]
        resultX.append(line_x)
        resultY.append(line_y)

X = np.array(resultX)
Y = np.array(resultY)

#fit_transform(partData)對部分資料先擬合fit，找到該part的整體指標，如均值、方差、最大值最小值等等（根據具體轉換的目的），然後對該partData進行轉換transform，從而實現資料的標準化、歸一化等等。。
X = min_max_scaler.fit_transform(X)
#通過OneHotEncoder函式將Y值離散化成19維，例如3離散成000000···100

Y = OneHotEncoder(sparse = False).fit_transform(Y.reshape(-1,1))
X_train,X_test, Y_train, Y_test = train_test_split(X,Y,test_size=0.2)

model = OneVsRestClassifier(XGBClassifier(),n_jobs=2)
clf = model.fit(X_train, Y_train)

pre_Y = clf.predict(X_test)
test_auc2 = roc_auc_score(Y_test,pre_Y)#驗證集上的auc值
print ("xgb_muliclass_auc:",test_auc2)

python Sklearn實現xgboost的二分類和多分類

二分類：train2.txt的格式如下：import numpy as np import pandas as pd import sklearn from sklearn.cross_validati

鬼吹燈文字挖掘5：sklearn實現文字聚類和文字分類

1. 準備資料import numpy as np import pandas as pd import re import jieba # 章節判斷用變數預處理 def is_chap_head(tmpstr): import re pattern = r

Python機器學習庫sklearn裡利用感知機進行三分類（多分類）的原理

from IPython.display import Image %matplotlib inline # Added version check for recent scikit-learn 0.18 checks from distutils.vers

Python實現md5二次及多次加鹽加密

Python實現md5(md5()+salt)加密原理：在第一次md5加密後，再加鹽進行二次md5加密用處：一般用在密碼，交易密碼之類的密碼安全和驗證（將前端傳入的密碼引數進行md5(md5()+salt)加密與資料庫中儲存的資料進行對比，如果相同則密

Python機器學習庫sklearn裡利用LR模型進行三分類（多分類）的原理

首先，LR將線性模型利用sigmoid函式進一步做了非線性對映。將分類超平面兩側的正負樣本點，通過壓縮函式轉化成了以0.5為分解的兩類：類別0和類別1。這個轉化過程見下圖：上圖給出的是線性邊界與LR分佈函式（即sigmoid函式）的對映對應關係；同樣，對於非線

XGBOOST從原理到實戰：二分類、多分類

1.XGBoost xgboost是大規模並行boosted tree的工具，它是目前最快最好的開源boosted tree工具包，比常見的工具包快10倍以上。在資料科學方面，有大量kaggle選手選用它進行資料探勘比賽，其中包括兩個以上kaggle比賽的奪冠方

OpenCV3計算機視覺Python語言實現（二）:處理檔案、攝像頭和圖形使用者介面

2.1 基本I/O指令碼 2.1.1 讀/寫影象檔案 2.1.2 影象和原始位元組之間的轉換 2.1.3使用numpy.array()訪問影象資料 2.1.4 視訊檔案的讀寫 2.1.5 捕獲攝像頭的幀 2.1.6 在視窗顯示影象 2.1.7 在視窗顯示攝像

python 面向對象二類和實例

else 關鍵字根據不同實例變量 elif sel student pytho 一、類和實例面向對象最重要的概念就是類（Class）和實例（Instance），必須牢記類是抽象的模板，比如Student類，而實例是根據類創建出來的一個個具體的“對象”，每個對象都擁有

Python中的封裝，繼承和多型

面向物件的三大特性：封裝，繼承和多型封裝：在類的內部定義屬性和方法，通過物件或類名來訪問屬性和方法，隱藏功能的實現細節，也可以設定訪問許可權。廣義的封裝：例項化一個物件，給物件空間封裝一些屬性；狹義的封裝：私有制；私有成員：私有靜態欄位，私有方法，私有物件屬性繼承：子類需要重用父類的屬性和方法，子

[Python] socket實現TFTP上傳和下載

一、說明　　本文主要基於socket實現TFTP檔案上傳與下載。　　測試環境：Win10/Python3.5/tftpd64。　　tftpd下載：根據自己的環境選擇下載，地址：http://tftpd32.jounin.net/tftpd32_download.html 　　主要內容：TFTP

Python框架下django 的併發和多執行緒

django 的併發能力真的是令人擔憂，django本身框架下只有一個執行緒在處理請求，任何一個請求阻塞，就會影響另一個情感求的響應，尤其是涉及到IO操作時，基於框架下開發的檢視的響應並沒有對應的開啟多執行緒，再者Python的多執行緒對於多核CPU有效利用率非常低，參照這裡就使用 nginx

python學習筆記(66) 非阻塞和多路複用的sever

非阻塞： import socketsk = socket.socket()sk.bind(('127.0.0.1',8080))sk.setblocking(False)sk.listen()conn_l = []del_conn =[]while True: try: conn,ad

仿淘寶、京東、美團使用ViewPager+GridView實現左右滑動檢視更多分類導航功能

文章說明本文修改自開發者原始碼微信公共號：China-dvlp 如果你有想學習的文章直接關注公眾號(開發者原始碼)回覆，我會整理徵稿。如果你有好的文章想和大家分享歡迎投稿，直接向我回覆文章連結即可。概述仿淘寶、京東、美團使用ViewPage

C實現繼承、封裝和多型思路

1、繼承把父類資料結構放在子資料結構的首位置，方便以後資料訪問和資料的強轉 struct parent{ int info; }； struct child { s

二分法Python程式碼實現，迭代和非迭代法

1 看程式碼吧， #用迭代實現二分法 #寫個類吧 class Solution: def binarySearch(self, nums, target): return self.search(nums, 0, len(nums) - 1, target) de

python筆記 5-6 執行緒和多工, 互斥鎖 TCP 三次握手和四次揮手

day5 執行緒和多工 TCP的三次握手用於建立連線標誌位 SYN連線請求 FIN關閉連線 ACK確認序號 seq報文序號 ack確認號 TCP的四次揮手用於斷開連線 MSL最大報文生存時間多工同一時間多個程式同時執行執行緒程式的分支,系統排程和分派的最小單位擁

K-means演算法及python sklearn實現

目錄前言例項推演 K值的確定輪廓係數 K-means演算法前言根據訓練樣本是否包含標籤資訊，機器學習可以分為監督學習和無監督學習。聚類演算法是典型的無監督學習，其訓練樣本中只包含樣本特徵，不包含樣本的標

SSM框架學習-MyBatis篇 SQL對映檔案——實現高階結果對映和多表查詢

SSM框架學習-MyBatis篇 SQL對映檔案——實現高階結果對映（多表查詢）問題情境：比如有張表，使用者和使用者詳情，這兩張表裡面沒長表都有一個id欄位，這兩個表的id欄位都是對應的。實體類裡面分別對應兩個實體類，user和userdetail，還有一個很重要的實

從二分類到多分類的遷移策略

一般情況下問題研究為二分類問題，在解決多分類問題時有時可以直接推廣到多分類，有時不能，不能推廣的時候主要用三種拆分策略對問題進行研究一對一的策略給定資料集DD這裡有NN個類別，這種情況下就是將這些類別兩兩配對，從而產生N(N−1)/2個二分類任務，在測試的時候把樣本交給

用tensorflow實現svm的線性和非線性分類

線性分割：# coding: utf-8 # In[1]: import matplotlib.pyplot as plt import numpy as np from sklearn import datasets import tensorflow as tf

python Sklearn實現xgboost的二分類和多分類

相關推薦