SVM 採用smo演算法計算 python

阿新 • • 發佈：2019-02-03

本文采用smo演算法計算svm

程式有點問題，開始才用的libsvm的程式碼，準備將其java程式碼寫成python的，後面發現用libsvm的資料格式老是出問題。就參考了

機器學習實戰的程式碼。

程式有很多要優化的地方

1）核函式要完善，這裡只寫了線性核函式。但是整個程式中沒有用核函式進行計算。

2）一些異常狀況的處理。

整個迭代公式可以參考

http://blog.csdn.net/macyang/article/details/38782399/

個人覺得非常棒，就是後面的smo要各種計算，推導。

其實最後迭代也是比較簡單的：

1）找出誤差ei

2）找出2k(i,j)-k(i,i)-k(j,j)

3)在ai的約束條件下，更新ai

4）更新aj

5）更新b

6）返回結果

#coding=utf-8
#!/usr/bin/python
import pprint
from numpy import *
import matplotlib.pyplot as plt

def loadDataSet(fileName):
    dataMat = []; labelMat = []
    fr = open(fileName)
    for line in fr.readlines():
        lineArr = line.strip().split('\t')
        dataMat.append([float 
(lineArr[0]), float(lineArr[1])])
        labelMat.append(float(lineArr[2]))  #只有一列
return dataMat, labelMat

def load_data(path):
    '''
:param path:這裡將libsvm中的資料格式進行讀取
:return:
    '''
data_set=[]
    label_set=[]
    file_object=open(path)
    for line in file_object.readlines():
        lineArr = line.strip().split(" " 
)
        label_set.append(int(lineArr[0])) #第一列作為lable
tempdataline=[]
        for i in range(1,len(lineArr)):
            tempdataline.append(float(lineArr[i].split(':')[1]))
        data_set.append(tempdataline)
    print shape(mat(data_set))
    return data_set,label_set
class mySVM(object):
    def __init__(self):
        '''
        :這裡先初始化資料和權重
        '''
self.data_set=[]
        self.label_set=[]
        self.b=[]           #最後結果中的位移偏量
self.a=[]           #最後結果中的拉格朗日乘子
self.kernel=[]      #核函式
self.c=0.6 #設定懲罰因子
self.tol=0.01 #設定容忍極限
def k(self,x1,x2):
        '''
:param x1: 傳入兩個向量
:param x2:
:return: 返回核函式
        '''
linek=mat(x1).transpose()*mat(x2) #這裡先採用線性核函式,後面可以改成高斯核函式
return linek[0][0] #因為矩陣乘法最後返回的是矩陣,所以要取第一個元素
def train(self,data_set,label_set):
        '''
:param data_set:傳入資料集
:param label_set: 傳入標籤集
:return: 返回訓練好的a和b
        '''
data_set=mat(data_set)
        label_set=mat(label_set).transpose()
        m,n = shape(data_set)
        pprint.pprint(data_set)
        print(m,n)
        a=mat(zeros((m,1)))
        max_iter=100 #迭代次數
b=0
toler=0.1
c=1
print a
        print lable_set
        while(max_iter>=0):
            max_iter=max_iter-1
for i in range(m):#遍歷a
                #計算  ei=ui-yi
tempu=multiply(a,label_set).T*data_set*data_set[i,:].T
                ui=tempu[0][0] + b
                ei=ui-label_set[i][0]
                '''
                 * 把違背KKT條件的ai作為第一個
                 * 滿足KKT條件的情況是：
                 * yi*f(i) >= 1 and alpha == 0 (正確分類)
                 * yi*f(i) == 1 and 0<alpha < C (在邊界上的支援向量)
                 * yi*f(i) <= 1 and alpha == C (在邊界之間)
                 *
                 *  這裡借用了另一個網友的話
                 *
                 * ri = y[i] * Ei = y[i] * f(i) - y[i]^2 >= 0
                 * 如果ri < 0並且alpha < C 則違反了KKT條件
                 * 因為原本ri < 0 應該對應的是alpha = C
                 * 同理，ri > 0並且alpha > 0則違反了KKT條件
                 * 因為原本ri > 0對應的應該是alpha =0
                '''
if((label_set[i]*ei<-toler) and (a[i]<c)) or ((label_set[i]*ei>toler) and (a[i]>0)):
                    j=0 #這裡應該是尋找MAX|E1 - E2|   ,為了簡單點,就隨機選擇了一個.只是速度要慢些
while(j==i):
                        j=int(random.uniform(0, m))


                    uj=float(multiply(a, label_set).T*data_set*data_set[j, :].T)+b
                    ej=uj-float(label_set[j])
                    aj_old=a[j]
                    ai_old=a[i]
                    if(label_set[i]<>label_set[j]):  #開始計算L和H
L=max(0, label_set[j]-a[i])
                        H=min(c, c+a[j]-a[i])
                    else:
                        L=max(0, a[j]+a[i]-c)
                        H=min(c, a[j]+a[i])

                    #這裡計算2k(i,j)-k(i,i)-k(j,j) ,這裡應該用核函式,先這樣將就用了.不先核化
eta=2.0*data_set[i, :]*data_set[j, :].T-data_set[i, :]*data_set[i, :].T- data_set[j, :]*data_set[j, :].T

                    if (eta >= 0):#如果eta等於0或者大於0 則表明a最優值應該在L或者U上
continue
'''
                    這裡更新a[j]
                    '''
a[j]=a[j]-label_set[j]*(ei-ej)/eta
                    if(a[j]<L):
                        a[j]=L
                    elif(a[j]>H):
                        a[j]=H
                    #更新ai
a[i]+=label_set[j]*label_set[i]*(aj_old-a[j])
                    #更新b
'''
                    根據公式
                    bnew1 =bold −E1 −y1 (α1new −α1old)K(x1 ,x1 )−y2 (α2new −α2old)K(x2 ,x2 )
                    bnew2 =bold −E2 −y1 (α1new −α1old)K(x1 ,x1 )−y2 (α2new −α2old)K(x2 ,x2 )
                    '''
b1=b-ei-label_set[i]*(a[i]-ai_old)*data_set[i, :]*data_set[i, :].T- \
                       label_set[j]*(a[j]-aj_old)* data_set[i, :]*data_set[j, :].T
                    b2=b-ej-label_set[i]*(a[i]-ai_old)*data_set[i, :]*data_set[i, :].T- \
                       label_set[j]*(a[j]-aj_old)* data_set[i, :]*data_set[j, :].T
                    #這裡選擇合適的b
if(0<a[i]) and (c>a[i]):
                        b=b1
                    elif(0<a[j]) and (c>a[j]):
                        b=b2
                    else:
                        b=(b1+b2)/2.0
return a,b

if __name__ == '__main__':
    print("-------start load data-----")
    c=0.6 #定義係數c
path="./testSet.txt"
data_set,lable_set=loadDataSet(fileName=path)
    mysvm= mySVM()
    a,b=mysvm.train(data_set=data_set,label_set=lable_set)
    print a,b

SVM 採用smo演算法計算 python

本文采用smo演算法計算svm 程式有點問題，開始才用的libsvm的程式碼，準備將其java程式碼寫成python的，後面發現用libsvm的資料格式老是出問題。就參考了機器學習實戰的程式碼。程式有很多要優化的地方 1）核函式要完善，這裡只寫了線性核函式。但是整個程

關於SVM中SMO演算法第一個向量選擇的問題

在看李航編寫的《統計學習方法》一書中第128頁時，涉及到SMO演算法中第一個變數的選擇，然後作者指出選擇不滿足KKT條件的變數作為第一個變數，然後突然給出瞭如下三個KKT條件: αi=0⇔yig(xi)≥1(1) 0<αi<C⇔yig(xi)=1(

SVM支援向量機-《機器學習實戰》SMO演算法Python實現（5）

經過前幾篇文章的學習，SVM的優化目標，SMO演算法的基本實現步驟，模型對應引數的選擇，我們已經都有了一定的理解，結合《機器學習實戰》，動手實踐一個基本的SVM支援向量機，來完成一個簡單的二分類任務。建立模型之前，首先看一下我們的資料，然後再用支援向量機實現分類：

ML之SVM：利用Js語言設計SVM演算法(SMO演算法+線性核/高斯核)

ML之SVM：利用Js語言設計SVM演算法(SMO演算法+線性核/高斯核) 輸出結果設計思路設計程式碼(部分程式碼) var doTest = function() { loadData();

SVM SMO演算法程式碼詳細剖析

演算法實現一：本文要結合SVM理論部分來看即筆者另一篇https://blog.csdn.net/weixin_42001089/article/details/83276714 二：有了理論部分下面就是直接程式碼啦，本文用四部分進行介紹：最簡版的SMO，改進版platt SMO，核函式，

斯坦福CS229機器學習筆記-Lecture8- SVM支援向量機之核方法 + 軟間隔 + SMO 演算法

作者：teeyohuang 本文系原創，供交流學習使用，轉載請註明出處，謝謝宣告：此係列博文根據斯坦福CS229課程，吳恩達主講所寫，為本人自學筆記，寫成部落格分享出來博文中部分圖片和公式都來源於CS229官方notes。

詳解SVM系列（六）：深入解析序列最小最優化SMO演算法一

SMO演算法是幹啥的首先要先搞明白一個基本的問題： SMO演算法是幹啥的？通過前面的介紹，我們現在掌握了線性不可分支援向量機。其形式為如下的凸二次規劃： m

資料探勘十大演算法——支援向量機SVM（四）：SMO演算法原理

首先感謝“劉建平pinard”的淵博知識以及文中詳細準確的推導！！！支援向量機原理SVM系列文章共分為5部分：（一）線性支援向量機（二）線性支援向量機的軟間隔最大化模型（三）線性不可分支援向量機與核函式（四）SMO演算法原理（五）線性支援迴歸

SVM中的對偶問題、KKT條件以及對拉格朗日乘子求值得SMO演算法

考慮以下優化問題目標函式是f(w)，下面是等式約束。通常解法是引入拉格朗日運算元，這裡使用來表示運算元，得到拉格朗日公式為 L是等式約束的個數。然後分別對w和求偏導，

JAVA和Python HmacSHA1 演算法計算API簽名的實現

JAVA版 // 計算簽名 private static final String ENCODING = "UTF-8"; private static final String ALGORITH

python機器學習之SMO演算法

SVM演算法計算到後面是一個帶約束條件的優化問題這裡的SMO(Sequential Minimal Optimization)序列最小化演算法就是一個二次規劃優化演算法，可以用來解決上面的問題。SMO演算法是由John C.Platt在1998年提出的。SMO演算法的目

深入理解SVM，詳解SMO演算法

今天是**機器學習專題**第35篇文章，我們繼續SVM模型的原理，今天我們來講解的是SMO演算法。 ## 公式回顧在之前的文章當中我們對硬間隔以及軟間隔問題都進行了分析和公式推導，我們發現軟間隔和硬間隔的形式非常接近，只有少數幾個引數不同。所以我們著重來看看軟間隔的處理。通過拉格朗日乘子

雲計算學習筆記，雲計算Python自動化基本用法

雲計算學習筆記Python編程博大精深，知識點眾多，需要先整體上了解python的一些基本用法之後再去對每一個知識點細細研究，這樣學習的速度會快很多。所以下面就先看一些python事先需要知道的基本知識。行和縮進：學習Python時，遇到的第一個需要註意的地方是，不使用括號來表示代碼的類和函數定義塊或流程

雲計算Python自動化，一些比較有名的網站或應用

雲計算還有比openstack更有名的python應用嗎？下面一些是用python進行開發，有一些在部分業務或功能上使用到了python，還有的是支持python作為擴展腳本語言，數據大部分來自Wikepedia和Quora。 Reddit - 社交分享網站，最早用Lisp開發，在2005年轉為python

雲計算Python自動化運維開發實戰：交互模式編程

雲計算所謂交互就是跟用戶也就是我們使用python的人交互，你給出指令或代碼，python解釋器給出結果。調用解釋器不經過腳本文件作為參數，顯示以下提示： python Python 2.7.10 (default, Jul 14 2015, 19:46:27) [GCC 4.2.1 Compatible

雲計算Python自動化：Python變量詳解

雲計算python學習過程中會用到許多數據，那為了方便操作，需要把這些數據分別用一個簡單的名字代表，方便在接下來的程序中引用。變量就是代表某個數據(值)的名稱。簡單點說變量就是給數據起個名字變量名稱的命名：由字母數字下劃線組成的，且不能以數字開頭，不能使用關鍵字，區分大小寫。命名慣例：以單一下劃

雲計算Python自動化：內部的引用計數

雲計算Python內部記錄著所有使用中的對象有多少引用。一個內部跟蹤變量，稱為一個引用計數器。當對象被創建時，就創建了一個引用計數，當這個對象不再需要時，也就是說，這個對象的引用計數變為0時，它被垃圾回收。(這個只是形象的說一下，並不是嚴格的100%正確，但是通俗的理解往往是最好的學習方式) 增加引用計數：

雲計算Python自動化：運算符代碼詳解

雲計算雲計算Python自動化：運算符代碼詳解：邏輯運算符：以下假設變量 a 為 10, b為 20: and x and y 布爾"與" - 如果 x 為 False，x and y 返回 False，否則它返回 y 的計算值。 (a and b) 返回 20。 or x or y

雲計算Python自動化：運算符與表達式

雲計算運算符用於執行程序代碼運算，會針對一個以上操作數項目來進行運算。例如：2+3,其操作數是2和3，而運算符則是“+”。什麽是表達式：表達式，是由數字、運算符、數字分組符號（括號）、自由變量和約束變量等以能求得數值的有意義排列方法所得的組合。約束變量在表達式中已被指定數值，而自由變量則可以在表達式之外另

計算Python代碼運行時間長度方法

運行時 time In 部分 int span pri code pre 在代碼中有時要計算某部分代碼運行時間，便於分析。 import time start = time.clock() run_function() end = time.clock() print s

SVM 採用smo演算法計算 python

相關推薦