機器學習演算法與Python實踐之邏輯迴歸（Logistic Regression）（二）

阿新 • • 發佈：2018-12-10

#!/usr/bin/python
# -*- coding:utf-8 -*-
import numpy as np
from numpy import *
import matplotlib.pyplot as plt
#處理資料函式
def loadDataSet():
    dataMat=[]
    labelMat=[]
    fr=open('C:\\Users\\root\\Desktop\\2017machinelearning\\machinelearninginaction-master\\machinelearninginaction-master\\Ch05\\testSet.txt')
    for line in fr.readlines():
        lineArr=line.strip().split()
        dataMat.append([1.0,float(lineArr[0]),float(lineArr[1])])
        labelMat.append(int(lineArr[2]))
    return dataMat,labelMat
def Sigmoid(x):
    f=1.0/(1+exp(-x))
    return  f
#梯度函式
def gradAscent(dataMat,labelMat):
    datamatri=mat(dataMat)
    labelMatri=mat(labelMat).transpose() #轉化為列向量
    m,n=shape(datamatri)
    alpha=0.001
    maxCycles=500
    weights=ones((n,1))
    #迴圈迭代次數maxCycles
    for i in range(maxCycles):
        # print i
        h=Sigmoid(datamatri*weights) #矩陣相乘 初始值
        error=(labelMatri-h) #錯誤數\
        weights=weights+alpha*datamatri.transpose()*error
    return weights
#隨機梯度函式
def stocgradAscent0(dataMat,labelMat):
    # datamatri=mat(dataMat)
    # labelMatri=mat(labelMat).transpose() #轉化為列向量
    m,n=shape(dataMat)
    alpha=0.01
    # maxCycles=500
    weights=ones(n)
    print n
    # print weights
    #迴圈迭代次數maxCycles
    for i in range(m):
        h=Sigmoid(sum(dataMat[i]*weights)) #矩陣相乘 初始值
        error=labelMat[i]-h #錯誤數\
        weights=weights+alpha*error*dataMat[i]
    return weights
#改進的隨機梯度函式
def stocGradAscent1(dataMatri,classLabels,numIter=150):
    m,n=shape(dataMatri)
    weights=ones(n)
    for j in range(numIter):
        dataIndex=range(m)
        for i in range(m):
            alpha=4/(1.0+j+i)+0.0001
            randIndex=int(random.uniform(0,len(dataIndex)))
            h=Sigmoid(sum(dataMatri[randIndex]*weights))
            error=classLabels[randIndex]-h
            weights=weights+alpha*error*dataMatri[randIndex]
            del(dataIndex[randIndex])
    return weights

#畫圖測試
def plotBestFit(weights):
    # weights=wei.getA()
    dataMat,labelMat=loadDataSet()
    dataArr=array(dataMat)
    # labelMat=array(labelMat)
    # print type(labelMat[0][0])
    n=shape(dataArr)[0]  #取行數
    xcord1=[]
    xcord2 = []
    ycord1=[]
    ycord2 = []
    for i in range(n):
        if int(labelMat[i])==1:
            xcord1.append(dataArr[i,1])
            ycord1.append(dataArr[i,2])
            # print int(labelMat[i][0]) == 1
        else:
            # print int ( labelMat[i][0] ) == 1
            xcord2.append(dataArr[i,1])
            ycord2.append(dataArr[i,2])
    # weights = gradAscent(dataMat,labelMat)
    fig=plt.figure()
    ax=fig.add_subplot(111)
    ax.scatter(xcord1,ycord1,c='red')
    ax.scatter(xcord2,ycord2,c='g')
    x=arange(-3.0,3.0,0.1)
    y=(-weights[0]-weights[1]*x)/weights[2]
    ax.plot(x,y.reshape(-1,1))
    plt.show()
#梯度函式
a,b=loadDataSet()
weights=gradAscent(a,b)
plotBestFit(weights)
#隨機梯度函式
a,b=loadDataSet()
weights=stocgradAscent0(array(a),b)
plotBestFit(weights)
##改進的隨機梯度函式
a,b=loadDataSet()
weights=stocgradAscent0(array(a),b)
plotBestFit(weights)
#例項分析從疝氣病病症預測病罵的死亡率
def classficatinon(Inter,weights):
    a=sum(Inter*weights)
    if Sigmoid(a)>0.5:
        b=1
    else:
        b=0
    return  b
def colicTest():
    frTrain=open('C:\\Users\\root\\Desktop\\2017machinelearning\\machinelearninginaction-master\\machinelearninginaction-master\\Ch05\\horseColicTraining.txt')
    frTest=open('C:\\Users\\root\\Desktop\\2017machinelearning\\machinelearninginaction-master\\machinelearninginaction-master\\Ch05\\horseColicTest.txt')
    trainingSet=[]
    trainingLabels=[]
    for line in frTrain.readlines():
        currLine=line.strip().split('\t')
        lineArr=[]#特徵向量
        for i in range(21):
            lineArr.append(float(currLine[i]))
        trainingSet.append(lineArr)
        trainingLabels.append(float(currLine[21]))#訓練集標籤
    trainWeiht=stocGradAscent1(array(trainingSet),trainingLabels,1)#訓練出迴歸係數
    errorCount=0
    numTestVec=0.0
    for line in frTest.readlines():
        numTestVec+=1.0
        currLine = line.strip ().split ( '\t' )
        lineArr = []  # 特徵向量(
        for i in range ( 21 ):
            lineArr.append ( float ( currLine[i] ) )
        if int(classficatinon(array(lineArr),trainWeiht))!=int(currLine[21]):
            errorCount+=1
        errorRate=(float(errorCount)/numTestVec)
        print "錯誤率為 %f" % errorRate
    return errorRate
def multiTest():
    numTests=1
    errorSum=0.0
    for k in range(numTests):
        errorSum+=colicTest()
    print "after %d 迭代後平均錯誤率為：%f" %(numTests,errorSum/float(numTests))
# colicTest()
multiTest()

#梯度函式

#隨機梯度函式

##改進的隨機梯度函式

#例項分析從疝氣病病症預測病罵的死亡率

錯誤率為 0.288136
錯誤率為 0.300000
錯誤率為 0.295082
錯誤率為 0.290323
錯誤率為 0.285714
錯誤率為 0.281250
錯誤率為 0.276923
錯誤率為 0.287879
錯誤率為 0.298507
after 10 迭代後平均錯誤率為：0.338806

機器學習演算法與Python實踐之邏輯迴歸（Logistic Regression）（二）

#!/usr/bin/python # -*- coding:utf-8 -*- import numpy as np from numpy import * import matplotlib.pyplot as plt #處理資料函式 def loadDataSet():

機器學習演算法與Python實踐之（七）邏輯迴歸（Logistic Regression）

Logistic regression （邏輯迴歸）是當前業界比較常用的機器學習方法，用於估計某種事物的可能性。比如某使用者購買某商品的可能性，某病人患有某種疾病的可能性，以及某廣告被使用者點選的可能性等。（注意這裡是：“可能性”，而非數學上的“概率”，logisitc迴

機器學習演算法與Python實踐(9)

　　ElasticNet 是一種使用L1和L2先驗作為正則化矩陣的線性迴歸模型.這種組合用於只有很少的權重非零的稀疏模型，比如:class:Lasso, 但是又能保持:class:Ridge 的正則化屬性.我們可以使用 l1_ratio 引數來調節L1和L2的凸

林軒田--機器學習技法--SVM筆記5--核邏輯迴歸(Kernel+Logistic+Regression)

核邏輯迴歸這一章節主要敘述的內容是如何使用SVM來做像logistics regression那樣的soft binary classification(輸出正類的概率值)，如何在此基礎上加上核方法。 1. 把SVM看成一種regularization

機器學習演算法與Python學習

1. 引言機器學習技術為現代社會的許多領域提供了強大的技術支援：從網路搜尋到社交網路的內容過濾，

機器學習演算法概述：隨機森林&邏輯迴歸

摘要：機器學習演算法入門介紹：隨機森林與邏輯迴歸！隨機森林是用於分類和迴歸的監督式整合學習模型。為了使整體效能更好，整合學習模型聚合了多個機器學習模型。因為每個模型單獨使用時效能表現的不是很好，但如果放在一個整體中則很強大。在隨機森林模型下，使用大量“弱”因子的決

機器學習演算法的Python實現 (1)：logistics迴歸與線性判別分析（LDA）

本文為筆者在學習周志華老師的機器學習教材後，寫的課後習題的的程式設計題。之前放在答案的博文中，現在重新進行整理，將需要實現程式碼的部分單獨拿出來，慢慢積累。希望能寫一個機器學習演算法實現的系列。本文主要包括： 1、logistics迴歸 2、線性判別分析（LDA）使

機器學習演算法實現解析——liblbfgs之L-BFGS演算法

在博文“優化演算法——擬牛頓法之L-BFGS演算法”中，已經對L-BFGS的演算法原理做了詳細的介紹，本文主要就開原始碼liblbfgs重新回顧L-BFGS的演算法原理以及具體的實現過程，在L-BFGS演算法中包含了處理L1正則的OWL-QN演算法，對於OWL-QN演算法的詳細原理，可以參見

機器學習筆記第6課：邏輯迴歸演算法

邏輯迴歸是機器學習從統計領域借用的又一項技術。它是二元分類問題（即只有兩種型別的分類問題）的首選方法。邏輯迴歸和線性迴歸的類似之處在於，其目標是找到每個輸入變數的權重係數。與線性迴歸的不同點是，邏輯函式是非線性函式，邏輯迴歸使用非線性的邏輯函式對輸出結果進行轉換。

機器學習實戰與python資料探勘與python計算機視覺

兩本書的 pdf都比較好找點這裡是機器學習實戰的CSDN介紹這裡是對應原始碼個人部落格也列出過可執行的pythin資料探勘原始碼 python計算機視覺的官網與原始碼在這裡因為看了機器學習實戰

Kaggle實戰1-機器學習演算法與流程概述 + house-price example

參考連結:https://blog.csdn.net/han_xiaoyang/article/details/50469334 機器學習問題解決思路上面帶著代價走馬觀花過了一遍機器學習的若干演算法，下面我們試著總結總結在拿到一個實際問題的時候，如果著手使用機器學習演算法去

Spark MLlib 機器學習演算法與原始碼解析（網路課程—第一期）

《Spark MLlib 機器學習演算法與原始碼解析》spark是一個開源叢集運算框架，最初是由加州大學柏克利分校AMPLab所開發。Spark使用了記憶體內運算技術，在記憶體上的運算速度比Hadoop

機器學習演算法的Python實現 (3)：決策樹剪枝處理

更新，經評論提醒，我發現自己搞錯了比較根本的定義。CART決策樹假設決策樹是二叉樹，這裡給出的程式碼生成的決策樹不是二叉樹。所以下面的程式碼用”基於基尼指數生成的決策樹“來形容更加適當一點。 -----------------------------------------

【專欄】- 機器學習理論與Python實現

機器學習理論與Python實現注重理論與實踐的結合。從演算法原理出發，由淺入深，詳細介紹演算法的理論，並配合目前流行的Python語言，實現每一個演算法，以加強對機器學習演算法理論的理解、增強實際的演算法實踐能力，最終達到熟練掌

機器學習演算法與人工智慧

最近幾天csdn正在推選csdn部落格之星，希望讀者能夠給我奉上寶貴的一票我會再接再厲，為大家寫

k-means演算法與Python實踐

機器學習演算法與Python實踐這個系列主要是參考《機器學習實戰》這本書。因為自己想學習Python，然後也想對一些機器學習演算法加深下了解，所以就想通過Python來實現幾個比較常用的機器學習演算法。恰好遇見這本同樣定位的書籍，所以就參考這本書的過程來學習了

機器學習演算法與程式設計--鄭捷 C45D演算法 python3實現修改部分

此演算法需要更改的地方出除了上篇寫到的loadDataSet函式，在課本中getBestFeat（）函式中資訊增益計算公式處給出的矩陣相除在py3無法執行需要改為dot（A,B.T）形式具體程式碼 de

【機器學習模型詳細推導2】- 邏輯迴歸

邏輯迴歸 1. 模型引入 2. 模型描述 3. 模型求解策略（代價函式） 4. 模型求解演算法 - 梯度下降 1. 模型引入線性模型可以進行迴歸學習（參見【機器學習模型1】- 線性迴歸），但如何用於分類任務？需要找一個單調可

機器學習筆記(4)：多類邏輯迴歸-使用gluton

import matplotlib.pyplot as plt import mxnet as mx from mxnet import gluon from mxnet import ndarray as nd from mxnet import autograd def transfor

機器學習筆記(3)：多類邏輯迴歸

仍然是動手學嘗試學習系列的筆記，原文見：多類邏輯迴歸 — 從0開始。這篇的主要目的，是從一堆服飾圖片中，通過機器學習識別出每個服飾圖片對應的分類是什麼（比如：一個看起來象短袖上衣的圖片，應該歸類到T-Shirt分類）示例程式碼如下，這篇的程式碼略複雜，分成幾個步驟解讀：一、下載資料，並顯示圖

機器學習演算法與Python實踐之邏輯迴歸（Logistic Regression）（二）

相關推薦