K-means實現二分類問題

阿新 • • 發佈：2019-02-05

最近做一個有關二分類問題，我打算使用K-means演算法實現baseline。

首先，我的資料檔案形式是“.arff”格式的，在處理這種資料格式的時候，我是花了一些精力的，話不多說，程式碼如下：

import numpy as np

def readarff(filename):
    #dataMat=np.zeros(shape=(1000,4096))
    dataMat=[[0 for i in range(4096)] for j in range(591)]
    arff_file=open(filename)
    lines=arff_file.readlines()
    count 
=0
    for l in lines:
        content=[]
        if not (l.startswith("@")):
            content.append(l)
            for c in content:
                cs=c.split(',')
                cs.pop(0)
                cs.pop(0)
                cs.pop(0)
                flag=True
                while flag:
                    temp 
=cs[0].split(' ')
                    index=int(temp[1])
                    if not(index==4099):
                        dataMat[count][index-3]=(float)(temp[2])
                        #print count
                        #print index-4
                        cs.pop(0)
                    else:
                        flag 
=False
        count=count+1
    dataMat=np.matrix(dataMat)
    return dataMat


dataMat=readarff('data/temp1.arff')

我的資料檔案中，前三個屬性是不應該作為特徵屬性的，這就是出現了三個pop（）的原因。

dataMat是一個數據矩陣，這個矩陣也是最後需要的一個返回值。關於這個矩陣，在初始化時，一定要使用：

dataMat=[[0 for i in range(4096)] for j in range(591)]

這種形式，而不要使用：

dataMat=[[0]*4096]*591

因為，如果使用下面這種形式的話，在給矩陣賦值的時候，例如：

dataMat[0][0]=0.123456

這樣改變的不只是（0,0）這一個位置的值，而是會改變所有行的第0列的值。（具體知識點涉及到了list的淺拷貝問題，可以參照：https://www.cnblogs.com/btchenguang/archive/2012/01/30/2332479.html）

另外，由於我的資料格式是“ 1 0.123456789”，第二個數字才是我需要的，這也就是我為什麼使用split對空格進行分割的原因了。

還有一個注意點：

就是我的強制型別轉換那一步：

dataMat[count][index-3]=(float)(temp[2])

這裡如果不進行強制型別轉化，會發現在後面進行K-means演算法時，資料之間的運算會出問題，這是因為，這個矩陣中資料型別是unicode型的。

下面就是K-means演算法了：

#計算歐幾里得距離
def distEclud(vecA,vecB):
    return sqrt(sum(power(vecA-vecB,2))) # 計算兩個向量之間的距離

#隨機生成k個質心
def randCent(dataSet,k):
    #n=shape(dataSet)[1]
    n=dataSet.shape[1]
    centroids=mat(zeros((k,n)))
    for j in range(n):
        minJ=min(dataSet[:,j])
        maxJ=max(dataSet[:,j])
        rangeJ=float(maxJ-minJ)  #這一步就是上面說的如果不進行強制型別轉換會出現問題的位置
        centroids[:,j]=minJ+rangeJ*random.rand(k,1)
    return centroids

#k-means演算法：
def kMeans(dataSet,k,distMeans=distEclud,createCent=randCent):
    m=dataSet.shape[0]
    clusterAssment=mat(zeros((m,2))) #存放該樣本屬於哪類，以及距質心的距離
    centroids=createCent(dataSet,k)
    clusterChanged=True
    while clusterChanged:
        clusterChanged=False;
        for i in range(m):
            minDist=inf;minIndex=-1;
            for j in range(k):
                distJI=distMeans(centroids[j,:],dataSet[i,:])
                if distJI<minDist:
                    minDist=distJI;minIndex=j

            if clusterAssment[i,0]!=minIndex:clusterChanged=True;
            clusterAssment[i,:]=minIndex,minDist**2

        print(centroids)  #在每一輪迭代後都輸出一次質心的座標
　　　　　　#更新質心點的座標
        for cent in range(k):
            ptsInClust=dataSet[nonzero(clusterAssment[:,0].A==cent)[0]]
            centroids[cent,:]=mean(ptsInClust,axis=0)

    return centroids,clusterAssment

datMat=mat(readarff('data/temp1.arff'))
myCentroids,clustAssing=kMeans(datMat,2)
print(myCentroids)
print(clustAssing)

K是類別的個數，這裡我定為了2,；具體情況可以自己改變。

K-means實現二分類問題

最近做一個有關二分類問題，我打算使用K-means演算法實現baseline。首先，我的資料檔案形式是“.arff”格式的，在處理這種資料格式的時候，我是花了一些精力的，話不多說，程式碼如下： import numpy as np def readarff(filename): #dataMat

python實現用SIFT+K-MEANS+SVM圖片分類

用python實現圖片分類過程： 1. 按圖片類別抽取訓練集中所有圖片的SIFT特徵； 2. 將每一類圖片的SIFT特徵聚類為K類，構成該類的visual vocabulary(其size為K)； 3. 對於訓練集中的每一張圖片，統計vocabulary中K個word的“

4. K-Means和K-Means++實現

初始 inline 第一個 new 修改 selected 加速 machine mage 1. K-Means原理解析 2. K-Means的優化 3. sklearn的K-Means的使用 4. K-Means和K-Means++實現 1. 前言前面3篇K-Means

使用TensorFlow實現二分類

使用TensorFlow構建一個神經網路來實現二分類，主要包括輸入資料格式、隱藏層數的定義、損失函式的選擇、優化函式的選擇、輸出層。下面通過numpy來隨機生成一組資料，通過定義一種正負樣本的區別，通過TensorFlow來構造一個神經網路來實現二分類。一、神經網路結構

使用pytorch快速搭建神經網路實現二分類任務（包含示例）

# 使用pytorch快速搭建神經網路實現二分類任務（包含示例） --- ## Introduce [上一篇學習筆記](https://www.cnblogs.com/wangqinze/p/13418291.html)介紹了不使用pytorch包裝好的神經網路框架實現logistic迴歸模型，並且根據aut

一個監督學習（極大似然分類）與非監督學習（K-means）的例子（matlab實現）

上遙感原理與應用的時候，老師給我們大致講了一下遙感影象的地物分類問題，大致瞭解了一下機器學習方法在遙感影像處理方面的應用問題。下面將所做作業進行一個大致的總結：資料訓練集一共四種：building、road、vegetation、water，分別

（二）k-means演算法原理以及python實現

一、有監督學習和無監督學習 1. 有監督學習監督學習（supervised learning）：通過已有的訓練樣本（即已知資料以及其對應的輸出）來訓練，從而得到一個最優模型，再利用這個模型將所有新的資料樣本對映為相應的輸出結果，對輸出結果進行簡單的判斷從而

【機器學習演算法-python實現】K-means無監督學習實現分類

''' @author: hakuri ''' from numpy import * import matplotlib.pyplot as plt def loadDataSet(fileName): #general function to parse tab -delimited float

Alink漫談(八) : 二分類評估 AUC、K-S、PRC、Precision、Recall、LiftChart 如何實現

# Alink漫談(八) : 二分類評估 AUC、K-S、PRC、Precision、Recall、LiftChart 如何實現 [TOC] ## 0x00 摘要 Alink 是阿里巴巴基於實時計算引擎 Flink 研發的新一代機器學習演算法平臺，是業界首個同時支援批式演算法、流式演算法的機器學習平

<Machine Learning in Action >之二樸素貝葉斯 C#實現文章分類

options 直升機 water 飛機 math mes 視頻 write mod def trainNB0(trainMatrix,trainCategory): numTrainDocs = len(trainMatrix) numWords =

matlab 實現感知機線性二分類算法（Perceptron）

簡單的 learning 取值 fun end 隨機 -1 二維技術分享感知機是簡單的線性分類模型，是二分類模型。其間用到隨機梯度下降方法進行權值更新。參考他人代碼，用matlab實現總結下。權值求解過程通過Perceptron.m函數完成 function W

K-Means 聚類算法原理分析與代碼實現

oat 得到 ssi targe fan readline txt __name__ 輸出轉自穆晨閱讀目錄前言現實中的聚類分析問題 - 總統大選 K-Means 聚類算法 K-Means性能優化二分K-Means算法小結回到頂部前言在

通過IDEA及hadoop平臺實現k-means聚類算法

綜合 tle tostring html map apache cnblogs cos textfile 有段時間沒有操作過，發現自己忘記一些步驟了，這篇文章會記錄相關步驟，並隨時進行補充修改。 1 基礎步驟，即相關環境部署及數據準備數據文件類型為.csv文件，excel

Tensorflow學習教程------實現lenet並且進行二分類

-i ase vector 一個隊列 label ide def shuffle img #coding:utf-8 import tensorflow as tf import os def read_and_decode(filename): #根據文件名生成

k-means+python︱scikit-learn中的KMeans聚類實現( + MiniBatchKMeans)

CP lan sina QQ mmx 機制意義預測內容之前一直用R，現在開始學python之後就來嘗試用Python來實現Kmeans。之前用R來實現kmeans的博客：筆記︱多種常見聚類模型以及分群質量評估（聚類註意事項、使用技巧）聚類分析在客戶

K-means算法實現

bubuko 技術算法 mean image 圖片 tlab length read 目錄 K-means K-means x = xlsread("D:\MatlabData\西瓜數據集.xlsx"); m = length(x); [Idx,C]=kmeans(x

k-means方法解釋和具體實現

vpd type ros 列數 roi elf 閾值自動 print k-means方法實現流程：輸入：k, data[n];（1）選擇k個初始中心點，例如c[0]=data[0],…c[k-1]=data[k-1];（2）對於data[0]….data[n], 分別

k-means的分類數目

k-means聚類的類數確定根據類內離差平方和最小，類間離差平方和最大的原則自定義函式 tot.wssplot <- function(data, nc, seed=1234){ #假設分為一組時的總的離差平方和 tot.wss <- (nrow(data

吳恩達老師機器學習筆記K-means聚類演算法（二）

運用K-means聚類演算法進行影象壓縮趁熱打鐵，修改之前的演算法來做第二個練習—影象壓縮原始圖片如下：程式碼如下： X =imread('bird.png'); % 讀取圖片 X =im2double(X); % unit8轉成double型別 [m,n,z]=size

DL之RNN：基於TF利用RNN實現簡單的序列資料型別(DIY序列資料集)的二分類(線性序列&隨機序列)

DL之RNN：基於TF利用RNN實現簡單的序列資料型別(DIY序列資料集)的二分類(線性序列&隨機序列) 序列資料型別&輸出結果 1、test01：training_iters = 1000000 (32, 20, 1) [[0.336], [

K-means實現二分類問題

相關推薦