python---sklearn---kmeans

阿新 • • 發佈：2018-02-07

utf nib fit metrics otl sax plot scatter min

http://blog.csdn.net/github_36326955/article/details/54999627

# -*- coding: utf-8 -*-

import numpy as np
import matplotlib.pyplot as plt
from sklearn.datasets.samples_generator import make_blobs
import sklearn
X,y = make_blobs(n_samples=1000,n_features=2,centers=[[-1,-1],[0,0],[1,1],[2,2]],cluster_std=[0.4,0.2,0.2,0.2]
                 ,random_state 
=9)
plt.scatter(X[:,0],X[:,1],marker=‘o‘)
plt.show()

from sklearn.cluster import KMeans
y_pred = KMeans(n_clusters=2,random_state=9).fit_predict(X)
plt.scatter(X[:,0],X[:,1],c=y_pred)
plt.show()

from sklearn import metrics
print(metrics.calinski_harabaz_score(X,y_pred))

y_pred = KMeans(n_clusters=3,random_state=9).fit_predict(X)
plt.scatter(X[:,0],X[:, 
1],c=y_pred)
plt.show()
print(metrics.calinski_harabaz_score(X,y_pred))

y_pred = KMeans(n_clusters=4,random_state=9).fit_predict(X)
plt.scatter(X[:,0],X[:,1],c=y_pred)
plt.show()
print(metrics.calinski_harabaz_score(X,y_pred))

from sklearn.cluster import MiniBatchKMeans
#MiniBatchKMeans
for index,val in 
 enumerate((2,3,4,5)):
    plt.subplot(2,2,index+1)
    y_pred = MiniBatchKMeans(n_clusters=val, batch_size=200,random_state=9).fit_predict(X)
    score = metrics.calinski_harabaz_score(X,y_pred)
    plt.scatter(X[:,0],X[:,1],c=y_pred)
    plt.text(0.99,0.01,(‘val=%d, score:%.2f‘%(val,score)),transform=plt.gca().transAxes,size=10,
             horizontalalignment=‘right‘)

plt.show()

python代碼實現可參考：

http://blog.csdn.net/dream_angel_z/article/details/46343597

python---sklearn---kmeans

utf nib fit metrics otl sax plot scatter min # http://blog.csdn.net/github_36326955/article/details/54999627 # -*- coding: utf-8 -*-

PCA降維以及Kmeans聚類例項----python,sklearn,PCA,Kmeans

PCA 演算法也叫主成分分析（principal components analysis），主要是用於資料降維的。關於降維，可以這樣理解，一組資料有n個feature（客戶年齡，收入，每個月消費額度等

python spark kmeans demo

app import urn lib tex oop return clas lin 官方的demo from numpy import array from math import sqrt from pyspark import SparkContext from

Python sklearn Adaboost

註意 html san 內部 www list 公式值範圍方法 1. Adaboost類庫概述　　　　scikit-learn中Adaboost類庫比較直接，就是AdaBoostClassifier和AdaBoostRegressor兩個，從名字就可以看出AdaBoo

Python——sklearn提供的自帶的數據集

pack 數據 cal -i 一個 .text 分類器 unique gen sklearn提供的自帶的數據集 sklearn 的數據集有好多個種自帶的小數據集（packaged dataset）：sklearn.datasets.load_<name> 可

Python sklearn包的使用示例以及引數調優示例

coding=utf-8 !/usr/bin/env python ””’ 【說明】 1.當前sklearn版本0.18 2.sklearn自帶的鳶尾花資料集樣例：（1）樣本特徵矩陣（型別：numpy.ndarray） [[ 6.7 3. 5.2 2.3] [ 6.3

Python sklearn.cross_validation.train_test_split及混淆矩陣實現

sklearn.cross_validation.train_test_split隨機劃分訓練集和測試集一般形式： train_test_split是交叉驗證中常用的函式，功能是從樣本中隨機的按比例選取train data和testdata，形式為： X_train,X_tes

利用Python sklearn庫裡的決策樹模型生成決策樹圖片以及測試分類的準確度

本案例利用sklearn自帶的資料集，選取房子經緯度作為特徵引數來對標籤進行分類。也用切分的資料訓練模型來進行特徵引數的選擇得到最好的測試準確度。 Python原始碼： #!/usr/bin/env python # encoding: utf-8 """ @Company：華中科技大

實戰：利用Python sklearn庫裡的邏輯迴歸模型訓練資料---建立模型

本案例主要是通過對不均衡的28萬組資料建立模型，分析預測欺詐使用者，採用sigmod函式作為損失函式，採用交叉驗證的方法和l1正交法則，比對了不同懲罰函式下的模型的召回率，也通過預測值和實際值做出混淆矩陣更加直觀看到各種預測結果。也比較了sigmod函式下的不同閾值下的模型預測的精度和召

Python sklearn 庫中嶺迴歸的簡略使用方法

import numpy as np # 快速操作結構陣列的工具 import matplotlib.pyplot as plt # 視覺化繪製 from sklearn.linear_model import RidgeCV # Ridge嶺迴歸,RidgeCV帶有廣義交叉驗證的嶺迴歸 fro

sklearn KMeans 分類

import itertools import numpy as np import matplotlib.pyplot as plt from sklearn.cluster import KMeans np.random.seed(1) # Set

sklearn kMeans 分類實戰，對滬深300的每日漲跌進行分類

# ohlc_clustering.py import copy import datetime import pymysql import matplotlib.pyplot as plt from mpl_toolkits.mplot3d import

python sklearn svm模型的儲存與載入呼叫

對於機器學習的一些模型，跑完之後，如果下一次測試又需要重新跑一遍模型是一件很繁瑣的事，這時候我們就需要儲存模型，再載入呼叫。樓主發現有這些儲存模型的方法，網上有很多錯誤的例子，所以給大家在整理一下。(python3) 1.利用pickle import pickle

python sklearn包——cross validation筆記

preface：做實驗少不了交叉驗證，平時常用from sklearn.cross_validation import train_test_split，用train_test_split()函式將資料集分為訓練集和測試集，但這樣還不夠。當需要除錯引數的時候便要用到K-f

資料正規化 (data normalization) 的原理及實現 (Python sklearn)

原理資料正規化（data normalization）是將資料的每個樣本（向量）變換為單位範數的向量，各樣本之間是相互獨立的．其實際上，是對向量中的每個分量值除以正規化因子．常用的正規化因子有 L1, L2 和 Max．假設，對長度為 n 的向量，其正規化因子 z 的計算公式，如下所示：

K-means演算法及python sklearn實現

目錄前言例項推演 K值的確定輪廓係數 K-means演算法前言根據訓練樣本是否包含標籤資訊，機器學習可以分為監督學習和無監督學習。聚類演算法是典型的無監督學習，其訓練樣本中只包含樣本特徵，不包含樣本的標

利用python sklearn 將類別資料轉換成one-hot資料

做資料預處理的時候，經常會遇到需要將類別特徵轉換成有意義的數值的情況，通過這樣使類別資料能夠用於後續的分類預測任務。目前應用得最多的就是將其轉換成one-hot編碼。以下是通過sklearn的方法很方便地實現。首先讀取資料： housing = pd.read_csv(

Python——sklearn.model_selection.cross_val_score()函式學習

cross_val_score(model_name, X,y， cv=k) 作用：驗證某個模型在某個訓練集上的穩定性，輸出k個預測精度。 K折交叉驗證（k-fold）把初始訓練樣本分成k份，其中（k-1）份被用作訓練集，剩下一份被用作評估集，這樣一共可以對分類器做k

python sklearn預處理方法

1. 標準化(scale) 標準化目的是去均值。變換後各維特徵有0均值，單位方差。也叫z-score規範化（零均值規範化）。計算方式是將特徵值減去均值，除以標準差。 import numpy as np from sklearn import preprocessing in_data =

特徵選擇——卡方檢驗(使用Python sklearn進行實現)

在看這篇文章之前，如果對卡方檢驗不熟悉，可以先參考：卡方檢驗 Python有包可以直接實現特徵選擇，也就是看自變數對因變數的相關性。今天我們先開看一下如何用卡方檢驗實現特徵選擇。 1. 首先import包和實驗資料： from sklearn.feature_selecti

python---sklearn---kmeans

相關推薦