EM演算法逼近GMM引數針對二維資料點的python實現

阿新 • • 發佈：2019-02-07

GMM即高斯混合模型，是將資料集看成是由多個高斯分佈線性組合而成，即資料滿足多個高斯分佈。EM演算法用來以迭代的方式尋找GMM中個高斯分佈的引數以及權值。GMM可以用來做k分類，而混合的高斯分佈個數也就是分類數K。

當資料Y都是一維的時候，我們假設由兩個高斯分佈組成

就有概率密度函式

PI和1-PI作為各自分佈的權值

這樣EM的實現步驟就很簡單了

一維情況下實際上那些引數都是一些數

當資料點為多維的向量時，就要做一些調整，原本的均值變為均值向量，方程要變成協方差矩陣。

E步：

M步：

下面針對二維資料集做了Python實現

# -*- coding: UTF-8 -*-
import matplotlib.pyplot as plt
import numpy as np
from scipy import stats
import math
import sys
import random

reload(sys)
sys.setdefaultencoding('utf-8')


parameter_dict = {}
parameter_dict["Mu_1"] = np.array([0, 0])
parameter_dict["Sigma_1"] = np.array([[1, 0], [0, 1]])
parameter_dict["Mu_2"] = np.array([0, 0])
parameter_dict["Sigma_2"] = np.array([[1, 0], [0, 1]])
parameter_dict["Pi_weight"] = 0.5
parameter_dict["gama_list"] = []


def set_parameter(mu_1, sigma_1, mu_2, sigma_2, pi_weight):
    parameter_dict["Mu_1"] = mu_1
    parameter_dict["Mu_1"].shape = (2, 1)
    parameter_dict["Sigma_1"] = sigma_1
    parameter_dict["Mu_2"] = mu_2
    parameter_dict["Mu_2"].shape = (2, 1)
    parameter_dict["Sigma_2"] = sigma_2
    parameter_dict["Pi_weight"] = pi_weight


def PDF(data, Mu, sigma):
    """
    二元正態分佈概率密度函式
    :param data: 一個二維資料點,ndarray
    :param Mu: 均值,ndarray
    :param Sigama: 協方差陣ndarray
    :return:該資料點的概率密度值
    """
    sigma_sqrt = math.sqrt(np.linalg.det(sigma))  # 協方差矩陣絕對值的1/2次
    sigma_inv = np.linalg.inv(sigma)  # 協方差矩陣的逆
    data.shape = (2, 1)
    Mu.shape = (2, 1)
    minus_mu = data - Mu
    minus_mu_trans = np.transpose(minus_mu)
    res = (1.0 / (2.0 * math.pi * sigma_sqrt)) * math.exp(
        (-0.5) * (np.dot(np.dot(minus_mu_trans, sigma_inv), minus_mu)))
    return res

def E_step(Data):
    """
    E-step: compute responsibilities
    計算出本輪gama_list
    :param Data:一系列二維的資料點
    :return:gama_list
    """
    # 協方差矩陣
    sigma_1 = parameter_dict["Sigma_1"]
    sigma_2 = parameter_dict["Sigma_2"]
    pw = parameter_dict["Pi_weight"]
    mu_1 = parameter_dict["Mu_1"]
    mu_2 = parameter_dict["Mu_2"]

    parameter_dict["gama_list"] = []
    for point in Data:
        gama_i = (pw * PDF(point, mu_2, sigma_2)) / (
            (1.0 - pw) * PDF(point, mu_1, sigma_1) + pw * PDF(point, mu_2, sigma_2))
        parameter_dict["gama_list"].append(gama_i)


def M_step(Data):
    """
    M-step: compute weighted means and variances
    更新均值與協方差矩陣
    在此例中，   gama_i對應Mu_2,Var_2
                (1-gama_i)對應Mu_1,Var_1
    :param X:一系列二維的資料點
    :return:
    """
    N_1 = 0
    N_2 = 0
    for i in range(len(parameter_dict["gama_list"])):
        N_1 += 1.0 - parameter_dict["gama_list"][i]
        N_2 += parameter_dict["gama_list"][i]


    # 更新均值
    new_mu_1 = np.array([0, 0])
    new_mu_2 = np.array([0, 0])
    for i in range(len(parameter_dict["gama_list"])):
        new_mu_1 = new_mu_1 + Data[i] * (1 - parameter_dict["gama_list"][i]) / N_1
        new_mu_2 = new_mu_2 + Data[i] * parameter_dict["gama_list"][i] / N_2

    # 很重要，numpy對一維向量無法轉置，必須指定shape
    new_mu_1.shape = (2, 1)
    new_mu_2.shape = (2, 1)

    new_sigma_1 = np.array([[0, 0], [0, 0]])
    new_sigma_2 = np.array([[0, 0], [0, 0]])
    for i in range(len(parameter_dict["gama_list"])):
        data_tmp = [0, 0]
        data_tmp[0] = Data[i][0]
        data_tmp[1] = Data[i][1]
        vec_tmp = np.array(data_tmp)
        vec_tmp.shape = (2, 1)
        new_sigma_1 = new_sigma_1 + np.dot((vec_tmp - new_mu_1), (vec_tmp - new_mu_1).transpose()) * (1.0 - parameter_dict["gama_list"][i]) / N_1
        new_sigma_2 = new_sigma_2 + np.dot((vec_tmp - new_mu_2), (vec_tmp - new_mu_2).transpose()) * parameter_dict["gama_list"][i] / N_2
        # print np.dot((vec_tmp-new_mu_1), (vec_tmp-new_mu_1).transpose())
    new_pi = N_2 / len(parameter_dict["gama_list"])


    # 更新類變數
    parameter_dict["Mu_1"] = new_mu_1
    parameter_dict["Mu_2"] = new_mu_2
    parameter_dict["Sigma_1"] = new_sigma_1
    parameter_dict["Sigma_2"] = new_sigma_2
    parameter_dict["Pi_weight"] = new_pi


def EM_iterate(iter_time, Data, mu_1, sigma_1, mu_2, sigma_2, pi_weight, esp=0.0001):
    """
    EM演算法迭代執行
    :param iter_time: 迭代次數，若為None則迭代至約束esp為止
    :param Data:資料
    :param esp:終止約束
    :return:
    """

    set_parameter(mu_1, sigma_1, mu_2, sigma_2, pi_weight)
    if iter_time == None:
        while (True):
            old_mu_1 = parameter_dict["Mu_1"].copy()
            old_mu_2 = parameter_dict["Mu_2"].copy()
            E_step(Data)
            M_step(Data)
            delta_1 = parameter_dict["Mu_1"] - old_mu_1
            delta_2 = parameter_dict["Mu_2"] - old_mu_2
            if math.fabs(delta_1[0]) < esp and math.fabs(delta_1[1]) < esp and math.fabs(
                    delta_2[0]) < esp and math.fabs(delta_2[1]) < esp:
                break
    else:
        for i in range(iter_time):
            pass


def EM_iterate_trajectories(iter_time, Data, mu_1, sigma_1, mu_2, sigma_2, pi_weight, esp=0.0001):
    """
    EM演算法迭代執行,同時畫出兩個均值變化的軌跡
    :param iter_time:迭代次數，若為None則迭代至約束esp為止
    :param Data: 資料
    :param esp: 終止約束
    :return:
    """
    mean_trace_1 = [[], []]
    mean_trace_2 = [[], []]

    set_parameter(mu_1, sigma_1, mu_2, sigma_2, pi_weight)
    if iter_time == None:
        while (True):
            old_mu_1 = parameter_dict["Mu_1"].copy()
            old_mu_2 = parameter_dict["Mu_2"].copy()
            E_step(Data)
            M_step(Data)
            delta_1 = parameter_dict["Mu_1"] - old_mu_1
            delta_2 = parameter_dict["Mu_2"] - old_mu_2

            mean_trace_1[0].append(parameter_dict["Mu_1"][0][0])
            mean_trace_1[1].append(parameter_dict["Mu_1"][1][0])
            mean_trace_2[0].append(parameter_dict["Mu_2"][0][0])
            mean_trace_2[1].append(parameter_dict["Mu_2"][1][0])
            if math.fabs(delta_1[0]) < esp and math.fabs(delta_1[1]) < esp and math.fabs(
                    delta_2[0]) < esp and math.fabs(delta_2[1]) < esp:
                break
    else:
        for i in range(iter_time):
            pass

    plt.subplot(121)
    plt.xlim(xmax=5, xmin=2)
    plt.ylim(ymax=90, ymin=60)
    plt.xlabel("eruptions")
    plt.ylabel("waiting")
    plt.plot(mean_trace_1[0], mean_trace_1[1], 'r-')
    plt.plot(mean_trace_1[0], mean_trace_1[1], 'b^')

    plt.subplot(122)
    plt.xlim(xmax=4, xmin=0)
    plt.ylim(ymax=60, ymin=40)
    plt.xlabel("eruptions")
    plt.ylabel("waiting")
    plt.plot(mean_trace_2[0], mean_trace_2[1], 'r-')
    plt.plot(mean_trace_2[0], mean_trace_2[1], 'bo')
    plt.show()


def EM_iterate_times(Data, mu_1, sigma_1, mu_2, sigma_2, pi_weight, esp=0.0001):
    # 返回迭代次數
    set_parameter(mu_1, sigma_1, mu_2, sigma_2, pi_weight)
    iter_times = 0
    while (True):
        iter_times += 1
        old_mu_1 = parameter_dict["Mu_1"].copy()
        old_mu_2 = parameter_dict["Mu_2"].copy()
        E_step(Data)
        M_step(Data)
        delta_1 = parameter_dict["Mu_1"] - old_mu_1
        delta_2 = parameter_dict["Mu_2"] - old_mu_2
        if math.fabs(delta_1[0]) < esp and math.fabs(delta_1[1]) < esp and math.fabs(
                delta_2[0]) < esp and math.fabs(delta_2[1]) < esp:
            break
    return iter_times


def task_1():
    # 讀取資料，猜初始值,執行演算法
    Data_list = []
    with open("old_faithful_geyser_data.txt", 'r') as in_file:
        for line in in_file.readlines():
            point = []
            point.append(float(line.split()[1]))
            point.append(float(line.split()[2]))
            Data_list.append(point)
    Data = np.array(Data_list)

    Mu_1 = np.array([3, 60])
    Sigma_1 = np.array([[10, 0], [0, 10]])
    Mu_2 = np.array([1, 30])
    Sigma_2 = np.array([[10, 0], [0, 10]])
    Pi_weight = 0.5

    EM_iterate_trajectories(None, Data, Mu_1, Sigma_1, Mu_2, Sigma_2, Pi_weight)


def task_2():
    """
    執行50次，看迭代次數的分佈情況
    這裡協方差矩陣都取[[10, 0], [0, 10]]
    mean值在一定範圍內隨機生成50組數
    :return:
    """
    # 讀取資料，猜初始值,執行演算法
    Data_list = []
    with open("old_faithful_geyser_data.txt", 'r') as in_file:
        for line in in_file.readlines():
            point = []
            point.append(float(line.split()[1]))
            point.append(float(line.split()[2]))
            Data_list.append(point)
    Data = np.array(Data_list)

    try:
        # 在10以內猜x1，在100以內隨機取x2
        x_11 = 5
        x_12 = 54
        x_21 = 2
        x_22 = 74
        Mu_1 = np.array([x_11, x_12])
        Sigma_1 = np.array([[10, 0], [0, 10]])
        Mu_2 = np.array([x_21, x_22])
        Sigma_2 = np.array([[10, 0], [0, 10]])
        Pi_weight = 0.5
        iter_times = EM_iterate_times(Data, Mu_1, Sigma_1, Mu_2, Sigma_2, Pi_weight)
        print iter_times
    except Exception, e:
        print e


# task_1()
task_2()

EM演算法逼近GMM引數針對二維資料點的python實現

GMM即高斯混合模型，是將資料集看成是由多個高斯分佈線性組合而成，即資料滿足多個高斯分佈。EM演算法用來以迭代的方式尋找GMM中個高斯分佈的引數以及權值。GMM可以用來做k分類，而混合的高斯分佈個數也就是分類數K。當資料Y都是一維的時候，我們假設由兩個高斯分佈組成就有概

如何用Matlab將二維資料點繞Z軸即（0,0）旋轉

在Matlab中鍵入以下程式碼： clear clc x=[0 1 1 0 0]; y=[0 0 1 1 0]; plot(x,y,'r');%繪製正方形 hold on axis equal%將兩座標設為相等 axis([-1 2 -1 2])%設定顯示

二維碼生成-python實現

原文連結https://blog.csdn.net/henni_719/article/details/54580732使用該庫時，需要安裝image庫，而image庫依賴於django、olefile、pillow庫。使用pip安裝的命令如下：pip install qrc

劍指offer演算法題（一）二維陣列中的查詢

劍指offer演算法題（一）題目1：二維陣列中的查詢在一個二維陣列中，每一行都按照從左到右遞增的順序排序，每一列都按照從上到下遞增的順序排序。請完成一個函式，輸入這樣的一個二維陣列和一個整數，判斷陣列中是否含有該整數。思路分析：從左上往右下方來解決這個問題例如在

微信公眾號獲取帶引數的二維碼

public void publicQR( HttpServletResponse response,HttpServletRequest requ

微信生成帶引數的二維碼，合成海報，掃碼後推送小程式

背景：公司開發的小程式要實現將產品免費給使用者試用的功能，使用者登入小程式後在產品頁可以將產品以二維碼海報的方式分享給微信好友，好友掃碼後跳轉公眾號，關注後公眾號推送小程式，點選小程式後跳轉到小程式中的相應產品頁面。如下圖：這裡涉及到兩個重要的環節： 1.生成帶

php 生成帶引數的二維碼

$savepath = '/uploads/myqrcode/'; if(!file_exists(ROOT_PATH.'public'.$savepath)){ mkdir(ROOT_PATH.'public'.$savepath,0777,true); } $appletcode = '

C#公眾平臺（三）—— 生成帶引數的二維碼

遇到了一個需求，就是要生成客戶的專屬二維碼，要求掃碼後能關注訂閱號，並且將每個掃碼的人和這個二維碼所屬客戶繫結，但是系統用的是商戶號，商戶號不能繫結訂閱號，這就存在了怎麼確認是同一個客戶的問題。生成帶引數的二維碼文件基礎幫助類 unionid 只有在使用者將公眾號繫結到微信開

實現微信帶引數的二維碼功能

.近期專案中需要使用到將在門店註冊的會員做個區分，以便每個商戶統計在微商城內的業績在這裡就需要使用到帶引數的二維碼。將門店引數載入二維碼裡面，使用者在掃描二維碼後，將使用者唯一的openid關聯到使用者掃碼的門店 1 ，實現步驟 ① 當然是拿到使用者的accesstoken這個很重要，

java 微信帶引數的二維碼

//獲取ticketpublic static String getQr(String accessToken, String jsonMsg){ String result = null;

微信開發–帶引數的二維碼

1 接入首先進入微信公眾號 -> 基本配置下面是基本配置的頁面，在URL中填寫伺服器地址，這個地址就是接受微信推送事件的一個介面，我是使用thinkPHP框架開發的程式，在其中一個Module（Decoration）的Action目錄下新建一個類，比如叫： Wec

java微信生成帶引數的二維碼

生成帶引數的二維碼為了滿足使用者渠道推廣分析和使用者帳號繫結等場景的需要，公眾平臺提供了生成帶引數二維碼的介面。使用該介面可以獲得多個帶不同場景值的二維碼，使用者掃描後，公眾號可以接收到事件推送。目前有2種類型的二維碼： 1、臨時二維碼，是有過期時間的，最長可以

種子點生長演算法上——二維種子點生長

下文提到的種子點生長演算法，包括泛洪法，掃描線法，區段法三種。文字先從最簡單的泛洪法入手介紹種子點生長演算法的相關概念。之後進一步討論了掃描線法和區段法，同時提供了實驗資料驗證其中的一些結論。本文按照如下的結構來介紹：泛洪法掃描線法區段法演算法分析對比以及實驗

微信帶場景引數的二維碼生成與使用

應用場景：公眾號推廣時，使用者通過掃碼關注公眾號，需要統計使用者是通過誰的二維碼進行關注。思路：在使用者掃碼關注公眾號時，二維碼帶上推廣者的id，在關注公眾號後，獲取到該推廣者的id。目前有2種類型的二維碼： 1、臨時二維碼，是有過期時間的，最長可以設

微信公眾平臺生成帶引數的二維碼

前言：最近一直在開發微信的東西，總結一下微信生成帶引數的二維碼。這個其實在參考文章的第一篇總結的非常詳細，大家可以參考一下。這裡總結一下微信生成帶引數二維碼的過程和主要開發程式碼。注：本文使用RestTemplate提供遠端請求，RestTemplate是S

微信測試號-生成帶引數的二維碼

這是前臺樣式，關於後臺怎麼寫，先簡單地說一下思路。我用的是Thinkphp3.2.3框架，以及LaneWeChat框架 * 獲取帶引數的二維碼的過程包括兩步，首先建立二維碼ticket，然後憑藉ticket到指定URL換取二維碼。 * 目前有2種類型的二維碼，分別是臨時二維

微信掃描帶引數的二維碼關注公眾號自動分組

今天學習了建立帶引數的二維碼並建立標籤，掃描帶引數的二維碼後自動分組到所在的標籤中。首先，先建立帶引數的二維碼，程式碼如下： public function qrcodeAdd(){ if(IS_GET){ $this->display('qrcode_a

微信小程式生成帶引數的二維碼

微信官方說明 PHP程式碼實現需要呼叫的公共函式 function https_request($url,$data = null){ if(function_exists('curl_init')){ $curl = curl_ini

EM演算法之GMM聚類

以下為GMM聚類程式 import pandas as pd import matplotlib.pyplot as plt import numpy as np data=pd.read_csv('Fremont.csv',index_col='Date'

微信開發-生成帶引數的二維碼及簡單使用

// 配置微信 function getWechatAccessToken(){ $appid = appid; $appsecret = appsecret; $url = 'https://api.

EM演算法逼近GMM引數針對二維資料點的python實現

相關推薦