1. 程式人生 > >機器學習——線性判別分析

機器學習——線性判別分析

文章目錄

什麼是線性判別分析

引自周志華老師的《機器學習》

線性判別分析是一種經典的線性學習方法,給定訓練樣例集,設法將樣例投影到一條直線上,使得同類樣例的投影點儘可能的近,異類樣例的投影點儘可能原,在對新樣本進行分類時,將其投影到同樣的這條直線上,在根據投影點的位置來確定新樣本的類別

一個直觀的例子:在這裡插入圖片描述

線性判別分析的作用

1、分類
2、降維,其將高維空間的點對映到一條直線上,用一個實數來表示高維空間的點

基本思想

線性判別分析具有兩個關鍵點

  • 1、投影后,不同類別的點儘可能遠離
  • 2、投影后,相同類別的點儘可能靠近

對於關鍵點1,我們可以使用投影后,不同類別的中心點之間的距離來衡量,中心點距離越遠,類別之間的區分度越高

對於關鍵點2,我們可以使用方差來衡量投影后同類別點之間的散亂程度(方差的統計意義便是衡量點與點之間的散亂程度),方差越小,投影后同類別的資料之間越靠近

如何將點投影到直線上

周志華老師的《機器學習》一書並沒有明顯說明如何將點投影到直線上,那麼我們如何用式子去刻畫點投影到直線這個動作呢?即如何尋找到一個式子,使其幾何意義表示將點投影到某個直線上

我們來看看維基百科對於線性迴歸的定義 我是連結

線性判別分析 (LDA)是對費舍爾的線性鑑別方法的歸納,這種方法使用統計學,模式識別和機器學習方法,試圖找到兩類物體或事件的特徵的一個線性組合,以能夠特徵化或區分它們

關鍵點在於LDA試圖通過特徵的線性組合來特徵化或區分它們,若特徵為( x 1 x_{1}

, x 2 x_{2} ,…, x d x_{d} ),那麼LDA的輸出應該是

y= w 1 x 1 w_1x_1 + w 2 x 2 w_2x_2 +…+ w n x d w_nx_d (式1.0)

問題是,這個式子的幾何意義是什麼?
w w =( w 1 w_1 , w 2 w_2 ,…, w d w_d ),x=( x 1 x_1 , x 2 x_2 ,…, x d x_d ),則式1.0可重寫為

y= w T x w^Tx (式1.1)

式1.1可看成是向量 w w 與向量 x x 的點乘,我們知道向量點乘可以寫成:
w T x w^T*x =| w w || x x |cos θ \theta ,其幾何意義為向量 x x 在向量 w w 方向的投影長度的| w w |倍,那麼投影的直線便確定了,即向量 w w 所在方向的直線,但是線性判別分析是將訓練集樣例投影到直線上,但是式1.1是投影后在乘以| w w |倍,是不是與線性判別分析的思想有出入呢?其實沒有,因為對於所有的樣例,式1.1都對其在 w w 方向的投影放大了| w w |倍,不會改變投影后樣例之間的相對位置,而線性判別的關鍵點只關心投影后點與點之間的相對位置關係,式1.1並不會破壞這個關係

二分類線性判別分析

接下來的任務就是如何使用式1.1去刻畫上述兩個關鍵點,即利用式1.1推出一個式子,其幾何意義為這兩個關鍵點,假設我們現有一個問題——判斷一個工廠生產的零件是不是好零件,一個零件只有好和壞之分,因此這是一個二分類問題,設一個零件具有d個特徵,我們用這d個特徵去描述這些零件,現假設我們有一批樣本資料,其中,好零件的樣本為( x 11 x_{11} , x 12 x_{12} ,…, x 1 n x_{1n} ),( x 21 x_{21} , x 22 x_{22} ,…, x 2 d x_{2d} ),…,( x n 1 x_{n1} , x n 2 x_{n2} ,…, x n d x_{nd} ),壞零件的樣本為( x 11 , x_{11}^, , x 12 , x_{12}^, ,…, x 1 n , x_{1n}^, ),( x 21 , x_{21}^, , x 22 , x_{22}^, ,…, x 2 n , x_{2n}^, ),…,( x n 1 , x_{n1}^, , x n 2 , x_{n2}^, ,…, x n d , x_{nd}^,

如何刻畫類別的中心點之間的距離

即如何刻畫投影后的中心點(均值),我們先求出投影前的均值向量
好零件的均值向量 x \overline{x}

i = 1 n x i 1 n \frac{\sum_{i=1}^nx_{i1}}{n} i = 1 n x i 2 n \frac{\sum_{i=1}^nx_{i2}}{n} ,…, i = 1 n x i d n \frac{\sum_{i=1}^nx_{id}}{n}

相關推薦

機器學習——線性判別分析

文章目錄 什麼是線性判別分析 線性判別分析的作用 基本思想 如何將點投影到直線上 二分類線性判別分析 如何刻畫類別的中心點之間的距離 如何刻畫投影后相同類別的散亂程度

機器學習之LDA線性判別分析模型

機器學習之LDA線性判別分析模型 # -*- coding: utf-8 -*- """ Created on Wed Nov 21 21:03:14 2018 @author: muli """ import matplotlib.pyplot as plt im

機器學習】LDA(線性判別分析)或fisher判別分析

內容目錄: 一、LDA/fisher判別分析 二、LDA判別分析與PCA對比 一、fisher判別分析 1.首先在模式識別課程上學習的是fisher判別,LDA概念是看川大同學寫的500問接觸的,兩者是一樣的東西。 2推薦:深度學習500問 github連結形式是問答形式,初學者概念

ML-64: 機器學習線性判別分析(Linear Discriminant Analysis)降維演算法+程式碼

線性判別分析(Linear Discriminant Analysis)降維演算法 機器學習分為監督學習、無監督學習和半監督學習(強化學習)。無監督學習最常應用的場景是聚類(clustering)和降維(dimension reduction)。聚類演算法包括

機器學習筆記之(4)——Fisher分類器(線性判別分析,LDA)

本博文為Fisher分類器的學習筆記~本博文主要參考書籍為:《Python大戰機器學習》Fisher分類器也叫Fisher線性判別(Fisher Linear Discriminant),或稱為線性判別分析(Linear Discriminant Analysis,LDA)。

機器學習】LDA線性判別分析原理及例項

1、LDA的基本原理 LDA線性判別分析也是一種經典的降維方法,LDA是一種監督學習的降維技術,也就是說它的資料集的每個樣本是有類別輸出的。這點和PCA不同。PCA是不考慮樣本類別輸出的無監督降維技術。LDA的思想可以用一句話概括,就是“*投影后類內方

機器學習演算法的Python實現 (1):logistics迴歸 與 線性判別分析(LDA)

本文為筆者在學習周志華老師的機器學習教材後,寫的課後習題的的程式設計題。之前放在答案的博文中,現在重新進行整理,將需要實現程式碼的部分單獨拿出來,慢慢積累。希望能寫一個機器學習演算法實現的系列。 本文主要包括: 1、logistics迴歸 2、線性判別分析(LDA) 使

機器學習】資料降維—線性判別分析(LDA)

本文程式碼推薦使用Jupyter notebook跑,這樣得到的結果更為直觀。 線性判別分析(Linear Discriminant Analysis,LDA)是一種可作為特徵抽取的技術 LDA可以提

機器學習降維之線性判別分析

1. LDA描述 線性判別分析(Linear Discriminant Analysis,LDA)是一種有監督學習演算法,同時經常被用來對資料進行降維,它是Ronald Disher在1936年發明的,有些資料上也稱位Fisher LDA.LDA是目前機器學習、資料探勘領域中經典且熱門的一種演算法 相比於PC

Python機器學習筆記:線性判別分析(LDA)演算法

預備知識   首先學習兩個概念:   線性分類:指存在一個線性方程可以把待分類資料分開,或者說用一個超平面能將正負樣本區分開,表示式為y=wx,這裡先說一下超平面,對於二維的情況,可以理解為一條直線,如一次函式。它的分類演算法是基於一個線性的預測函式,決策的邊界是平的,比如直線和平面。一般的方法有感知器,最小

線性判別分析(Linear Discriminant Analysis, LDA) 學習筆記 + matlab實現

綜述 線性判別分析 (LDA)是對費舍爾的線性鑑別方法(FLD)的歸納,屬於監督學習的方法。LDA使用統計學,模式識別和機器學習方法,試圖找到兩類物體或事件的特徵的一個線性組合,以能夠特徵化或區分它們。所得的組合可用來作為一個線性分類器,或者,更常見的是,為後

LDA 線性判別分析

討論 report 二維 一個 tutorial 沒有 ron get 是否 http://blog.csdn.net/porly/article/details/8020696 1. LDA是什麽 線性判別式分析(Linear Discriminant Anal

機器學習線性回歸

com str mode imp repr 線性模型 images mage 訓練集 一、普通的線性模型 import numpy as np import pandas as pd import matplotlib.pyplot as plt from sklearn

機器學習--近鄰成分分析(NCA)算法 和 度量學習

學習 tar 本質 技術 結果 font ear art component 1、近鄰成分分析(NCA)算法 以上內容轉載自:http://blog.csdn.net/chlele0105/article/details/13006443 2、度量學習 在機器學習中,

線性判別分析(Linear Discriminant Analysis-LDA)

png 數學 坐標軸 ima 特征 分析 技術 數據預處理 距離 Linear Discriminant Analysis(LDA線性判別分析)   用途:數據預處理中的降維,分類任務   目標:LDA關心的是能夠最大化類間區分度的坐標軸成分,將特征空間(數據集中的多維樣本

機器學習--線性回歸與梯度算法

方法 nbsp methods 大循環 href 一次 sha 4.3 最優 線性回歸(Linear Regression),亦稱為直線回歸,即用直線表示的回歸,與曲線回歸相對。若因變量Y對自變量X1、X2…、Xm的回歸方程是線性方程,即μy=β0 +β1X1 +β2X2

機器學習升級版(VII)——第1課 機器學習與數學分析

矩陣分解 變化 回歸分析 兩個 例如 處理 fff mage 我們 參考:鄒博 《機器學習升級版》 1. 機器學習概論 1. 什麽是機器學習 定義:對於某給定的任務T,在合理的性能度量方案P的前提下,某計算機程序可以自主學習任務T的經驗E;隨著提供合適、

機器學習——線性回歸

import 格式 reg 評分 wid sco shape process otl 導入類庫 1 from sklearn.externals import joblib 2 from sklearn.model_selection import train_tes

機器學習演算法--關聯分析

1.主要概念 關聯分析:從大規模資料集中尋找物品間隱含關係 頻繁項集:經常出現在一起的物品的集合 關聯規則:兩種物品之間可能存在的關係 支援度:資料集中包含該項集的記錄所佔的比例 置信度(可信度): 對於規則A-->B      定義可信度=支

機器學習演算法對比分析

各種機器學習的應用場景分別是什麼?例如,k近鄰,貝葉斯,決策樹,svm,邏輯斯蒂迴歸和最大熵模型。 k近鄰,貝葉斯,決策樹,svm,邏輯斯蒂迴歸和最大熵模型,隱馬爾科夫,條件隨機場,adaboost,em 這些在一般工作中,分別用到的頻率多大?一般用…   關於這個問題我今天正