Fisher線性判別及R語言實現

阿新 • • 發佈：2018-11-12

判別分析

線性判別分析

判別分析

discriminat analysis,是多變數統計中用於判別樣品所屬類別的一種統計分析方法。它所解決的問題是在一些已知研究物件已經用某種方法分成若干類的情況下，確定新的樣品屬於已知類別中的哪一類。

判別分析的主要方法如下：

線性判別分析

R.A.Fisher最早提出將線性判別函式用於花卉分類，後來將這種方法稱為Fisher線性判別。

假如有兩類樣品，分別包含n1，n2的數量，通過建立線性判別函式-linear discriminatory function為：Y = a1x1+a2x2+... = a'Y,通過指標值x計算Y值，然後根據臨界值對Y進行分類。

當指標數量x為1時，兩類判別分析類似於兩樣本均值t檢驗，只有當μ1 =！ μ2時，兩類才能進行判別分析。

求Fisher線性判別函式

Fisher判別準則要求各類之間的變異儘可能地大，而各類內部的變異儘可能的小。即是‘’高內聚，低耦合‘’，

變異用離均差平方和表示，分離度用λ來表示：

在這裡，Sp^2為合併協方差矩陣，S1^2,S2^2，分別為各自的協方差矩陣

Fisher線性判別的目的是選擇適當的x組合，使λ最大，且值為

證明：

其中：

於是：

計算判別界值

通過上述計算a，帶入判別式即可得到判別函式，將目標引數x帶入即可求得y

然後以兩均數的中點作為兩類的界點：

建立判別標準，對號入座即可：

資料如下

x1	x2	class
-1.9	3.2	1
-6.9	0.4	1
5.2	2	1
5	2.5	1
7.3	0	1
6.8	12.7	1
0.9	-5.4	1
-12.5	-2.5	1
1.5	1.3	1
3.8	6.8	1
0.2	6.2	2
-0.1	7.5	2
0.4	14.6	2
2.7	8.3	2
2.1	0.8	2
-4.6	4.3	2
-1.7	10.9	2
-2.6	13.1	2
2.6	12.8	2
-2.8	10	2

R程式碼

> d = read.table("clipboard",header = T)
> d
      x1   x2 class
1   -1.9  3.2     1
2   -6.9  0.4     1
3    5.2  2.0     1
4    5.0  2.5     1
5    7.3  0.0     1
6    6.8 12.7     1
7    0.9 -5.4     1
8  -12.5 -2.5     1
9    1.5  1.3     1
10   3.8  6.8     1
11   0.2  6.2     2
12  -0.1  7.5     2
13   0.4 14.6     2
14   2.7  8.3     2
15   2.1  0.8     2
16  -4.6  4.3     2
17  -1.7 10.9     2
18  -2.6 13.1     2
19   2.6 12.8     2
20  -2.8 10.0     2
> attach(d)
> plot(x1,x2);text(x1,x2,class,adj= -0.5)
> library(MASS)
> (ld = lda(class~x1+x2))
Call:
lda(class ~ x1 + x2)

Prior probabilities of groups:
  1   2 
0.5 0.5 

Group means:
     x1   x2
1  0.92 2.10
2 -0.38 8.85

Coefficients of linear discriminants:
          LD1
x1 -0.1035305
x2  0.2247957
> Z = predict(ld)
> newClass = Z$class
> cbind(class,Z$x,newClass)
   class         LD1 newClass
1      1 -0.28674901        1
2      1 -0.39852439        1
3      1 -1.29157053        1
4      1 -1.15846657        1
5      1 -1.95857603        1
6      1  0.94809469        2
7      1 -2.50987753        1
8      1 -0.47066104        1
9      1 -1.06586461        1
10     1 -0.06760842        1
11     2  0.17022402        2
12     2  0.49351760        2
13     2  2.03780185        2
14     2  0.38346871        2
15     2 -1.24038077        1
16     2  0.24005867        2
17     2  1.42347182        2
18     2  2.01119984        2
19     2  1.40540244        2
20     2  1.33503926        2
> (tab = table(class,newClass))
     newClass
class 1 2
    1 9 1
    2 1 9
> sum(diag(prop.table(tab)))
[1] 0.9

> plot(ld)

預測待分類值

> d2 = read.table("clipboard",header = T)
> M = predict(ld,d2)
> cbind(M$x,M$class)
         LD1  
1 -1.9964413 1
2 -1.6681151 1
3 -1.3397889 1
4 -1.0114626 1
5 -1.3125644 1
6  0.0247058 2
7  0.3530320 2
8  0.6813582 2
>

程式碼解釋及結果分析

第一行是輸入資料，需要手動複製完整資料表，然後程式碼從剪下板中獲取資料

接下來是解析資料的行列

plot繪圖，x1，x2為軸，class分組，圓圈大小

呼叫科學計算類庫，訓練模型

結果顯示1組和2組各佔資料來源的一半，然後是平均值矩陣，x1，x2最終值

我們獲得的判別公式為

y = -0.1035305x1 + 0.2247957x2

接下來利用獲得的公式對已有資料進行Fisher線性判別

可見兩類錯判的各有1列，判對的有18列，故合格率為90%

Fisher線性判別及R語言實現

目錄判別分析線性判別分析求Fisher線性判別函式計算判別界值資料如下 R程式碼程式碼解釋及結果分析判別分析 discriminat analysis,是多變數統計中用於判別樣品所屬類別的一種統計分析方法。它所解決的問題是在一些已知研

logistic邏輯迴歸公式推導及R語言實現

Logistic邏輯迴歸 Logistic邏輯迴歸模型線性迴歸模型簡單，對於一些線性可分的場景還是簡單易用的。Logistic邏輯迴歸也可以看成線性迴歸的變種，雖然名字帶回歸二字但實際上他主要用來二分類，區別於線性迴歸直接擬合目標值，Logistic邏輯迴歸擬合的是正類和負類的對數機率。假設有一個二分類問

常用連續型分佈介紹及R語言實現

R的極客理想系列文章，涵蓋了R的思想，使用，工具，創新等的一系列要點，以我個人的學習和體驗去詮釋R的強大。 R語言作為統計學一門語言，一直在小眾領域閃耀著光芒。直到大資料的爆發，R語言變成了一門炙手可熱的資料分析的利器。隨著越來越多的工程背景的人的加入，R語言的社群在迅速擴大成長。現在已不僅僅是統計領域，教

機器學習演算法（二）——決策樹分類演算法及R語言實現方法

決策樹演算法是分類演算法中最常用的演算法之一。決策樹是一種類似流程圖的樹形結構，可以處理高維資料，直觀易理解，且準確率較高，因此應用廣泛。本篇小博就決策樹的若干演算法：ID3演算法、C4.5演算法以及分類迴歸樹（CART）、C5.0進行對比介紹，並對比C4.5與C5.0處理

機器學習演算法（一）——關聯規則Apriori演算法及R語言實現方法

關聯規則演算法算是一種十分常用的機器學習演算法，無論是面試還是日後工作中都會經常出現，那麼本篇小博就記錄一下自己學習關聯規則經典演算法Apriori的筆記。 1、概述 Apriori演算法是用一種稱為逐層搜尋的迭代方法，從項集長度k=1開始，選出頻繁的k=1項集，根據先驗性

機器學習演算法（三）——樸素貝葉斯演算法及R語言實現方法

樸素貝葉斯演算法也是一種常用的分類演算法，尤其在對文字文件分類的學習任務中，樸素貝葉斯分類是最有效的演算法之一。所謂的樸素，即假設在給定目標值時屬性值之間相互條件獨立，雖然這一假設看似不合理，但其最終的分類效果卻普遍較好。一、概述 1、貝葉斯公式 2、最大後驗假設（MA

順序表(線性表的順序儲存結構)及C語言實現

1.邏輯結構上呈線性分佈的資料元素在實際的物理儲存結構中也同樣相互之間緊挨著，這種儲存結構稱為線性表的順序儲存結構。也就是說，邏輯上具有線性關係的資料按照前後的次序全部儲存在一整塊連續的記憶體空間中，之間不存在空隙，這樣的儲存結構稱為順序儲存結構。使用順序儲存結構儲存的資料，第一個元素所在的地

邏輯迴歸及R語言的實現

邏輯迴歸介紹邏輯迴歸演算法和線性迴歸非常相似，兩者區別是在於線性迴歸演算法中的變數是連續變數，而邏輯迴歸響應變數是二分類的變數（名義變數），使用邏輯迴歸演算法主要目的是利用logit模型去預測和測量變數相關的名義變數的概率。邏輯迴歸公式：ln(P/(1-P)),P為某事情發生的概率

應用統計學與R語言實現學習筆記（十一）——判別分析

Chapter 11 Discriminant Analysis 筆者最近任務繁重，斷更了一頓時間，最近會開始慢慢把這個系列寫完。本篇是第十一章，內容是判別分析。 1 判別分析應用判別分析（Discriminant Analysis）——判別分

決策樹ID3原理及R語言python程式碼實現（西瓜書）

決策樹ID3原理及R語言python程式碼實現（西瓜書）摘要：決策樹是機器學習中一種非常常見的分類與迴歸方法，可以認為是if-else結構的規則。分類決策樹是由節點和有向邊組成的樹形結構，節點表示特徵或者屬性，而邊表示的是屬性值，邊指向的葉節點為對應的分類。在對樣本的分類過程中，由頂向下，根據特徵或屬性

一元線性回歸於R語言

技術分享 sin es2017 mirror 線性 .com r語 logs .cn （https://mirrors.tuna.tsinghua.edu.cn/CRAN/）下載好R之後打開，就可以輸入命令，如下，我輸入 > y=c(61,57,58,40,90,35

數據結構8: 雙向鏈表(雙向循環鏈表)的建立及C語言實現

clas truct 開始麻煩使用解釋 display 表頭後繼之前接觸到的鏈表都只有一個指針，指向直接後繼，整個鏈表只能單方向從表頭訪問到表尾，這種結構的鏈表統稱為 “單向鏈表”或“單鏈表”。如果算法中需要頻繁

數據結構11: 棧(Stack)的概念和應用及C語言實現

next ret 額外轉換 lib 順序存儲順序棧就是函數棧，線性表的一種特殊的存儲結構。與學習過的線性表的不同之處在於棧只能從表的固定一端對數據進行插入和刪除操作，另一端是封死的。圖1 棧結構示意圖由於棧只有一邊開口存取數據，稱開口的那一端

R語言實現兩文件對應行列字符替換

pack nbsp mode none 安裝 lse 規則改變 2.x 假設存在文件file1.xlsx，其內容如下：存在文件file2.xlsx，其內容如下：現在我想從第七列開始，將file2所有的字符替換成file1一樣的，即第七、八、九、十列不需要

聚類分析及R程式設計實現

目錄什麼是聚類分析聚類分析法的型別聚類統計量系統聚類法 R語言實現最短距離法最長距離法中間距離法類平均法重心法 ward法什麼是聚類分析聚類分析法-cluster ana

Canny邊緣檢測演算法原理及C語言實現詳解

Canny運算元是John Canny在1986年提出的，那年老大爺才28歲，該文章發表在PAMI頂級期刊上的(1986. A computational approach to edge detection. IEEE Transactions on Pattern Analy

回溯法（八皇后問題）及C語言實現

回溯法，又被稱為“試探法”。解決問題時，每進行一步，都是抱著試試看的態度，如果發現當前選擇並不是最好的，或者這麼走下去肯定達不到目標，立刻做回退操作重新選擇。這種走不通就回退再走的方法就是回溯法。回溯VS遞迴很多人認為回溯和遞迴是一樣的，其實不然。在回溯

R語言實現影象查重

（商業目的引用該文章請聯絡我，個人部落格引用該文章請註明來源，謝謝）通過三個指令碼實現影象查重（需要提前匯入R的jpeg庫） R指令碼路徑： D:\Computer Science\Programming\R\ImageProcessing 影象儲存路徑： D:\

用R語言實現對不平衡資料的四種處理方法

https://www.weixin765.com/doc/gmlxlfqf.html 在對不平衡的分類資料集進行建模時，機器學**演算法可能並不穩定，其預測結果甚至可能是有偏的，而預測精度此時也變得帶有誤導性那麼，這種結果是為何發生的呢？到底是什麼因素影響了這些演算法的表現？在不平衡的

順序棧的基本操作（入棧和出棧）及C語言實現詳解

棧，可以理解為遵循“後入先出”原則的線性表，因此棧結構可以採用順序表或連結串列實現。順序棧的實現採用的是順序表，也就是陣列。順序棧的實現思想是：在陣列中設定一個隨時指向棧頂元素的變數（一般命名為 top ），當 top 的值為 -1 時，說明陣列中沒有資料，即棧中沒有資料元素，為“空棧”；只要資料元素

Fisher線性判別及R語言實現

判別分析

線性判別分析

求Fisher線性判別函式

計算判別界值

資料如下

R程式碼

程式碼解釋及結果分析

相關推薦