非引數密度估計

阿新 • • 發佈：2021-01-10

非引數密度估計課本內容梳理

介紹
功能快捷鍵

介紹

概率分佈是統計推斷的核心，從某種意義上看，聯合概率密度提供了關於所要分析變數的全部資訊，有了聯合密度，則可以回答變數子集之間的任何問題

從廣義上看，引數估計是在假定資料總體密度形式下對引數的估計，比如：

我們所熟知的 X ‾ \overline{X} X是兩點分佈中p的一致性估計
S n 2 = 1 n ∑ i = 1 n ( X i − X ‾ i ) 2 \displaystyle{S_n^2=\frac{1}{n} \displaystyle\sum_{i=1}^n(X_i-\overline{X}_i)^2} Sn2=n1i=1∑n(Xi−Xi)2是一元正態總體方差的極大似然估計
而 X n × p B ^ p × q = X n × p ( X ′ X ) p × p − 1 X ′ Y n × q \bm{X_{n{\times}p}\hat{B}_{p{\times}q}=X_{n{\times}p}(X'X)_{p{\times}p}^{-1}X'Y}_{n{\times}q}

Xn×pB^p×q=Xn×p(X′X)p×p−1X′Yn×q是多元正態分佈均值的最小二乘估計

一旦引數確定，則分佈完全確定，因而可以說引數統計推斷的核心內容就是對密度的估計
實際中，很多資料的分佈是無法事先假定的，加上決策的可靠性不斷提高，因此需要適應性更廣的密度估計方法
最近幾年尤其是隨著資料庫的廣泛應用和資料探勘技術的興起，概率密度估計成為模式分類技術的重要內容得到廣泛關注

一、直方圖密度估計

	- 在基礎的統計課程中，直方圖經常用來描述資料的頻率，使研究者對所研究的資料有一個較好的理解。
	- 這裡我們介紹如何使用直方圖估計一個隨機變數的密度。
	- 直方圖密度估計與用直方圖估計頻率的差別在於，在直方圖密度估計中，我們需要對頻率估計進行歸一化，使其成為一個密度函式的估計。
	- 直方圖是最基本的非引數密度估計方法，有著廣泛的應用

1.基本概念

以一元為例，假定有資料 x 1 , x 2 , … , x n ∈ [ a , b ) . x_1,x_2,…,x_n\in[a,b). x1,x2,…,xn∈[a,b).對區間 [ a , b ) [a,b) [a,b)做如下劃分，即 a = a 0 < a 1 < a 2 < … < a k = b , I i = [ a i − 1 , a i ) , i = 1 , 2 , … , k . a=a_0<a_1<a_2<…<a_k=b,I_i=[a_{i-1},a_i),i=1,2,…,k. a=a0<a1<a2<…<ak=b,Ii=[ai−1,ai),i=1,2,…,k.我們有 ⋃ i = 1 k I i = [ a , b ) , I i ∩ I j = ∅ , i = / j . \displaystyle\bigcup_{i=1}^kI_i=[a,b),I_i\cap I_j=\varnothing,i {=}\mathllap{/\,}j. i=1⋃kIi=[a,b),Ii∩Ij=∅,i=/j.令 n i = # { x i ∈ I i } n_i=\#\{x_i\in I_i\} ni=#{xi∈Ii}為落在 I i I_i Ii中資料的個數.
我們如下定義直方圖密度估計，

p ^ ( x ) = { n i n ( a i − a i − 1 ) , 當 x ∈ I i ; 0 , 當 x ∉ [ a , b ) , \hat p(x)= \begin{cases} \frac{n_i}{n(a_i-a_{i-1})}, &\text{當 } x\in I_i; \\ 0, &\text{當 } x\notin [a,b), \end{cases} p^(x)={n(ai−ai−1)ni,0,當x∈Ii;當x∈/[a,b),

在實際操作中，我們經常取相同的區間，即 I i ( i = 1 , 2 , … , k ) I_i(i=1,2,…,k) Ii(i=1,2,…,k)的寬度均為 h h h，在此情況下，有

p ^ ( x ) = { n i n h , 當 x ∈ I i ; 0 , 當 x ∉ [ a , b ) , \hat p(x)= \begin{cases} \frac{n_i}{nh}, &\text{當 } x\in I_i; \\ 0, &\text{當 } x\notin [a,b), \end{cases} p^(x)={nhni,0,當x∈Ii;當x∈/[a,b),

上式中， h h h 既是歸一化引數，又表示每一組的組距，稱為頻寬或窗寬.另外，我們可以看到

∫ a b p ^ ( x ) d x = ∑ i = 1 k ∫ I i n i / ( n h ) d x = ∑ i = 1 k n i / n {\displaystyle\int _{a}^{b}} \hat p(x) \mathrm{d} x=\displaystyle\sum_{i=1}^k \int_{I_i}n_i/(nh)\mathrm{d}x=\displaystyle\sum_{i=1}^{k}n_i/n ∫abp^(x)dx=i=1∑k∫Iini/(nh)dx=i=1∑kni/n = 1.

由於位於同一組內所有點的直方圖密度估計均相等，因而直方圖所對應的分佈函式 F ^ h ( x ) \hat F_h(x) F^h(x)是單調增的階梯函式.這與經驗分佈函式形狀類似.實際上，當分組間隔縮小到每組中最多隻有一個數據時，直方圖的分佈函式就是經驗分佈函式，即 h → 0 h\rarr 0 h→0，有 F ^ h ( x ) → F ^ n ( x ) . \hat F_h(x)\rarr \hat F_n(x). F^h(x)→F^n(x).
定理：固定 x x x 和 h h h，令估計的密度是 p ^ ( x ) \hat p(x) p^(x)，如果 x ∈ I j , p j = ∫ I j p ^ ( x ) d x x\in I_j,p_j=\displaystyle \int_{I_j}\hat p(x) \mathrm{d}x x∈Ij,pj=∫Ijp^(x)dx，有
E p ^ ( x ) = p j / h , v a r p ^ ( x ) = p j ( 1 − p j ) n h ² . E\hat p(x)=p_j/h,\mathrm{var}\hat p(x)=\frac{p_j(1-p_j)}{nh²}. Ep^(x)=pj/h,varp^(x)=nh²pj(1−pj).

2.理論性質和最優頻寬

3.多維直方圖

二、核密度估計

1.基本概念

2.理論性質和頻寬

3.多維核密度估計

4.貝葉斯決策和非引數密度估計

三、k近鄰估計

四、案例

我們對Markdown編輯器進行了一些功能拓展與語法支援，除了標準的Markdown編輯器功能，我們增加了如下幾點新功能，幫助你用它寫部落格：

全新的介面設計 ，將會帶來全新的寫作體驗；
在創作中心設定你喜愛的程式碼高亮樣式，Markdown 將程式碼片顯示選擇的高亮樣式 進行展示；
增加了 圖片拖拽 功能，你可以將本地的圖片直接拖拽到編輯區域直接展示；
全新的 KaTeX數學公式 語法；
增加了支援甘特圖的mermaid語法¹ 功能；
增加了 多螢幕編輯 Markdown文章功能；
增加了 焦點寫作模式、預覽模式、簡潔寫作模式、左右區域同步滾輪設定 等功能，功能按鈕位於編輯區域與預覽區域中間；
增加了 檢查列表 功能。

功能快捷鍵

撤銷：Ctrl/Command + Z
重做：Ctrl/Command + Y
加粗：Ctrl/Command + B
斜體：Ctrl/Command + I
標題：Ctrl/Command + Shift + H
無序列表：Ctrl/Command + Shift + U
有序列表：Ctrl/Command + Shift + O
檢查列表：Ctrl/Command + Shift + C
插入程式碼：Ctrl/Command + Shift + K
插入連結：Ctrl/Command + Shift + L
插入圖片：Ctrl/Command + Shift + G
查詢：Ctrl/Command + F
替換：Ctrl/Command + G

合理的建立標題，有助於目錄的生成

直接輸入1次#，並按下space後，將生成1級標題。
輸入2次#，並按下space後，將生成2級標題。
以此類推，我們支援6級標題。有助於使用TOC語法後生成一個完美的目錄。

如何改變文字的樣式

強調文字 強調文字

加粗文字 加粗文字

標記文字

~~刪除文字~~

引用文字

H₂O is是液體。

2¹⁰ 運算結果是 1024.

插入連結與圖片

連結: link.

圖片: Alt

帶尺寸的圖片: Alt

居中的圖片: Alt

居中並且帶尺寸的圖片: Alt

當然，我們為了讓使用者更加便捷，我們增加了圖片拖拽功能。

如何插入一段漂亮的程式碼片

去部落格設定頁面，選擇一款你喜歡的程式碼片高亮樣式，下面展示同樣高亮的 程式碼片.

// An highlighted block
var foo = 'bar';

生成一個適合你的列表

專案
- 專案
  - 專案

專案1
專案2
專案3

計劃任務
完成任務

建立一個表格

一個簡單的表格是這麼建立的：

專案	Value
電腦	$1600
手機	$12
導管	$1

設定內容居中、居左、居右

使用:---------:居中
使用:----------居左
使用----------:居右

第一列	第二列	第三列
第一列文字居中	第二列文字居右	第三列文字居左

SmartyPants

SmartyPants將ASCII標點字元轉換為“智慧”印刷標點HTML實體。例如：

TYPE	ASCII	HTML
Single backticks	`'Isn't this fun?'`	‘Isn’t this fun?’
Quotes	`"Isn't this fun?"`	“Isn’t this fun?”
Dashes	`-- is en-dash, --- is em-dash`	– is en-dash, — is em-dash

建立一個自定義列表

Markdown

Text-to- HTML conversion tool

Authors

John

Luke

如何建立一個註腳

一個具有註腳的文字。²

註釋也是必不可少的

Markdown將文字轉換為 HTML。

KaTeX數學公式

您可以使用渲染LaTeX數學表示式 KaTeX:

Gamma公式展示 Γ ( n ) = ( n − 1 ) ! ∀ n ∈ N \Gamma(n) = (n-1)!\quad\forall n\in\mathbb N Γ(n)=(n−1)!∀n∈N 是通過尤拉積分

Γ ( z ) = ∫ 0 ∞ t z − 1 e − t d t . \Gamma(z) = \int_0^\infty t^{z-1}e^{-t}dt\,. Γ(z)=∫0∞tz−1e−tdt.

你可以找到更多關於的資訊 LaTeX 數學表示式here.

新的甘特圖功能，豐富你的文章

關於 甘特圖 語法，參考這兒,

UML 圖表

可以使用UML圖表進行渲染。 Mermaid. 例如下面產生的一個序列圖：

這將產生一個流程圖。:

關於 Mermaid 語法，參考這兒,

FLowchart流程圖

我們依舊會支援flowchart的流程圖：

關於 Flowchart流程圖 語法，參考這兒.

匯出與匯入

匯出

如果你想嘗試使用此編輯器, 你可以在此篇文章任意編輯。當你完成了一篇文章的寫作, 在上方工具欄找到 文章匯出 ，生成一個.md檔案或者.html檔案進行本地儲存。

匯入

如果你想載入一篇你寫過的.md檔案，在上方工具欄可以選擇匯入功能進行對應副檔名的檔案匯入，
繼續你的創作。

mermaid語法說明 ↩︎
註腳的解釋 ↩︎

非引數密度估計