非引數密度估計
非引數密度估計課本內容梳理
介紹
- 概率分佈是統計推斷的核心,從某種意義上看,聯合概率密度提供了關於所要分析變數的全部資訊,有了聯合密度,則可以回答變數子集之間的任何問題
- 從廣義上看,引數估計是在假定資料總體密度形式下對引數的估計,比如:
- 我們所熟知的 X ‾ \overline{X} X是兩點分佈中p的一致性估計
- S n 2 = 1 n ∑ i = 1 n ( X i − X ‾ i ) 2 \displaystyle{S_n^2=\frac{1}{n} \displaystyle\sum_{i=1}^n(X_i-\overline{X}_i)^2} Sn2=n1i=1∑n(Xi−Xi)2是一元正態總體方差的極大似然估計
- 而
X
n
×
p
B
^
p
×
q
=
X
n
×
p
(
X
′
X
)
p
×
p
−
1
X
′
Y
n
×
q
\bm{X_{n{\times}p}\hat{B}_{p{\times}q}=X_{n{\times}p}(X'X)_{p{\times}p}^{-1}X'Y}_{n{\times}q}
- 一旦引數確定,則分佈完全確定,因而可以說引數統計推斷的核心內容就是對密度的估計
- 實際中,很多資料的分佈是無法事先假定的,加上決策的可靠性不斷提高,因此需要適應性更廣的密度估計方法
- 最近幾年尤其是隨著資料庫的廣泛應用和資料探勘技術的興起,概率密度估計成為模式分類技術的重要內容得到廣泛關注
一、直方圖密度估計
- 在基礎的統計課程中,直方圖經常用來描述資料的頻率,使研究者對所研究的資料有一個較好的理解。 - 這裡我們介紹如何使用直方圖估計一個隨機變數的密度。 - 直方圖密度估計與用直方圖估計頻率的差別在於,在直方圖密度估計中,我們需要對頻率估計進行歸一化,使其成為一個密度函式的估計。 - 直方圖是最基本的非引數密度估計方法,有著廣泛的應用
1.基本概念
-
以一元為例,假定有資料 x 1 , x 2 , … , x n ∈ [ a , b ) . x_1,x_2,…,x_n\in[a,b). x1,x2,…,xn∈[a,b).對區間 [ a , b ) [a,b) [a,b)做如下劃分,即 a = a 0 < a 1 < a 2 < … < a k = b , I i = [ a i − 1 , a i ) , i = 1 , 2 , … , k . a=a_0<a_1<a_2<…<a_k=b,I_i=[a_{i-1},a_i),i=1,2,…,k. a=a0<a1<a2<…<ak=b,Ii=[ai−1,ai),i=1,2,…,k.我們有 ⋃ i = 1 k I i = [ a , b ) , I i ∩ I j = ∅ , i = / j . \displaystyle\bigcup_{i=1}^kI_i=[a,b),I_i\cap I_j=\varnothing,i {=}\mathllap{/\,}j. i=1⋃kIi=[a,b),Ii∩Ij=∅,i=/j.令 n i = # { x i ∈ I i } n_i=\#\{x_i\in I_i\} ni=#{xi∈Ii}為落在 I i I_i Ii中資料的個數.
-
我們如下定義直方圖密度估計,
p ^ ( x ) = { n i n ( a i − a i − 1 ) , 當 x ∈ I i ; 0 , 當 x ∉ [ a , b ) , \hat p(x)= \begin{cases} \frac{n_i}{n(a_i-a_{i-1})}, &\text{當 } x\in I_i; \\ 0, &\text{當 } x\notin [a,b), \end{cases} p^(x)={n(ai−ai−1)ni,0,當x∈Ii;當x∈/[a,b),
- 在實際操作中,我們經常取相同的區間,即 I i ( i = 1 , 2 , … , k ) I_i(i=1,2,…,k) Ii(i=1,2,…,k)的寬度均為 h h h,在此情況下,有
p ^ ( x ) = { n i n h , 當 x ∈ I i ; 0 , 當 x ∉ [ a , b ) , \hat p(x)= \begin{cases} \frac{n_i}{nh}, &\text{當 } x\in I_i; \\ 0, &\text{當 } x\notin [a,b), \end{cases} p^(x)={nhni,0,當x∈Ii;當x∈/[a,b),
上式中, h h h 既是歸一化引數,又表示每一組的組距,稱為頻寬或窗寬.另外,我們可以看到
∫ a b p ^ ( x ) d x = ∑ i = 1 k ∫ I i n i / ( n h ) d x = ∑ i = 1 k n i / n {\displaystyle\int _{a}^{b}} \hat p(x) \mathrm{d} x=\displaystyle\sum_{i=1}^k \int_{I_i}n_i/(nh)\mathrm{d}x=\displaystyle\sum_{i=1}^{k}n_i/n ∫abp^(x)dx=i=1∑k∫Iini/(nh)dx=i=1∑kni/n = 1.
- 由於位於同一組內所有點的直方圖密度估計均相等,因而直方圖所對應的分佈函式 F ^ h ( x ) \hat F_h(x) F^h(x)是單調增的階梯函式.這與經驗分佈函式形狀類似.實際上,當分組間隔縮小到每組中最多隻有一個數據時,直方圖的分佈函式就是經驗分佈函式,即 h → 0 h\rarr 0 h→0,有 F ^ h ( x ) → F ^ n ( x ) . \hat F_h(x)\rarr \hat F_n(x). F^h(x)→F^n(x).
- 定理:固定
x
x
x 和
h
h
h,令估計的密度是
p
^
(
x
)
\hat p(x)
p^(x),如果
x
∈
I
j
,
p
j
=
∫
I
j
p
^
(
x
)
d
x
x\in I_j,p_j=\displaystyle \int_{I_j}\hat p(x) \mathrm{d}x
x∈Ij,pj=∫Ijp^(x)dx,有
E p ^ ( x ) = p j / h , v a r p ^ ( x ) = p j ( 1 − p j ) n h ² . E\hat p(x)=p_j/h,\mathrm{var}\hat p(x)=\frac{p_j(1-p_j)}{nh²}. Ep^(x)=pj/h,varp^(x)=nh²pj(1−pj).
2.理論性質和最優頻寬
3.多維直方圖
二、核密度估計
1.基本概念
2.理論性質和頻寬
3.多維核密度估計
4.貝葉斯決策和非引數密度估計
三、k近鄰估計
四、案例
我們對Markdown編輯器進行了一些功能拓展與語法支援,除了標準的Markdown編輯器功能,我們增加了如下幾點新功能,幫助你用它寫部落格:
- 全新的介面設計 ,將會帶來全新的寫作體驗;
- 在創作中心設定你喜愛的程式碼高亮樣式,Markdown 將程式碼片顯示選擇的高亮樣式 進行展示;
- 增加了 圖片拖拽 功能,你可以將本地的圖片直接拖拽到編輯區域直接展示;
- 全新的 KaTeX數學公式 語法;
- 增加了支援甘特圖的mermaid語法1 功能;
- 增加了 多螢幕編輯 Markdown文章功能;
- 增加了 焦點寫作模式、預覽模式、簡潔寫作模式、左右區域同步滾輪設定 等功能,功能按鈕位於編輯區域與預覽區域中間;
- 增加了 檢查列表 功能。
功能快捷鍵
撤銷:Ctrl/Command + Z
重做:Ctrl/Command + Y
加粗:Ctrl/Command + B
斜體:Ctrl/Command + I
標題:Ctrl/Command + Shift + H
無序列表:Ctrl/Command + Shift + U
有序列表:Ctrl/Command + Shift + O
檢查列表:Ctrl/Command + Shift + C
插入程式碼:Ctrl/Command + Shift + K
插入連結:Ctrl/Command + Shift + L
插入圖片:Ctrl/Command + Shift + G
查詢:Ctrl/Command + F
替換:Ctrl/Command + G
合理的建立標題,有助於目錄的生成
直接輸入1次#,並按下space後,將生成1級標題。
輸入2次#,並按下space後,將生成2級標題。
以此類推,我們支援6級標題。有助於使用TOC
語法後生成一個完美的目錄。
如何改變文字的樣式
強調文字 強調文字
加粗文字 加粗文字
標記文字
刪除文字
引用文字
H2O is是液體。
210 運算結果是 1024.
插入連結與圖片
連結: link.
圖片:
帶尺寸的圖片:
居中的圖片:
居中並且帶尺寸的圖片:
當然,我們為了讓使用者更加便捷,我們增加了圖片拖拽功能。
如何插入一段漂亮的程式碼片
去部落格設定頁面,選擇一款你喜歡的程式碼片高亮樣式,下面展示同樣高亮的 程式碼片
.
// An highlighted block
var foo = 'bar';
生成一個適合你的列表
- 專案
- 專案
- 專案
- 專案
- 專案1
- 專案2
- 專案3
- 計劃任務
- 完成任務
建立一個表格
一個簡單的表格是這麼建立的:
專案 | Value |
---|---|
電腦 | $1600 |
手機 | $12 |
導管 | $1 |
設定內容居中、居左、居右
使用:---------:
居中
使用:----------
居左
使用----------:
居右
第一列 | 第二列 | 第三列 |
---|---|---|
第一列文字居中 | 第二列文字居右 | 第三列文字居左 |
SmartyPants
SmartyPants將ASCII標點字元轉換為“智慧”印刷標點HTML實體。例如:
TYPE | ASCII | HTML |
---|---|---|
Single backticks | 'Isn't this fun?' | ‘Isn’t this fun?’ |
Quotes | "Isn't this fun?" | “Isn’t this fun?” |
Dashes | -- is en-dash, --- is em-dash | – is en-dash, — is em-dash |
建立一個自定義列表
-
Markdown
- Text-to- HTML conversion tool Authors
- John
- Luke
如何建立一個註腳
一個具有註腳的文字。2
註釋也是必不可少的
Markdown將文字轉換為 HTML。
KaTeX數學公式
您可以使用渲染LaTeX數學表示式 KaTeX:
Gamma公式展示 Γ ( n ) = ( n − 1 ) ! ∀ n ∈ N \Gamma(n) = (n-1)!\quad\forall n\in\mathbb N Γ(n)=(n−1)!∀n∈N 是通過尤拉積分
Γ ( z ) = ∫ 0 ∞ t z − 1 e − t d t . \Gamma(z) = \int_0^\infty t^{z-1}e^{-t}dt\,. Γ(z)=∫0∞tz−1e−tdt.
你可以找到更多關於的資訊 LaTeX 數學表示式here.
新的甘特圖功能,豐富你的文章
- 關於 甘特圖 語法,參考 這兒,
UML 圖表
可以使用UML圖表進行渲染。 Mermaid. 例如下面產生的一個序列圖:
這將產生一個流程圖。:
- 關於 Mermaid 語法,參考 這兒,
FLowchart流程圖
我們依舊會支援flowchart的流程圖:
- 關於 Flowchart流程圖 語法,參考 這兒.
匯出與匯入
匯出
如果你想嘗試使用此編輯器, 你可以在此篇文章任意編輯。當你完成了一篇文章的寫作, 在上方工具欄找到 文章匯出 ,生成一個.md檔案或者.html檔案進行本地儲存。
匯入
如果你想載入一篇你寫過的.md檔案,在上方工具欄可以選擇匯入功能進行對應副檔名的檔案匯入,
繼續你的創作。
註腳的解釋 ↩︎