1. 程式人生 > >秋招材料整理——聚類

秋招材料整理——聚類

一、效能度量

  • 非監督學習,無類別標記。試圖將樣本劃分為若干個不相交子集,稱為“簇”
  • 效能度量:“簇內相似度高”,“簇間相似度低”
    • 外部指標:將聚類結果CC與某個“參考模型”CC*進行比較;預測類別λλ,參考類別λλ^*
      a=SS,SS={(xi,xj)λi=λj,λi=λj,i<j}a=|SS|,SS={\{(x_i,x_j)|\lambda_i = \lambda_j,\lambda_i^* = \lambda_j^*,i<j}\}
      b=S

      D,SD={(xi,xj)λiλj,λi=λj,i<j}b=|SD|,SD={\{(x_i,x_j)|\lambda_i \ne\lambda_j,\lambda_i^* = \lambda_j^*,i<j}\}
      c=DS,DS={(xi,xj)λi=λj,λiλj,i<j}c=|DS|,DS={\{(x_i,x_j)|\lambda_i = \lambda_j,\lambda_i^* \ne \lambda_j^*,i<j}\}

      d=DD,DD={(xi,xj)λiλj,λiλj,i<j}d=|DD|,DD={\{(x_i,x_j)|\lambda_i \ne \lambda_j,\lambda_i^* \ne \lambda_j^*,i<j}\}

      • 三種系數均 [0,1]∈[0,1],值越大越好
      • Jaccard係數
        JC=aa+b+cJC=\frac{a}{a+b+c}
      • FM指數
        FMI=aa+baa+cFMI=\sqrt{\frac{a}{a+b}*\frac{a}{a+c}}
      • Rand指數
        RI=a+da+b+c+dRI=\frac{a+d}{a+b+c+d}
    • 內部指標:直接考察聚類結果而不利用任何參考模型:dist()dist()距離,μμ中心點,共cc個點
      簇C內樣本間平均距離
      avg(C)=2C(C1)1i<jCdist(xi,xj)avg(C)=\frac{2}{|C|(|C|-1)}\sum_{1 \le i <j \le |C|}dist(x_i,x_j)
      簇C內樣本間最遠距離
      diam(C)=max1i<jCdist(xi,xj)diam(C)=\max_{1 \le i <j \le |C|}dist(x_i,x_j)
      簇Ci,Cj最近樣本間距離
      dmin(Ci,Cj)=minxiCi,xjCjdist(xi,xj)d_{min}(C_i,C_j)=\min_{x_i \in C_i,x_j \in C_j}dist(x_i,x_j)
      簇Ci,Cj中心點間距離
      dcen(Ci,Cj)=dist(ui,uj)d_{cen}(C_i,C_j)=dist(u_i,u_j)

      • DB指數
        DBI=1ki=1kmaxji(avg(Ci)+avg(Cj)dcen(ui,uj))DBI=\frac{1}{k}\sum_{i=1}^k\max_{j\ne i}(\frac{avg(C_i)+avg(C_j)}{d_{cen}(u_i,u_j)})
      • Dunn指數
        DI=min1ik{minji(dmin(Ci,Cj)max1lkdiam(Cl))}DI=\min_{1 \le i \le k}{\{\min_{j \ne i}(\frac{d_{min}(C_i,C_j)}{\max_{1 \le l \le k}diam(C_l)})\}}

二、原型聚類:

用原型向量刻畫聚類結構的不同

  • 距離:閔可夫斯基距離(p範數)
    • p==2p==2時,歐氏距離
    • p==1p==1時,曼哈頓距離

1. k-means:通過最小化均方差,將資料集分成k個“簇”

  • 隨機初始化kk個聚類中心
    迭代:
    • 將樣本分到距離最近的聚類中心
    • 更新聚類中心:取所有點的均值;點數為0的中心刪掉

2.學習向量量化(LVQ):假設資料樣本帶有類別標記

  • 隨機初始化一組原型向量pip_i
    迭代:
    • 計算樣本到各pip_i的距離
    • 找出到每個樣本最近的pip_i,更新pip_i向該樣本靠攏
  • 將樣本分到距離最