秋招材料整理——聚類

阿新 • • 發佈：2019-01-26

一、效能度量

非監督學習，無類別標記。試圖將樣本劃分為若干個不相交子集，稱為“簇”
效能度量：“簇內相似度高”，“簇間相似度低”
- 外部指標：將聚類結果 $C$ 與某個“參考模型” $C*$ 進行比較；預測類別 $λ$ ，參考類別 $λ^*$
  $a=|SS|,SS={\{(x_i,x_j)|\lambda_i = \lambda_j,\lambda_i^* = \lambda_j^*,i<j}\}$
  $b = ∣ S$
  
  D∣,SD={(xi,xj)∣λi≠λj,λi∗=λj∗,i<j}b=|SD|,SD={\{(x_i,x_j)|\lambda_i \ne\lambda_j,\lambda_i^* = \lambda_j^*,i<j}\}b=∣SD∣,SD={(xi,xj)∣λi̸=λj,λi∗=λj∗,i<j}
  $c=|DS|,DS={\{(x_i,x_j)|\lambda_i = \lambda_j,\lambda_i^* \ne \lambda_j^*,i<j}\}$
  $d=|DD|,DD={\{(x_i,x_j)|\lambda_i \ne \lambda_j,\lambda_i^* \ne \lambda_j^*,i<j}\}$
  - 三種系數均 $∈[0,1]$ ，值越大越好
  - Jaccard係數
    $JC=\frac{a}{a+b+c}$
  - FM指數
    $FMI=\sqrt{\frac{a}{a+b}*\frac{a}{a+c}}$
  - Rand指數
    $RI=\frac{a+d}{a+b+c+d}$
- 內部指標：直接考察聚類結果而不利用任何參考模型： $dist()$ 距離， $μ$ 中心點，共 $c$ 個點
  簇C內樣本間平均距離
  $avg(C)=\frac{2}{|C|(|C|-1)}\sum_{1 \le i <j \le |C|}dist(x_i,x_j)$
  簇C內樣本間最遠距離
  $diam(C)=\max_{1 \le i <j \le |C|}dist(x_i,x_j)$
  簇Ci,Cj最近樣本間距離
  $d_{min}(C_i,C_j)=\min_{x_i \in C_i,x_j \in C_j}dist(x_i,x_j)$
  簇Ci,Cj中心點間距離
  $d_{cen}(C_i,C_j)=dist(u_i,u_j)$
  - DB指數
    $DBI=\frac{1}{k}\sum_{i=1}^k\max_{j\ne i}(\frac{avg(C_i)+avg(C_j)}{d_{cen}(u_i,u_j)})$
  - Dunn指數
    $DI=\min_{1 \le i \le k}{\{\min_{j \ne i}(\frac{d_{min}(C_i,C_j)}{\max_{1 \le l \le k}diam(C_l)})\}}$

二、原型聚類：

用原型向量刻畫聚類結構的不同

距離：閔可夫斯基距離（p範數）
- $p==2$ 時，歐氏距離
- $p==1$ 時，曼哈頓距離

1. k-means：通過最小化均方差，將資料集分成k個“簇”

隨機初始化 $k$ 個聚類中心
迭代：
- 將樣本分到距離最近的聚類中心
- 更新聚類中心：取所有點的均值；點數為0的中心刪掉

2.學習向量量化(LVQ)：假設資料樣本帶有類別標記

隨機初始化一組原型向量 $p_i$
迭代：
- 計算樣本到各 $p_i$ 的距離
- 找出到每個樣本最近的 $p_i$ ，更新 $p_i$ 向該樣本靠攏
將樣本分到距離最

秋招材料整理——聚類

一、效能度量非監督學習，無類別標記。試圖將樣本劃分為若干個不相交子集，稱為“簇” 效能度量：“簇內相似度高”，“簇間相似度低” 外部指標：將聚類結果CCC與某個“參考模型”C∗C*C∗進行比較；預測類別λλλ，參考類別λ∗λ^*λ∗ a=∣SS∣,SS

秋招材料整理——機器學習（比較雜）

一、非平衡資料分類器偏向於多數類：目標是最小化整體錯誤率，少數類起到的作用很小假設代價是相同的資料層面解決非平衡資料：正負樣本都非常少時，用資料合成：SMOTE利用已有樣本生成更多

秋招材料整理——基礎（計算機網等）

一、TCP三次握手 1.過程 1）首先 B 處於 LISTEN（監聽）狀態，等待客戶的連線請求。 2）A 向 B 傳送連線請求報文段，SYN=1，ACK=0，選擇一個初始的序號 x。 3）B 收到連

秋招材料整理——LR

一、整體概述 LR假設資料服從伯努利分佈（零一分佈，二項分佈），通過極大化似然函式的方法，運用梯度下降來求解引數，從而達到將資料二分類的目的。極大似然原理：簡單理解：樣本所展現的狀態便是所有可

秋招材料整理——整合學習

一、概念整合方式主要有3種：boosting和bagging 和 stacking 整合學習：將多個弱學習器結合起來組成一個強學習器個體學習器一般選擇：決策樹，神經網路（整合時可以是同類，也可以是不同類）什麼時候整合效果好於單個學習器？ “好而不同”

秋招材料整理——貝葉斯分類器

一、貝葉斯決策論 1.概念基於概率。對分類任務來說，在所有相關概率均已知的理想情形下，貝葉斯考慮如何基於這些概率和誤判損失來選擇最優的類別標記 λijλ_{ij}λij是一個將真實標記為cjc_

【計算機視覺演算法崗面經】“吐血”整理：2019秋招資料

轉自：https://blog.csdn.net/liuxiao214/article/details/83043170 感謝整理，侵刪 //2018/09/27 兵荒馬亂、浩浩蕩蕩的秋招終於差不多要結束了。秋招這段時間真是感慨很多，一時得意一時失意，還要平衡一不小心就來的心理落差

Java開發 2019秋招面經整理

從7月底開始，到10月中旬獲得offer 進入面試流程的包括位元組跳動、招銀科技、百度、Keep、華為、花旗、京東、有贊、去哪兒、拼多多、okcoin，收到的offer有華為、招銀、有贊、去哪兒，其他有一面涼、二面涼以及HR面涼等等。面試中遇到的問題整理如下，僅供參考計算機網路

資料庫以及SQL的一些面試題整理（2018年秋招）

1、MySQL用的挺多，問你一下，innodb的b+樹索引，主鍵索引，聚簇索引有什麼區別。 2、MySQL裡有哪些鎖，行鎖表鎖，樂觀鎖呢，我說了版本號和MVVC，開始問我MVVC。 3、事務的實際場景問題，兩個事務，一個查一個新增，問能否查到新增的，我問他隔

【秋招】京東_資料分析崗_面試題整理

1. 怎麼做惡意刷單檢測分類問題用機器學習方法建模解決，我想到的特徵有： 1）商家特徵：商家歷史銷量、信用、產品類別、發貨快遞公司等 2）使用者行為特徵：使用者信用、下單量、轉化率、下單路徑、瀏覽店鋪行為、支付賬號 3）環境特徵（主要是避免機

【計算機視覺演算法崗面經】“吐血”整理：2019秋招面經

//2018/09/28 當初開始面試時就想著，以後我一定要寫一篇面經，現在是來還願的時候了。首先，嗯，非常感謝牛客平臺，提供了很多資訊啊。而且去年11月曾報名左神的課程，非常感謝左神啊！課程相當值啊，你見過用1分鐘吃完飯接著講課的老師嗎！你見過自己加班加點也要把所有內容都講完

【秋招】騰訊_資料分析崗_面試題整理

1. 二叉樹題目略 2. 層序遍歷演算法題 1）由頂向下逐層訪問 2）可以用佇列儲存樹，每次列印根節點並將左右節點放進佇列 3. 圖論中的最大團、連通分量，然後問圖劃分的演算法略 4. 如何判斷社群活躍度（基於圖），現在想著可

【秋招】今日頭條_資料分析崗_面試題整理

1. 做自我介紹，著重介紹跟資料分析相關的經驗，還有自己為什麼要做資料分析略。 2. 如果次日使用者留存率下降了 5%該怎麼分析 1）首先採用“兩層模型”分析：對使用者進行細分，包括新老、渠道、活動、畫像等多個維度，然後分別計算每個維度下不同使用者的次日留

大資料聚類學習整理

備註：本文是閱讀一篇碩士論文《大規模資料聚類技術研究與實現》後的筆記整理，敬請閱讀，並向原作者錢彥江致敬 <一>概念透析 1、什麼是聚類？基於“物以類聚”的樸素思想，是將物理或抽象物件集合劃分為由類似的物件組成的多個類或簇（clu

【秋招】拼多多_資料分析崗_面試題整理

1. 貝葉斯公式複述並解釋應用場景 1）P（A|B) = P(B|A)*P(A) / P(B) 2）如搜尋query糾錯，設A為正確的詞，B為輸入的詞，那麼： a. P(A|B)表示輸入詞B實際為A的概率 b. P(B|A)表示詞A

資料庫相關知識點(秋招整理)

資料庫 1. 資料庫事務的 4 個特性是：原子性、一致性、持續性、隔離性 1) 原子性：事務是資料庫的邏輯工作單位，它對資料庫的修改要麼全部執行，要麼全部不執行。 2) 一致性：事務前後，資料庫的狀態都滿足所有的完整性約束。 3)

2018年Java校園秋招面試題整理

面試是我們每個人都要經歷的事情，大部分人且不止一次，這裡給大家總結最新的2018年面試題，讓大家在找工作時候能夠事半功倍。 1.Switch能否用string做引數？ a.在 Java 7 之前, switch 只能支援byte,short,char,int 或者其對

筆記：聚類分析(待整理)

聚類分析優缺點：優點： 1.聚類是自動的不必帶有方向性 2.易於理解和實施缺點： 1.有時候難以解讀聚類的結果 2.聚類結果對距離計算方式的算則和特徵之間的權重十分敏感 3.K-mean由K值主導 4.K-means對初始中心的選擇十分敏感 5.異常值也會成為族群做

2017年秋招Java面試高頻面試題（個人整理）

Java基礎：多型（原理、實現）過載和覆蓋抽象類、介面區別 ==、equals()、hashcode()-對於基本型別、引用型別分情況 String原理（原始碼中final實現了其不可變，底層資料結構-char陣列）、StringBuilder-執行緒不安全、StringBuffer執行緒安全（原始碼中

網易2017秋招編程題——回文序列解題報告

out += stream pan 唯一性 [1] bsp names length Problem:https://www.nowcoder.com/question/next?pid=2811407&qid=46573&tid=6015849 如果一個數

秋招材料整理——聚類

一、效能度量

二、原型聚類：

1. k-means：通過最小化均方差，將資料集分成k個“簇”

2.學習向量量化(LVQ)：假設資料樣本帶有類別標記

相關推薦