秋招材料整理——聚類
一、效能度量
- 非監督學習,無類別標記。試圖將樣本劃分為若干個不相交子集,稱為“簇”
- 效能度量:“簇內相似度高”,“簇間相似度低”
-
外部指標:將聚類結果C與某個“參考模型”C∗進行比較;預測類別λ,參考類別λ∗
a=∣SS∣,SS={(xi,xj)∣λi=λj,λi∗=λj∗,i<j}
b=∣SD∣,SD={(xi,xj)∣λi̸=λj,λi∗=λj∗,i<j}
c=∣DS∣,DS={(xi,xj)∣λi=λj,λi∗̸=λj∗,i<j}
d=∣DD∣,DD={(xi,xj)∣λi̸=λj,λi∗̸=λj∗,i<j}- 三種系數均 ∈[0,1],值越大越好
- Jaccard係數
JC - FM指數
FMI=a+ba∗a+ca - Rand指數
RI=a+b+c+da+d
-
內部指標:直接考察聚類結果而不利用任何參考模型:dist()距離,μ中心點,共c個點
簇C內樣本間平均距離
avg(C)=∣C∣(∣C∣−1)21≤i<j≤∣C∣∑dist(xi,xj)
簇C內樣本間最遠距離
diam(C)=1≤i<j≤∣C∣maxdist(xi,xj)
簇Ci,Cj最近樣本間距離
dmin(Ci,Cj)=xi∈Ci,xj∈Cjmindist(xi,xj)
簇Ci,Cj中心點間距離
dcen(Ci,Cj)=dist(ui,uj)- DB指數
DBI=k1i=1∑kj̸=imax(dcen(ui,uj)avg(Ci)+avg(Cj)) - Dunn指數
DI=1≤i≤kmin{j̸=imin(max1≤l≤kdiam(Cl)dmin(Ci,Cj))}
- DB指數
-
二、原型聚類:
用原型向量刻畫聚類結構的不同
- 距離:閔可夫斯基距離(p範數)
- p==2時,歐氏距離
- p==1時,曼哈頓距離
1. k-means:通過最小化均方差,將資料集分成k個“簇”
- 隨機初始化k個聚類中心
迭代:- 將樣本分到距離最近的聚類中心
- 更新聚類中心:取所有點的均值;點數為0的中心刪掉
2.學習向量量化(LVQ):假設資料樣本帶有類別標記
- 隨機初始化一組原型向量pi
迭代:- 計算樣本到各pi的距離
- 找出到每個樣本最近的pi,更新pi向該樣本靠攏
- 將樣本分到距離最
相關推薦
秋招材料整理——聚類
一、效能度量 非監督學習,無類別標記。試圖將樣本劃分為若干個不相交子集,稱為“簇” 效能度量:“簇內相似度高”,“簇間相似度低” 外部指標:將聚類結果CCC與某個“參考模型”C∗C*C∗進行比較;預測類別λλλ,參考類別λ∗λ^*λ∗ a=∣SS∣,SS
秋招材料整理——機器學習(比較雜)
一、非平衡資料 分類器偏向於多數類: 目標是最小化整體錯誤率,少數類起到的作用很小 假設代價是相同的 資料層面解決非平衡資料: 正負樣本都非常少時,用資料合成:SMOTE利用已有樣本生成更多
秋招材料整理——基礎(計算機網等)
一、TCP三次握手 1.過程 1)首先 B 處於 LISTEN(監聽)狀態,等待客戶的連線請求。 2)A 向 B 傳送連線請求報文段,SYN=1,ACK=0,選擇一個初始的序號 x。 3)B 收到連
秋招材料整理——LR
一、整體概述 LR假設資料服從伯努利分佈(零一分佈,二項分佈),通過極大化似然函式的方法,運用梯度下降來求解引數,從而達到將資料二分類的目的。 極大似然原理: 簡單理解:樣本所展現的狀態便是所有可
秋招材料整理——整合學習
一、概念 整合方式主要有3種:boosting和bagging 和 stacking 整合學習:將多個弱學習器結合起來組成一個強學習器 個體學習器一般選擇:決策樹,神經網路(整合時可以是同類,也可以是不同類) 什麼時候整合效果好於單個學習器? “好而不同”
秋招材料整理——貝葉斯分類器
一、貝葉斯決策論 1.概念 基於概率。對分類任務來說,在所有相關概率均已知的理想情形下,貝葉斯考慮如何基於這些概率和誤判損失來選擇最優的類別標記 λijλ_{ij}λij是一個將真實標記為cjc_
【計算機視覺演算法崗面經】“吐血”整理:2019秋招資料
轉自:https://blog.csdn.net/liuxiao214/article/details/83043170 感謝整理,侵刪 //2018/09/27 兵荒馬亂、浩浩蕩蕩的秋招終於差不多要結束了。 秋招這段時間真是感慨很多,一時得意一時失意,還要平衡一不小心就來的心理落差
Java開發 2019秋招 面經整理
從7月底開始,到10月中旬獲得offer 進入面試流程的包括位元組跳動、招銀科技、百度、Keep、華為、花旗、京東、有贊、去哪兒、拼多多、okcoin,收到的offer有華為、招銀、有贊、去哪兒,其他有一面涼、二面涼以及HR面涼等等。 面試中遇到的問題整理如下,僅供參考 計算機網路
資料庫以及SQL的一些面試題整理(2018年秋招)
1、MySQL用的挺多,問你一下,innodb的b+樹索引,主鍵索引,聚簇索引有什麼區別。 2、MySQL裡有哪些鎖,行鎖表鎖,樂觀鎖呢,我說了版本號和MVVC,開始問我MVVC。 3、事務的實際場景問題,兩個事務,一個查一個新增,問能否查到新增的,我問他隔
【秋招】京東_資料分析崗_面試題整理
1. 怎麼做惡意刷單檢測 分類問題用機器學習方法建模解決,我想到的特徵有: 1)商家特徵:商家歷史銷量、信用、產品類別、發貨快遞公司等 2)使用者行為特徵:使用者信用、下單量、轉化率、下單路徑、瀏覽店鋪行為、支付賬號 3)環境特徵(主要是避免機
【計算機視覺演算法崗面經】“吐血”整理:2019秋招面經
//2018/09/28 當初開始面試時就想著,以後我一定要寫一篇面經,現在是來還願的時候了。 首先,嗯,非常感謝牛客平臺,提供了很多資訊啊。而且去年11月曾報名左神的課程,非常感謝左神啊!課程相當值啊,你見過用1分鐘吃完飯接著講課的老師嗎!你見過自己加班加點也要把所有內容都講完
【秋招】騰訊_資料分析崗_面試題整理
1. 二叉樹題目 略 2. 層序遍歷演算法題 1)由頂向下逐層訪問 2)可以用佇列儲存樹,每次列印根節點並將左右節點放進佇列 3. 圖論中的最大團、連通分量,然後問圖劃分的演算法 略 4. 如何判斷社群活躍度(基於圖),現在想著可
【秋招】今日頭條_資料分析崗_面試題整理
1. 做自我介紹,著重介紹跟資料分析相關的經驗,還有自己為什麼要做資料分析 略。 2. 如果次日使用者留存率下降了 5%該怎麼分析 1)首先採用“兩層模型”分析:對使用者進行細分,包括新老、渠道、活動、畫像等多個維度,然後分別計算每個維度下不同使用者的次日留
大資料聚類學習整理
備註:本文是閱讀一篇碩士論文《大規模資料聚類技術研究與實現》後的筆記整理,敬請閱讀,並向原作者錢彥江致敬 <一>概念透析 1、什麼是聚類? 基於“物以類聚”的樸素思想,是將物理或抽象物件集合劃分為由類似的物件組成的多個類或簇(clu
【秋招】拼多多_資料分析崗_面試題整理
1. 貝葉斯公式複述並解釋應用場景 1)P(A|B) = P(B|A)*P(A) / P(B) 2)如搜尋query糾錯,設A為正確的詞,B為輸入的詞,那麼: a. P(A|B)表示輸入詞B實際為A的概率 b. P(B|A)表示詞A
資料庫相關知識點(秋招整理)
資料庫 1. 資料庫事務的 4 個特性是:原子性、一致性、持續性、隔離性 1) 原子性:事務是資料庫的邏輯工作單位,它對資料庫的修改要麼全部執行,要麼全部不執行。 2) 一致性:事務前後,資料庫的狀態都滿足所有的完整性約束。 3)
2018年Java校園秋招面試題整理
面試是我們每個人都要經歷的事情,大部分人且不止一次,這裡給大家總結最新的2018年面試題,讓大家在找工作時候能夠事半功倍。 1.Switch能否用string做引數? a.在 Java 7 之前, switch 只能支援byte,short,char,int 或者其對
筆記:聚類分析(待整理)
聚類分析優缺點: 優點: 1.聚類是自動的不必帶有方向性 2.易於理解和實施 缺點: 1.有時候難以解讀聚類的結果 2.聚類結果對距離計算方式的算則和特徵之間的權重十分敏感 3.K-mean由K值主導 4.K-means對初始中心的選擇十分敏感 5.異常值也會成為族群 做
2017年秋招Java面試高頻面試題(個人整理)
Java基礎: 多型(原理、實現) 過載和覆蓋 抽象類、介面區別 ==、equals()、hashcode()-對於基本型別、引用型別分情況 String原理(原始碼中final實現了其不可變,底層資料結構-char陣列)、StringBuilder-執行緒不安全、StringBuffer執行緒安全(原始碼中
網易2017秋招編程題——回文序列 解題報告
out += stream pan 唯一性 [1] bsp names length Problem:https://www.nowcoder.com/question/next?pid=2811407&qid=46573&tid=6015849 如果一個數