1. 程式人生 > >資料探勘工程師知識集錦

資料探勘工程師知識集錦

資料探勘的技術過程:

  1. 資料清理(消除噪音或不一致資料)
  2. 資料整合(多種資料來源可以組合在一起)
  3. 資料選擇(從資料庫中提取與分析任務相關的資料)
  4. 資料變換(資料變換或統一成適合挖掘的形式;如,通過彙總或聚集操作)
  5. 資料探勘(基本步驟,使用智慧方法提取資料模式)
  6. 模式評估(根據某種興趣度度量,識別提供知識的真正有趣的模式)
  7. 知識表示(使用視覺化和知識表示技術,向用戶提供挖掘的知識)。

這裡寫圖片描述

這裡寫圖片描述

可以挖掘的資料型別:

關係資料庫、資料倉庫、事務資料庫、空間資料庫、時間序列資料庫、文字資料庫和多媒體資料庫。

關係資料庫:是表的集合,每個表都賦予一個唯一的名字。每個表包含一組 屬性(列或欄位),並通常存放大量 元組(記錄或行)。關係中的每個元組代表一個被唯一關鍵字標識的物件,並被一組屬性值描述。

資料倉庫:通過資料清理、資料變換、資料整合、資料裝入和定期資料重新整理構造
這裡寫圖片描述

事務資料庫:由一個檔案組成,其中每個記錄代表一個事務。通常,一個事務包含一個唯一的事務標識號(trans_ID),和一個組成事務的項的列表(如,在商店購買的商品)

資料抽樣:

抽樣是一種選擇資料物件子集進行分析的常用方法。在統計學中,抽樣長期用於資料的事先調查和最終的資料分析。在資料探勘中,抽樣也非常有用。然而,在統計學和資料探勘中,抽樣的動機並不相同。統計學使用抽樣是因為得到感興趣的整個資料集的費用太高、太費時間,而資料探勘使用抽樣是因為處理所有的資料的費用太高、太費時間。在某些情況下,使用抽樣的演算法可以壓縮資料量,以便可以使用更好但開銷較大的資料探勘演算法。
有效抽樣的主要原理如下:如果樣本是有代表性的,則使用樣本與使用整個資料集的效果幾乎一樣。而樣本是有代表性的,前提是它近似地具有與原資料集相同的(感興趣的)性質。如果資料物件的均值(平均值)是感興趣的性質,而樣本具有近似於原資料集的均值,則樣本就是有代表性的。由於抽樣是一個統計過程,特定樣本的代表性是變化的,因此我們所能做的最好的抽樣方案就是選擇一個確保以很高的概率得到有代表性的樣本。如下所述,這涉及選擇適當的樣本容量和抽樣技術。
1. 抽樣方法
有許多抽樣技術,但是這裡只介紹少數最基本的抽樣技術和它們的變形。最簡單的抽樣是簡單隨機抽樣(simple random sampling)。對於這種抽樣,選取任何特定項的概率相等。隨機抽樣有兩種變形(其他抽樣技術也一樣):(1) 無放回抽樣–每個選中項立即從構成總體的所有物件集中刪除;(2) 有放回抽樣–物件被選中時不從總體中刪除。在有放回抽樣中,相同的物件可能被多次抽出。當樣本與資料集相比相對較小時,兩種方法產生的樣本差別不大。但是,對於分析,有放回抽樣較為簡單,因為在抽樣過程中,每個物件被選中的概率保持不變。
當總體由不同型別的物件組成,每種型別的物件數量差別很大時,簡單隨機抽樣不能充分地代表不太頻繁出現的物件型別。當分析需要所有型別的代表時,這可能出現問題。例如,當為稀有類構建分類模型時,樣本中適當地提供稀有類是至關重要的,因此需要提供具有不同頻率的感興趣的項的抽樣方案。分層抽樣(stratified sampling)就是這樣的方法,它從預先指定的組開始抽樣。在最簡單的情況下,儘管每組的大小不同,但是從每組抽取的物件個數相同。另一種變形是從每一組抽取的物件數量正比於該組的大小。
例2.8 抽樣與資訊損失 一旦選定抽樣技術,就需要選擇樣本容量。較大的樣本容量增大了樣本具有代表性的概率,但也抵消了抽樣帶來的許多好處。反過來,使用較小容量的樣本,可能丟失模式,或檢測出錯誤的模式。圖2-9a顯示包含8 000個二維點的資料集,而圖2-9b和圖2-9c顯示從該資料集抽取的容量分別為2 000和500的樣本。該資料集的大部分結構都出現在2 000個點的樣本中,但是許多結構在500個點的樣本中丟失了。

圖2-9 抽樣丟失結構的例子
例2.9 確定適當的樣本容量 為了說明確定合適的樣本容量需要系統的方法,考慮下面的任務。
給定一個數據集,它包含少量容量大致相等的組。從每組至少找出一個代表點。假定每個組內的物件高度相似,但是不同組中的物件不太相似。還假定組的個數不多(例如,10個組)。圖2-10a顯示了一個理想簇(組)的集合,這些點可能從中抽取。
使用抽樣可以有效地解決該問題。一種方法是取資料點的一個小樣本,逐對計算點之間的相似性,然後形成高度相似的點組。從這些組每組取一個點,則可以得到具有代表性的點的集合。然而,按照該方法,我們需要確定樣本的容量,它以很高的概率確保得到期望的結果,即從每個簇至少找出一個代表點。圖2-10b顯示隨著樣本容量從10變化到60時,從10個組的每一個得到一個物件的概率。有趣的是,使用容量為20的樣本,只有很小的機會(20%)得到包含所有10個簇的樣本。即便使用容量為30的樣本,得到不包含所有10個簇中物件的樣本的機率也很高(幾乎40%)。該問題將在第8章習題4討論聚類中進一步考察。

圖2-10 從10個組找出具有代表性的點
2. 漸進抽樣
合適的樣本容量可能很難確定,因此有時需要使用自適應(adaptive)或漸進抽樣(progre- ssive sampling)方法。這些方法從一個小樣本開始,然後增加樣本容量直至得到足夠容量的樣本。儘管這種技術不需要在開始就確定正確的樣本容量,但是需要評估樣本的方法,確定它是否足夠大。
例如,假定使用漸進抽樣來學習一個預測模型。儘管預測模型的準確率隨樣本容量增加,但是在某一點準確率的增加趨於穩定。我們希望在穩定點停止增加樣本容量。通過掌握模型準確率隨樣本逐漸增大的變化情況,並通過選取接近於當前容量的其他樣本,我們可以估計出與穩定點的接近程度,從而停止抽樣。

資料預處理

分箱法:

由於分箱方法考慮相鄰的值,因此是一種區域性平滑方法。分箱的主要目的是去噪,將連續資料離散化,增加粒度。
按照取值的不同可劃分為按箱平均值平滑、按箱中值平滑以及按箱邊界值平滑。

假設有8、24、15、41、6、10、18、67、25等9個數,先對數進行從小到大的排序,6、8、10、15、18、24、25、41、67,再分為3箱。
箱1: 6、8、10
箱2: 15、18、24
箱3: 25、41、67
分別用三種不同的分箱法求出平滑儲存資料的值:
按箱平均值求得平滑資料值:箱1: 8,8,8,平均值是8,這樣該箱中的每一個值被替換為8。
按箱中值求得平滑資料值:箱2: 18,18,18 ,可以使用按箱中值平滑,此時,箱中的每一個值被箱中的中值替換。
按箱邊界值求得平滑資料值: 箱3:25,25,67,箱中的最大和最小值被視為箱邊界。箱中的每一個值都被最近的邊界值替換。

可以挖掘的模式型別:

挖掘頻繁模式、關聯和相關性

用於預測分析的分類與迴歸

聚類分析

離群點分析

使用的技術

這裡寫圖片描述

面向的應用型別

商務智慧、web搜尋引擎

在挖掘中需要注意的東西

源資料特徵方面:

1、監督還是非監督,即有無樣本資料。
2、物件特徵(屬性)是什麼產生的,為什麼這麼產生
3、屬性是離散的還是連續的
4、混合型別屬性。離散屬性是標稱還是數值。標稱屬性型別:二元、有序、無關。數值屬性型別:區間、比例
5、特徵維度和稀疏度怎麼處理
6、缺失值怎麼處理
7、各維度尺度怎麼處理
8、異常噪聲怎麼處理
9、超大資料集怎麼辦

資料間相似性和相異性的度量:

1、資料矩陣(物件-屬性結構)、相異性矩陣(物件-物件結構)
2、標稱屬性的相似度、二元屬性的相似度、數值屬性的相似度、序數屬性相似度、混合屬性相似度
3、稀疏特徵向量的餘弦相似性

資料預處理方面(清洗、集承、歸約、變換):

這裡寫圖片描述

1、資料不準確怎麼辦?
2、資料不完整這麼辦?
3、資料格式不一致怎麼辦?
4、資料重複、冗餘怎麼辦?
5、資料已過時怎麼辦?
6、資料噪聲、離群點怎麼辦?
7、維度太高怎麼辦?(歸約、小波變換、主成分分析、屬性子集、)

資料結果方面:

1、數值結果還是類結果
2、如何判斷結果的好壞(分類結果評估?聚類結果評估)
3、結果能否反饋到模型中(後饋)

模型方面:
1、如何判斷模型的好壞
2、如何用現有資料增強模型(交叉驗證)
3、如何並用多個模型(隨機森林)

資料探勘演算法

分類器與聚類演算法不同。聚類演算法是非監督演算法,只是對一群輸入物件進行分組,每組屬於什麼類別是不知道的。而分類器是在沒有任何資料前就已經定好了擁有哪些類。分類器是監督演算法。對一批已知所屬分類的資料集進行統計訓練。然後再對新來的資料進行判定屬於哪個分類。

分類過程概述:首先有一批已知分類的資料集。對每個輸入物件提取特徵,根據輸入物件的特徵屬性和輸入物件的所屬分類,計算分類與特徵屬性之間的概率關係,以此來實現樣本的訓練。當對新的輸入物件進行預測所屬分類時,提取新輸入物件的特徵,根據訓練好的概率,判斷輸入物件屬於每個分類的概率。

python機器學習演算法

python機器學習庫教程

分類模型的評判

用什麼評估:

混淆矩陣(Confusion Matrix)分析

怎麼評估:

交叉驗證

評估結果:

一個模型在訓練資料上能夠獲得比其他模型更好的擬合, 但是在訓練資料外的資料集上卻不能很好地擬合數據,此時認為這個模型出現了過擬合的現象。出現這種現象的主要原因是訓練資料中存在噪音或者訓練資料太少。

例如下圖

這裡寫圖片描述

可以看出在a中雖然完全的擬合了樣本資料,但對於b中的測試資料分類準確度很差。而c雖然沒有完全擬合樣本資料,但在d中對於測試資料的分類準確度卻很高。過擬合問題往往是由於訓練資料少等原因造成的。

由測量的樣本資料,估計一個假定的模型/函式。根據擬合的模型是否合適?可分為以下三類:

1、合適擬合
2、欠擬合
3、過擬合

欠擬合:

這裡寫圖片描述

合適的擬合:

這裡寫圖片描述

過擬合:

這裡寫圖片描述

大資料工程師基技能圖譜:

這裡寫圖片描述

在部落格的文章中我們會盡量給出資料中所設計的技術教程。

python中給出numpypandas庫的使用

大資料處理平臺,我們給出
spark、hadoop的開發教程

資料倉庫,我們給出
spark sql的開發教程