1. 程式人生 > >《BI那點兒事》資料探勘的主要方法

《BI那點兒事》資料探勘的主要方法

一、迴歸分析
目的:
設法找出變數間的依存(數量)關係, 用函式關係式表達出來。
所謂迴歸分析法,是在掌握大量觀察資料的基礎上,利用數理統計方法建立因變數與自變數之間的迴歸關係函式表示式(稱迴歸方程式)。
迴歸分析中,當研究的因果關係只涉及因變數和一個自變數時,叫做一元迴歸分析;當研究的因果關係涉及因變數和兩個或兩個以上自變數時,叫做多元迴歸分析。
此外,迴歸分析中,又依據描述自變數與因變數之間因果關係的函式表示式是線性的還是非線性的,分為線性迴歸分析和非線性迴歸分析。通常線性迴歸分析法是最基本的分析方法,遇到非線性迴歸問題可以藉助數學手段化為線性迴歸問題處理。
迴歸分析法是定量預測方法之一。它依據事物內部因素變化的因果關係來預測事物未來的發展趨勢。由於它依據的是事物內部的發展規律,因此這種方法比較精確。測報工作中常用的是一元線性迴歸和多元線性迴歸模型。
一元線性迴歸是指事物發展的自變數與因變數之間是單因素間的簡單線性關係,它的模型可以表示為: y=a+bx
其中y是因變數,x是自變數,a是常數,b是迴歸係數。
多元線性迴歸是指一個因變數與多個自變數之間的線性關係。模型的一般型式為:
y=a+b1x1+b2x2+…+bnxn
其中,y是因變數,x1、x2、…xn是自變數,a是常數,b1、b2、…bn是迴歸係數。
logistic迴歸(logistic regression)是研究因變數為二分類或多分類觀察結果與影響因素(自變數)之間關係的一種多變數分析方法,屬概率型非線性迴歸。
logistic迴歸的分類:
(1)二分類資料logistic迴歸:因變數為兩分類變數的資料,可用非條件logistic迴歸和條件logistic迴歸進行分析。非條件logistic迴歸多用於非配比-對照研究或佇列研究資料,條件logistic迴歸多用於配對或配比資料。
(2)多分類資料logistic迴歸:因變數為多項分類的資料,可用多項分類logistic迴歸模型或有序分類logistic迴歸模型進行分析。

二、分類分析


(1)決策樹
決策樹方法的起源是概念學習系統CLS,然後發展到ID3方法而為高潮,最後又演化為能處理連續屬性的C4.5。有名的決策樹方法還有CART和Assistant。 決策樹是應用最廣的歸納推理演算法之一,一種逼近離散值目標函式的方法,對噪聲資料有很好的健壯性且能學習析取表示式。
決策樹通過把例項從根節點排列到某個葉子節點來分類例項,葉子節點即為例項所屬的分類。樹上的每一個節點說明了對例項的某個屬性的測試,並且該節點的每一個後繼分支對應於該屬性的一個可能值。
決策樹使用的問題:
1)例項是由屬性-值對錶示的;2)目標函式具有離散的輸出值;3)可能需要析取的描述;4)訓練資料可以包含錯誤;5)訓練資料可以包含缺少屬性值的例項。
決策樹屬性的選擇:構造好的決策樹的關鍵在於如何選擇好的邏輯判斷或屬性。對於同樣一組例子,可以有很多決策樹能符合這組例子。人們研究出,一般情況下或具有較大概率地說,樹越小則樹的預測能力越強。要構造儘可能小的決策樹,關鍵在於選擇恰當的邏輯判斷或屬性。由於構造最小的樹是NP-難問題,因此只能採取用啟發式策略選擇好的邏輯判斷或屬性。
決策樹的優點:可以生成可以理解的規則;計算量相對來說不是很大;可以處理連續和離散欄位;決策樹可以清晰的顯示哪些欄位比較重要。
決策樹的缺點:對連續性的欄位比較難預測;當類別太多時,錯誤可能會增加的比較快;一般的演算法分類的時候,只是根據一個屬性來分類。;不是全域性最優。
(2)人工神經網路

人工神經網路是一種應用類似於大腦神經突觸聯接的結構進行資訊處理的數學模型。人工神經網路是由人工建立的以有向圖為拓撲結構的動態系統,它通過對連續或斷續的輸入作狀態相應而進行資訊處理。
人工神經網路的特點:可以充分逼近任意複雜的非線性關係;所有定量或定性的資訊都等勢分佈貯存於網路內的各神經元,故有很強的魯棒性和容錯性;採用並行分佈處理方法,使得快速進行大量運算成為可能;可學習和自適應不知道或不確定的系統;能夠同時處理定量、定性知識。

三、相關性分析
研究現象A,B之間是的某種依存關係,或者研究變數X,Y之間的相互依存關係的密切程度。就是對總體中確實具有聯絡的標誌進行分析,其主體是對總體中具有因果關係標誌的分析。它是描述客觀事物相互間關係的密切程度並用適當的統計指標表示出來的過程。例如:在一段時期內出生率隨經濟水平上升而上升,這說明兩指標間是正相關關係;而在另一時期,隨著經濟水平進一步發展,出現出生率下降的現象,兩指標間就是負相關關係。

四、聚類分析

聚類是一個將資料集劃分為若干組或類的過程,並使得同一個組內的資料物件具有較高的相似度而不同組中的資料物件是不相似的。相似或者不相似描述的是基於資料描述屬性的取值來確定的。通常是利用各物件間的距離來進行表示。
資料探勘領域的聚類演算法有很多種,其中k-means聚類演算法是最簡單而且非常有效的聚類演算法。採用k-means聚類演算法對整個使用者空間進行聚類的主要步驟如下:
(1)隨機選擇k個使用者作為種子節點,將k個使用者對項的評分資料作為初始的聚類中心。
(2)對剩餘的使用者集合,計算每個使用者與k個聚類中心的相似性,將每個使用者分配到相似性最高的聚類中。
(3)對新生成的聚類,計算聚類中所有使用者對項的平均評分,生成新的聚類中心。
(4)重複以上2到3步,直到聚類不再發生改變為止。
例如:通過分組聚類出具有相似行為的客戶,並分析客戶的共同特徵,可以更好的幫助電子商務的使用者瞭解自己的客戶,向客戶提供更合適的服務。

五、判別分析
判別分析是按照一定的判別準則,建立一個或多個判別函式,用研究物件的大量資料確定判別函式中的待定係數,並計算判別指標。據此即可確定某一樣本屬於何類。例如:為了確診某種疾病,需要將病人的各項檢測指標同各種典型的病歷做對照,從而判斷其最可能屬於哪種疾病。

六、主成分分析
設法將原來的變數重新組合成一組新的互相無關的幾個綜合變數,同時根據實際需要從中可以取出幾個較少的總和變數儘可能多地反映原來變數的資訊的統計方法叫做主成分分析或稱主分量分析,也是數學上處理降維的一種方法。

七、因子分析
根據相關性的大小把變數分組,使得同組內的變數相關性高,不同組變數的相關性較低,然後在每一個組內提煉出一個公因子。
從大量的指標中提取有代表性的共性因子,比如客戶忠誠度,滿意度等。 主成份分析是尋找一種逼近,能夠最大可能的描述資料的變化(variability)。因子分析可以理解為一個隱變數模型。由此可以說,因子分析某種程度上是一個引數模型

八、時間序列分析
根據系統觀測得到的時間序列資料,通過曲線擬合和引數估計來建立數學模型的理論和方法。
常用在國民經濟巨集觀控制、區域綜合發展規劃、企業經營管理、市場潛量預測、氣象預報、水文預報、地震前兆預報、農作物病蟲災害預報、環境汙染控制、生態平衡、天文學和海洋學等方面。

常見應用以及採用的分析技術:

  • 客戶流失 (分類模型、Logistic迴歸演算法)
  • 使用者流失預測(分類模型、神經網路、Logistic迴歸演算法) 
  • 購買傾向預測(分類模型、Logistic迴歸演算法) 
  • 增量銷售預測 (分類模型、Logistic迴歸演算法)
  • 客戶價值增長預測 (分類模型、Logistic迴歸演算法)
  • 競爭對手流失預測 (分類模型、Logistic迴歸演算法)
  • 客戶級別打分 (分類模型、Logistic迴歸演算法)
  • 點選率分析(聚類模型、偏差檢測、Logistic迴歸演算法)
  • 網站訪問行為分析(聚類模型)
  • 客戶分群 (聚類模型、K-Means演算法)
  • 購物籃分析 (關聯規則)
  • 。。。。

相關推薦

BI點兒資料的藝術》理解維度資料倉庫——事實表、維度表、聚合表

事實表 在多維資料倉庫中,儲存度量值的詳細值或事實的表稱為“事實表”。一個按照州、產品和月份劃分的銷售量和銷售額儲存的事實表有5個列,概念上與下面的示例類似。  Sate Product Mouth Units Dollars

BI點兒資料主要方法

一、迴歸分析目的:設法找出變數間的依存(數量)關係, 用函式關係式表達出來。所謂迴歸分析法,是在掌握大量觀察資料的基礎上,利用數理統計方法建立因變數與自變數之間的迴歸關係函式表示式(稱迴歸方程式)。迴歸分析中,當研究的因果關係只涉及因變數和一個自變數時,叫做一元迴歸分析;當研究的因果關係涉及因變數和兩個或兩個

BI點兒資料各類演算法——準確性驗證

準確性驗證示例1:——基於三國志11資料庫 資料準備: 挖掘模型:依次為:Naive Bayes 演算法、聚類分析演算法、決策樹演算法、神經網路演算法、邏輯迴歸演算法、關聯演算法提升圖: 依次排名為: 1. 神經網路演算法(92.69% 0.99)2. 邏輯迴歸演算法(92.39% 0.99)3. 決策

BI點兒》淺析十三種常用的資料的技術

一、前沿 資料探勘就是從大量的、不完全的、有噪聲的、模糊的、隨機的資料中,提取隱含在其中的、人們事先不知道的但又是潛在有用的資訊和知識的過程。資料探勘的任務是從資料集中發現模式,可以發現的模式有很多種,按功能可以分為兩大類:預測性(Predictive)模式和描述性(Descriptive)模式。在應用

BI點兒資料初探

什麼是資料探勘? 資料探勘(Data Mining),又稱資訊發掘(Knowledge Discovery),是用自動或半自動化的方法在資料中找到潛在的,有價值的資訊和規則。 資料探勘技術來源於資料庫,統計和人工智慧。 資料探勘能夠做什麼 對企業中產生的大量的資料進行分析,找出其中潛藏的規

BI點兒資料流轉換——查詢轉換

查詢轉換通過聯接輸入列中的資料和引用資料集中的列來執行查詢。是完全匹配查詢。在源表中查詢與字表能關聯的所有源表記錄。準備資料。源表 T_QualMoisture_Middle_Detail字典表 T_DIC_QualProcess資料流任務設計圖: 設計步驟: (adsbygo

BI點兒資料流轉換——多播、Union All、合併、合併聯接

建立測試資料: CREATE TABLE FactResults ( Name VARCHAR(50) , Course VARCHAR(50) , Score INT ) INSERT INTO FactResults

BI點兒》SSRS圖表和儀表——雷達圖分析三國超一流謀士、統帥資料(圖文並茂)

雷達圖分析三國超一流謀士、統帥資料,獻給廣大的三國愛好者們,希望喜歡三國的朋友一起討論,加深對傳奇三國時代的瞭解 建立資料環境: -- 抽取三國超一流謀士TOP 10資料 DECLARE @t1 TABLE ( [姓名] NVARCHAR(255) , [統率]

BI點兒》運用標準計分和離差——分析三國超一流統帥綜合實力排名 絕對客觀,資料說話

資料分析基礎概念:標準計分: 1、無論作為變數的滿分為幾分,其標準計分的平均數勢必為0,而其標準差勢必為1。2、無論作為變數的單位是什麼,其標準計分的平均數勢必為0,而其標準差勢必為1。公式為: 離差:離差就是應用標準計分所得的數值。1、無論作為變數的滿分為幾分,其離差的平均數勢必為50,而其標準差勢必為1

BI點兒資料流轉換——OLE DB 命令轉換

OLE DB命令對資料流中的資料行執行一個OLE DB命令。它針對資料表中的每一行進行更新操作,可以事先將要更新的資料存放在表中。或者針對一個有輸入引數的儲存過程,可以將這些引數存放在一個數據表中,不用每次都輸入引數。示例資料準備: CREATE TABLE SourceParametersForSt

BI點兒資料流轉換——排序

排序轉換允許對資料流中的資料按照某一列進行排序。這是五個常用的轉換之一。連線資料來源開啟編輯介面,編輯這種任務。不想設定為排序列的欄位不要選中,預設情況下所有列都會選中。如圖所示,按照TotalSugar_Cnt排序,並將所有列輸出。 在底部的表格中,可以設定輸出列的別名,是否按照列來排序。Sort Ord

BI點兒》三國資料分析系列——蜀漢五虎上將與魏五子良將武力分析,絕對的經典分析

獻給廣大的三國愛好者們,希望喜歡三國的朋友一起討論,加深對傳奇三國時代的瞭解 資料分析基礎概念:集中趨勢分析是指在大量測評資料分佈中,測評資料向某點集中的情況。總體(population)是指客觀存在的,並在同一性質的基礎上結合起來的許多個別單位的整體,即具有某一特性的一類事物的全體,又叫母體或全域。簡單地

BI點兒資料流轉換——資料轉換

資料轉換執行類似於T-SQL中的函式CONVERT或CAST的功能。資料轉換的編輯介面如圖,選擇需要轉換的列,在DataType下拉列表中選擇需要的資料型別。Output Alias欄內設定輸出時使用的別名。 (adsbygoogle = window.adsbygoogle |

BI點兒資料流轉換——匯入列、匯出列

匯入列: 匯入列例子現在來做一個例子:建立路徑D:\Pictures隨便在路徑D:\Pictures中貼上4個比較小的影象檔案命名為01.png、02.png、03.png、04.png在路徑D:\Pictures內建立一個txt檔案命名為filelist.txt,檔案內容如下D:\Pictures\01.

BI點兒資料流轉換——字詞查詢轉換

字詞查詢轉換將從轉換輸入列的文字中提取的字詞與引用表中的字詞進行匹配,然後計算出查詢表中的字詞在輸入資料集中出現的次數,並將計數與引用表中的此字詞一併寫入轉換輸出的列中。此轉換對於建立基於輸入文字並帶有詞頻統計資訊的自定義詞列表很有用。 本章功能:取出一個表中某欄位的資料,並取出另一個表中的關鍵詞,判斷關鍵

BI點兒資料流轉換——逆透視轉換

  逆透視轉換將來自單個記錄中多個列的值擴充套件為單個列中具有同樣值的多個記錄,使得非規範的資料整合為較規範的版本。例如,每個客戶在列出客戶名的資料集中各佔一行,在該行的各列中顯示購買的產品和數量。逆透視轉換將資料集規範之後,客戶購買的每種產品在該資料集中各佔一行。   我們下一步是進行逆透視。與透視配置不

BI點兒資料流轉換——透視

這個和T-SQL中的PIVOT和UNPIVOT的作用是一樣的。資料透視轉換可以將資料規範或使它在報表中更具可讀性。 通過透視列值的輸入資料,透視轉換將規範的資料集轉變成規範程度稍低、但更為簡潔的版本。例如,在列有客戶名稱、產品和購買數量的規範的 Orders 資料集中,任何購買多種產品的客戶都有多行,每一行

BI點兒資料流轉換——條件性拆分

根據條件分割資料是一個在資料流中新增複雜邏輯的方法,它允許根據條件將資料輸出到其他不同的路徑中。例如,可以將TotalSugar< 27.4406的輸出到一個路徑,TotalSugar >= 27.4406的輸出到另一個路徑。如圖。可以從上面的屬性結構中拖放一個列或者程式碼段,然後根據邏輯重新命名

BI點兒資料流轉換——派生列

派生列轉換通過對轉換輸入列應用表示式來建立新列值。 表示式可以包含來自轉換輸入的變數、函式、運算子和列的任意組合。 結果可作為新列新增,也可作為替換值插入到現有列。 派生列轉換可定義多個派生列,任何變數或輸入列都可以出現在多個表示式中。可以使用此轉換執行下列任務: 將不同列的資料連線到一個派生列中。 例

BI點兒資料流轉換——百分比抽樣、行抽樣

百分比抽樣和行抽樣可以從資料來源中隨機選擇一組資料。這兩種task都可以產生兩組輸出,一組是隨機選擇的,另一組是沒有被選擇的。可以將這些選擇出的資料傳送到開發或者測試伺服器上。這個Task的最合適的應用是建立資料探勘模型然後,使用這些抽樣資料來驗證這個模型。 編輯這種task,選擇要抽取的行數或者 百分比,