《BI那點兒事》Microsoft 神經網路演算法
Microsoft神經網路是迄今為止最強大、最複雜的演算法。要想知道它有多複雜,請看SQL Server聯機叢書對該演算法的說明:“這個演算法通過建立多層感知神經元網路,建立分類和迴歸挖掘模型。與Microsoft決策樹演算法類似,在給定了可預測屬性的每個狀態時, Microsoft神經網路演算法計算輸入屬性每個可能狀態的概率。然後可以用這些概率根據輸入屬性預測被預測屬性的輸出。”
什麼時候用這個演算法呢?推薦在其他演算法無法得出有意義的結果時再用,如提升圖輸出的結果。我們經常把Microsoft神經網路作為“壓箱底”的最後一招,在其他演算法處理巨大而複雜的資料集無法得到有意義的結果時才使用它。這個演算法可以接受Discrete或Continuous資料型別作為輸入。在大型資料來源上使用Microsoft神經網路之前,一定要用生產級別的負載好好測試,因為處理這類模型的開支太大了。同其他演算法一樣,在“演算法引數”對話方塊中也有多個引數可以配置。同其他一些開支比較大的演算法一樣,只有在業務理由非常充分的情況下才有必要修改預設值。
Microsoft神經網路演算法的一個變體是Microsoft邏輯迴歸演算法。
下面我們進入主題,同樣我們繼續利用上次的解決方案,依次步驟如下:
資料來源檢視:
鍵:序列
輸入:統率、武力、智力、政治、魅力
可預測:身分
資料內容型別:
Continuous(連續型):統率、武力、智力、政治、魅力
Discrete(離散型):身分
建模完成,產生資料探勘結構介面包含Mining Structure(挖掘結構)、Mining Models(挖掘模型)、Mining Model Viewer(挖掘模型檢視器)、Mining Accuracy Chart(挖掘精確度圖表)以及Mining Model Prediction(挖掘模型預測);其中在Mining Structure(挖掘結構)中,主要是呈現資料間的關聯性以及分析的變數。
挖掘模型:
在Mining Models(挖掘模型)中,主要是列出所建立的挖掘模型,也可以新增挖掘模型,並調整變數,變數使用狀況包含Ignore(忽略)、Input(輸入變數)、Predict(預測變數、輸入變數)以及Predict Only(預測變數),如圖所示。
在挖掘模型上點選滑鼠右鍵,選擇“設定演算法引數...”可修改模型引數設定,如圖所示
其中包含:
HIDDEN_NODE_RATIO:指定用於判斷隱藏層中的節點數目。隱藏層內的節點數計算公式為:HIDDEN_NODE_RATIO *sqrt({輸入節點的數目} * {輸出節點的數目})。
HOLDOUT_PERCENTAGE:指定用於計算測試組預測錯誤的百分比,作為停止準則的一部分。
HOLDOUT_SEED:指定用於隨機產生測試組的種子資料。如果未指定,演算法會依據模型名稱產生隨機種子,以保證在重新處理模型時保持測試組相同。
MAXIMUM_INPUT_ATTRIBUTES:指定演算法可處理的最大輸入變數數目。將此值設定為0,會停用輸入變數。
MAXIMUM_OUTPUT_ATTRIBUTES:指定演算法可處理的最大輸出變數數目。將此值設定為0,會停用輸出變數。
MAXIMUM_STATES:指定演算法所支援變數取值狀態的最大數目。如果屬性狀態數大於該值,演算法會擷取最常用的狀態,並將超過最大值的其餘狀態視為遺漏。
SAMPLE_SIZE:指定用來訓練模型的案例數目。演算法會取小於以下兩者:SAMPLE_SIZE或total_cases *(1-HOLDOUT_PERCENTAGE/100)。
挖掘模型檢視器:
“挖掘模型檢視器”展示該挖掘模型的結果,通過通過柱狀圖表示某一變數的取值狀態對預測變數影響的方向和大小。
提升圖:
分類矩陣:
參考文獻:
Microsoft 神經網路演算法
http://msdn.microsoft.com/zh-cn/library/ms174941(v=sql.105).aspx
相關推薦
《BI那點兒事》Microsoft 神經網路演算法
Microsoft神經網路是迄今為止最強大、最複雜的演算法。要想知道它有多複雜,請看SQL Server聯機叢書對該演算法的說明:“這個演算法通過建立多層感知神經元網路,建立分類和迴歸挖掘模型。與Microsoft決策樹演算法類似,在給定了可預測屬性的每個狀態時, Microsoft神經網路演算法計算輸入屬性
《BI那點兒事》Microsoft 線性迴歸演算法
Microsoft 線性迴歸演算法是 Microsoft 決策樹演算法的一種變體,有助於計算依賴變數和獨立變數之間的線性關係,然後使用該關係進行預測。該關係採用的表示形式是最能代表資料序列的線的公式。例如,以下關係圖中的線是資料最可能的線性表示形式。 關係圖中的每個資料點都有一個與該資料點與迴歸線之間距離關
《BI那點兒事》Microsoft 順序分析和聚類分析演算法
Microsoft 順序分析和聚類分析演算法是由 Microsoft SQL Server Analysis Services 提供的一種順序分析演算法。您可以使用該演算法來研究包含可通過下面的路徑或“順序”連結到的事件的資料。該演算法通過對相同的順序進行分組或分類來查詢最常見的順序。下面是一些順序示例:
《BI那點兒事》Microsoft 決策樹演算法——找出三國武將特性分佈,獻給廣大的三國愛好者們
根據遊戲《三國志11》武將資料,利用決策樹分析,找出三國武將特性分佈。其中變數包括統率、武力、智力、政治、魅力、身分。變數說明:統率:武將帶兵出征時的部隊防禦力。統帥越高受到普通攻擊與兵法攻擊越少。武力:武將帶兵出征時的部隊攻擊力,武力越高發動兵法或者普通攻擊時對地方部隊的傷害就越高;並且當發動單挑時雙方武將
《BI那點兒事》Microsoft 決策樹演算法
Microsoft 決策樹演算法是由 Microsoft SQL Server Analysis Services 提供的分類和迴歸演算法,用於對離散和連續屬性進行預測性建模。對於離散屬性,該演算法根據資料集中輸入列之間的關係進行預測。它使用這些列的值(也稱之為狀態)預測指定為可預測的列的狀態。具體地說,該演
《BI那點兒事》Microsoft 聚類分析演算法——三國人物身份劃分
什麼是聚類分析? 聚類分析屬於探索性的資料分析方法。通常,我們利用聚類分析將看似無序的物件進行分組、歸類,以達到更好地理解研究物件的目的。聚類結果要求組內物件相似性較高,組間物件相似性較低。在三國資料分析中,很多問題可以藉助聚類分析來解決,比如三國人物身份劃分。聚類分析的基本過程是怎樣的? 選擇聚類變
《BI那點兒事》Microsoft 時序演算法——驗證神奇的斐波那契數列
斐波那契數列指的是這樣一個數列 0, 1, 1, 2, 3, 5, 8, 13, 21, 34, 55, 89, 144, 233,377,610,987,1597,2584,4181,6765,10946,17711,28657,46368斐波那契數列的發明者,是義大利數學家列昂納多·斐波那契(Leonar
《BI那點兒事》資料探勘各類演算法——準確性驗證
準確性驗證示例1:——基於三國志11資料庫 資料準備: 挖掘模型:依次為:Naive Bayes 演算法、聚類分析演算法、決策樹演算法、神經網路演算法、邏輯迴歸演算法、關聯演算法提升圖: 依次排名為: 1. 神經網路演算法(92.69% 0.99)2. 邏輯迴歸演算法(92.39% 0.99)3. 決策
《BI那點兒事》淺析十三種常用的資料探勘的技術
一、前沿 資料探勘就是從大量的、不完全的、有噪聲的、模糊的、隨機的資料中,提取隱含在其中的、人們事先不知道的但又是潛在有用的資訊和知識的過程。資料探勘的任務是從資料集中發現模式,可以發現的模式有很多種,按功能可以分為兩大類:預測性(Predictive)模式和描述性(Descriptive)模式。在應用
《BI那點兒事》資料探勘初探
什麼是資料探勘? 資料探勘(Data Mining),又稱資訊發掘(Knowledge Discovery),是用自動或半自動化的方法在資料中找到潛在的,有價值的資訊和規則。 資料探勘技術來源於資料庫,統計和人工智慧。 資料探勘能夠做什麼 對企業中產生的大量的資料進行分析,找出其中潛藏的規
《BI那點兒事》資料流轉換——查詢轉換
查詢轉換通過聯接輸入列中的資料和引用資料集中的列來執行查詢。是完全匹配查詢。在源表中查詢與字表能關聯的所有源表記錄。準備資料。源表 T_QualMoisture_Middle_Detail字典表 T_DIC_QualProcess資料流任務設計圖: 設計步驟: (adsbygo
《BI那點兒事》資料流轉換——多播、Union All、合併、合併聯接
建立測試資料: CREATE TABLE FactResults ( Name VARCHAR(50) , Course VARCHAR(50) , Score INT ) INSERT INTO FactResults
《BI那點兒事》資料探勘的主要方法
一、迴歸分析目的:設法找出變數間的依存(數量)關係, 用函式關係式表達出來。所謂迴歸分析法,是在掌握大量觀察資料的基礎上,利用數理統計方法建立因變數與自變數之間的迴歸關係函式表示式(稱迴歸方程式)。迴歸分析中,當研究的因果關係只涉及因變數和一個自變數時,叫做一元迴歸分析;當研究的因果關係涉及因變數和兩個或兩個
《BI那點兒事—資料的藝術》理解維度資料倉庫——事實表、維度表、聚合表
事實表 在多維資料倉庫中,儲存度量值的詳細值或事實的表稱為“事實表”。一個按照州、產品和月份劃分的銷售量和銷售額儲存的事實表有5個列,概念上與下面的示例類似。 Sate Product Mouth Units Dollars
《BI那點兒事》SSRS圖表和儀表——雷達圖分析三國超一流謀士、統帥資料(圖文並茂)
雷達圖分析三國超一流謀士、統帥資料,獻給廣大的三國愛好者們,希望喜歡三國的朋友一起討論,加深對傳奇三國時代的瞭解 建立資料環境: -- 抽取三國超一流謀士TOP 10資料 DECLARE @t1 TABLE ( [姓名] NVARCHAR(255) , [統率]
《BI那點兒事》運用標準計分和離差——分析三國超一流統帥綜合實力排名 絕對客觀,資料說話
資料分析基礎概念:標準計分: 1、無論作為變數的滿分為幾分,其標準計分的平均數勢必為0,而其標準差勢必為1。2、無論作為變數的單位是什麼,其標準計分的平均數勢必為0,而其標準差勢必為1。公式為: 離差:離差就是應用標準計分所得的數值。1、無論作為變數的滿分為幾分,其離差的平均數勢必為50,而其標準差勢必為1
《BI那點兒事》資料流轉換——OLE DB 命令轉換
OLE DB命令對資料流中的資料行執行一個OLE DB命令。它針對資料表中的每一行進行更新操作,可以事先將要更新的資料存放在表中。或者針對一個有輸入引數的儲存過程,可以將這些引數存放在一個數據表中,不用每次都輸入引數。示例資料準備: CREATE TABLE SourceParametersForSt
《BI那點兒事》ETL中的關鍵技術
ETL(Extract/Transformation/Load)是BI/DW的核心和靈魂,按照統一的規則整合並提高資料的價值,是負責完成資料從資料來源向目標資料倉庫轉化的過程,是實施資料倉庫的重要步驟。 ETL過程中的主要環節就是資料抽取、資料轉換和加工、資料裝載。為了實現這些功能,各個ETL工具一般會
《BI那點兒事》SQL Server 2008體系架構
Microsoft SQL Server是一個提供了聯機事務處理、資料倉庫、電子商務應用的資料庫和資料分析的平臺。體系架構是描述系統組成要素和要素之間關係的方式。Microsoft SQL Server系統的體系結構是對Microsoft SQL Server的主要組成部分和這些組成部分之間關係的描述。Mic
《BI那點兒事》Cube的儲存
關係 OLAP (ROLAP)ROLAP的基本資料和聚合資料均存放在關係資料庫中;ROLAP 儲存模式使得分割槽的聚合儲存在關係資料庫的表(在分割槽資料來源中指定)中。但是,可為分割槽資料使用 ROLAP 儲存模式,而不在關係資料庫中建立聚合。使用 ROLAP 的維度的資料實際上儲存在用於定義維度的表中。相對