2017.06.29數據挖掘基礎概念第六,八,九章
第六章
51、關聯規則的挖掘的兩個過程
1、找出所有的頻繁項集
2、由頻繁項集產生強關聯規則
52、頻繁項集挖掘方法
1、Apriori算法 2、挖掘頻繁項集的模式增長方法
3、使用垂直數據格式挖掘頻繁項集
53、提高Apriori算法的效率
1、基於散列的技術 2、事務壓縮 3、劃分
4、抽樣 5、動態項集計數
第八章
54、如何進行分類
數據的分類是一個兩階段過程,包括學習階段和分類階段。
在第一階段,建立描述預先定義的數據類或概念集的分類器
在第二階段,使用模型進行分類,首先評估分類器的預測準確率
55、屬性選擇度量的方法
1、信息增益 2、增益率 3、基尼指數 4、其他屬性選擇度量
56、對於決策樹歸納,有沒有交互式方法,使得我們可以在構建時看到數據和數?關於數據的知識能夠幫助數的構建嗎?
基於感知分類(PBC)是一種基於可視化技術的交互式方法,允許用戶在構建樹時加上關於數據的背景知識。通過可視化地與數據交互,用戶也可能逐步深入的理解數據。
57、如何對數據可視化,以支持交互式決策樹構建
Pbc使用一種基於像素的方法觀察具有類標號信息的多維數據。它采用扇形方法,把多維數據對象映射到一個被劃分成d個扇形的圓。其中每個扇形代表一個屬性。
第九章
58、什麽是後向傳播,以及後向傳播如何工作
後向傳播是一種神經網絡學習算法。
後向傳播通過叠代地處理訓練元組數據集,把每個元組的網絡預測與實際已知的目標值相比較進行學習。目標值可以是訓練元組的已知類標號或者是連續值。對於每個訓練樣本,修改權重使得網絡預測和實際目標值之間的均方誤差最小。這種修改“後向”進行,即由輸出層,經由每個隱藏層,到第一個隱藏層。
59、後向傳播終止條件
1、前一周期所有的 Wij 都太小,小於某個指定的閾值
2、前一周期誤分類的元組百分比小於某個閾值
3、超過預指定的周期數。
60、神經網絡像一個黑盒。如何‘理解’後向傳播神經網絡學習結果?
神經網絡的主要缺點是其知識的表示。用加權鏈連接單元的網絡表示的知識讓人很難解釋。這激發了隱藏在訓練後的神經網絡中的知識及象征性地表示這些知識的研究。這些方法由網絡提取規則和靈敏度分析。
61、如何確定近鄰數k的值?
通過實驗來確定。從k=1開始,使用檢驗集估計分類器的錯誤率。重復該過程,每次K增值1,允許增加一個近鄰。可以選擇產生最小錯誤率的k。一般而言,訓練的元組越多,K的值越大。
62、惰性學習法
學習程序直到給定的檢驗元組分類之前的一刻才構造模型。在提供訓練元組時只做少量工作,而在進行分類或數值預測時做更多地工作。
2017.06.29數據挖掘基礎概念第六,八,九章