資料探勘概念與技術——讀書筆記（1）

阿新 • • 發佈：2019-02-09

原書第三版
Jiawei Han Micheline Kamber Jian Pei 著

第一章引論

為什麼進行資料探勘

解決“資料豐富，但資訊貧乏”的問題。
資料的爆炸式增長，廣泛可用，巨大數量 ——> 資料時代 ——> 需要功能強大和通用的工具，從海量資料中發現有價值的資訊。

什麼是資料探勘

從資料中挖掘知識。

資料清理（消除噪聲和刪除不一致的資料）
資料整合（多種資料來源可以組合在一起）
資料選擇（從資料庫中提取與分析任務相關的資料）
資料變換（通過彙總或聚集操作，把資料變換和統一成適合挖掘的形式）
資料探勘（基本步驟，使用智慧方法提取資料模式）

模式評估（根據某種興趣度度量，識別代表知識的真正有趣的資料）
知識表示（使用視覺化和知識表示技術，向用戶提供挖掘的知識）

可以挖掘什麼型別的資料

資料庫資料
- 由一組內部相關的資料和一組管理和存取資料的軟體程式組成。
- 關係資料庫是表的彙集（屬性—>欄位或列，元祖—>記錄或行）。物件被唯一關鍵字標識，被一組屬性值描述。
資料倉庫
- 從多個數據源收集的資訊儲存庫（例如分部遍佈全世界的公司的資料庫）
事務資料
- 每個記錄代表一個事務。
- 包含一個唯一的事務標識號，以及一個組成事務的項。
  - 例如商場的第50條交易記錄，使用者購買了A，D，F這三件物品。
其他型別的資料
- 空間資料，超文字和多媒體資料……等等

可以挖掘什麼型別的模式

描述性（刻畫目標資料中資料的一般性質）
預測性（在當前資料上做出歸納，以便進行預測）

類/概念描述：特徵化與區分
資料特徵化：目標類資料的一般特性或特徵的彙總
資料區分：將目標類，與一個或多個可比較類進行比較。
例如：定期購買電腦產品的客戶和不購買電腦產品的客戶進行比較。

挖掘頻繁模式、關聯和相關性
頻繁模式：在資料中頻繁出現的模式。

頻繁項集：頻繁在事務資料集中一起出現（顧客在小賣部總是一起買牛奶和麵包）
頻繁子序列：顧客先買數碼相機，再買記憶體卡。
頻繁子結構

關聯分析（例如分析，哪些商品總是一起被購買）

“computer”=>“software”[1% , 50%] 表示所有事務的1%顯示計算機和軟體被同時購買。購買了計算機的人，有50%的可能性會選擇購買軟體。

相關性（相關聯的屬性-值對之間的統計相關性）

用於預測分析的分類和迴歸

分類：找出描述和區分資料類或概念的模型（或函式），預測類別標號。
迴歸：建立連續值函式模型，預測缺失的或難以獲得的數值資料值。

相關分析可能需要在分類和迴歸之前進行，它試圖識別與分類和迴歸過程顯著相關的屬性。

聚類分析
聚類分析：分析資料物件，而不考慮類標號。可以使用聚類產生資料組群的類標號。
—>“最大化類內相似性，最小化類間相似性”

離群點分析
異常挖掘。有時看做噪聲而丟棄，但是在比如欺詐檢測等應用中，罕見事件的出現，更令人感興趣。

所有模式都是有趣的嗎？

易於被人理解
在某種確信度上，對於新的或檢驗資料是有效的
潛在有用的
新穎的

客觀度量：支援度，置信度。公式書P14

使用什麼技術

書 P14

統計學：例如建立分類或預測模型之後，統計假設檢驗來驗證模型
機器學習：監督學習（基本上是分類的同義詞），無監督學習（本質上是聚類的同義詞），半監督學習，主動學習
資訊檢索：搜尋文件或文件中資訊的科學

面向什麼型別的應用

商務智慧、Web搜尋、生物資訊學、衛生保健資訊學、金融、數字圖書館……

資料探勘的主要問題

挖掘方法
- 新的知識型別、多維空間中的知識、跨學科、網路環境下的挖掘能力、模式評估
使用者互動
- 結合背景知識
- 表示和視覺化，使知識更容易理解
有效性與可伸縮性
處理多種多樣的資料型別
- 動態的、複雜的。
資料探勘與社會
- 保護隱私
- 社會影響

自己加油加油笨鳥後飛也要飛呀飛

資料探勘概念與技術——讀書筆記（1）

原書第三版 Jiawei Han Micheline Kamber Jian Pei 著第一章引論為什麼進行資料探勘解決“資料豐富，但資訊貧乏”的問題。資料的爆炸式增長，廣泛可用，巨大數量 ——> 資料時代

資料探勘概念與技術——讀書筆記（2）

原書第三版 Jiawei Han Micheline Kamber Jian Pei 著第二章認識資料在進行資料探勘之前，首先需要準備好資料，熟悉資料。資料物件與屬性型別一個數據物件代表一個實體，又稱樣本、例項、資料點或物件。

資料探勘概念與技術——讀書筆記（8）

基本概念什麼是分類構造一個模型或分類器來預測類標號類別可以用離散值表示，且其中的次序沒有意義。預測一個連續函式或有序值預測器進行數值預測，迴歸分析是最常用的方法。分類的一般方法學習階段使用訓練元祖構建分類模型，由於提供了每個訓

《資料探勘概念與技術》讀書筆記

最近在學習資料探勘和資料分析相關內容，在很多地方有很多朋友都推薦該書，遂購書一本，以作學習之用，把讀書過程中一些習得記錄在此，以備查閱。第一章引論 1.1 為什麼進行資料探勘現在的我們生活在一個資訊時代，每天都有各種各樣大量的資料產生並儲存到

《資料探勘概念與技術》讀書筆記（一）

轉自：http://blog.csdn.net/zhucanxiang/article/details/9843901 之前看過經典的《資料探勘導論》，然後又看了韓家煒的《資料探勘概念與技術》這本資料探勘入門書籍，對資料探勘也有了一個初步的瞭解，特此寫篇文章總結一下自己

《資料探勘概念與技術》學習筆記

1.Chapter1 引論： (1) OLTP 和 OLAP 概念: OLTP(on-line transaction processing) 聯機事物處理，就是我們經常說的關係資料庫的主要應用，主要是基本的、日常的事務處理，例如銀行交易。例如：mysql OLAP(on

【資料探勘概念與技術】學習筆記6-挖掘頻繁模式、關聯和相關性：基本概念和方法（編緝中）

頻繁模式是頻繁地出現在資料集中的模式（如項集、子序列或子結構）。頻繁模式挖掘給定資料集中反覆出現的聯絡。“購物籃”例子，想象全域是商店中商品的集合，每種商品有一個布林變數，表示該商品是否出現。則每個購物籃可以用一個布林向量表示。分析布林向量，得到反映商品頻繁關聯或同時購買的購買模式。這些模式可用關聯規則來表示

資料探勘概念與技術第2章認識資料

本文主要介紹資料物件與屬性，資料的基本統計描述，資料視覺化和度量資料的相似性和相異性。 2.1 資料物件與屬性類別資料集由資料物件組成，一個數據物件代表一個實體。通常資料物件用屬性描述。資料物件又稱樣本、例項、資料點或物件。如果資料物件存放在資

《資料探勘概念與技術》第二版中文版第一章答案

引言 1.1 什麼是資料探勘？在你的回答中，針對以下問題： a. 它是又一種廣告宣傳嗎？ b. 它是一種從資料庫、統計學和機器學習發展的技術的簡單轉換嗎？ c. 解釋資料庫技術發展如何導致資料探勘 d. 當把資料探勘看作知識發現過程時，描述挖掘所

資料探勘概念與技術（原書第三版）範明孟小峰譯-----第六章課後習題答案

第六章答案第六章答案該答案為重慶大學計算機學院Jack Channy所作，由於本人水平有限，難免有錯誤和不當之處，如有意見請評論或者發郵件至[email protected]。 6.1 假設有資料集D上所有閉頻繁項集

python資料探勘入門與實戰——學習筆記（第3、4章）

chapter 3 決策樹預測獲勝球隊 pandas載入資料集 import pandas as pd dataset = pd.read_csv('filepath+filename') 資料清洗，可在讀入時清洗 dataset = pd.read_csv('filen

資料探勘概念與分析第八章筆記

分類的基本概念分類分類是一種重要的資料分析形式，它提取刻畫重要資料類的模型，這種模型稱為分類器，預測分類(離散的，無序的)類標號。分類和數值預測是預測問題的兩種主要型別。分類的一般方法資料分類涉及兩個過程： 1：學習階段：建立描述預先定義的資料類或概

資料探勘概念與分析第六章筆記

挖掘頻繁模式頻繁模式是頻繁地出現在資料集中的模式，主要包括頻繁項集模式，頻繁序列模式，和頻繁結構模式。我們先了解什麼是項集，K-項集，資料集，絕對支援值的概念。書中都有講解，這裡簡單的來說一下。項集：最基本的模式就是項集，是指若干個項的集合 K-項集：包含K個項

《python資料探勘入門與實踐》筆記1

1.匯入iris植物資料集，包含150個sample。X是一個4元組，包含特徵：sepal length、 sepal width、 petal length、 petal width。Y是每個sample的分類情況，分類有三種情況（0，1，2）表示。 fro

python資料探勘入門與實踐--------轉換器（資料與處理）與流水線

y=MinMaxScaler().fit_transform(x) y與x為同型矩陣，y每列值的值域為0到1 sklearn.preprocessing.Normalizer 每條資料各特徵值的和為1 sklearn.preprocessing.StandardScaler 各特

數據結構與算法（刺猬書）讀書筆記（1）----數組

split() ring 此外結果 shift 即使 cnblogs 操作符 main 在JavaScript中，數組其實是一種特殊的對象，用來表示偏移量的索引是該對象的屬性，所以JavaScript的數組本質上是對象。同時這些數字索引在內部會被轉換成為字符串類型，因為J

android BSP與硬件相關子系統讀書筆記（1）android BSP移植綜述

tin 不用 googl csdn splay 編寫 app開發意圖過濾器 trac 從linux驅動轉行至Android驅動開發大半年了，一開始就產生了一個很糾結目標和問題，就是不停的google如何porting android！這個問題得到的結果對於初出茅廬的我，感

C陷阱與缺陷讀書筆記（一）

之間之前符號雙引號陷阱數組調用筆記如果第一章 1.2 按位運算符：& 邏輯運算符：&& 1.3 單字符符號：只有一個字符長多字符符號：含多個字符

分散式系統概念與設計——閱讀筆記（一）

一、分散式系統的挑戰分散式系統的挑戰，其實就是某種意義上分散式系統研究的重點內容。 1、異構性分散式系統的執行環境，存在下列異構性（即存在多樣性和差別）：網路、計算機硬體、作業系統、程式語言、由不同開發者完成的軟體實現。中介軟體是解決異構性的一種方式，中介軟體是指一個

大資料探勘之Scala零基礎學習（一）

第5章函式5.1函式程式程式碼：object section5_1 extends App { // def gcd(x:Int,y:Int):Int=if(x%y==0) y else gcd(

資料探勘概念與技術——讀書筆記（1）

第一章 引論

為什麼進行資料探勘

什麼是資料探勘

可以挖掘什麼型別的資料

可以挖掘什麼型別的模式

使用什麼技術

面向什麼型別的應用

資料探勘的主要問題

相關推薦

第一章引論