Python資料探勘學習——親和性分析

阿新 • • 發佈：2018-12-10

最近了解了一些Python資料探勘方面的內容，主要學習了《Python資料探勘入門與實踐》這本書的內容，在這裡對書中的內容以及我遇到的一些問題進行整理。

資料探勘旨在讓計算機根據已有的資料作出決策。

資料探勘的第一步一般是建立資料集，資料集主要包括：

（1）樣本：表示真實世界中的物體

（2）特徵：描述資料集中樣本

學習的第一步接觸的就是親和性分析，親和性分析是通過樣本個體之間的相似度確定它們之間關係的親疏。

這個例子中採用商品購買的一個數據集，商品共有：麵包，牛奶，乳酪，蘋果，香蕉這幾種。

這裡每個特徵都有且只可能有0或者1兩個值——表示是否購買該商品，而非購買的數量。

在得到樣品及特徵後，我們要找出規則，比如“購買了X，那麼可能會購買Y”

找出規則後還需要判斷其優劣，這裡涉及到兩個指標——支援度和置信度。

程式碼如下：

"""
《Python資料探勘入門與實踐》
親和性分析
資料集每一列代表：是否購買——麵包、牛奶、乳酪、蘋果、香蕉
支援度support——規則應驗的次數
置信度confidence——規則應驗的比例
"""
import numpy as np
from collections import defaultdict #預設字典——如果沒有對應的鍵，返回預設值0
from operator import itemgetter #針對字典進行排序


dataset_filename = r'F:\Python\pycharm\DataAnalysis_test\data\affinity_dataset.txt'
X = np.loadtxt(dataset_filename)
# print(X[:15])#顯示前15行資料
features = ["bread", "milk", "cheese", "apple", "banana"]#特徵列表

"""檢視有多少人購買了蘋果"""
# num_apple_buy = 0
# for sample in X:
#     if sample[3] == 1:
#         num_apple_buy +=1
# print("{0} people bought Apples".format(num_apple_buy))

"""構建規則字典"""
valid_rules = defaultdict(int)#規則應驗
invalid_rules = defaultdict(int)#規則無效
num_occurances = defaultdict(int)#符合A條件（如果。。。）的所有情況
n_features = 5#共有幾項特徵
for sample in X:
    for premise in range(n_features):
        if sample[premise] == 0:
            continue
        else:
            num_occurances[premise] += 1#符合A條件的情況+1
            for conclusion in range(n_features):
                if premise == conclusion:
                    continue
                else:
                    if sample[conclusion] == 1:
                        valid_rules[(premise, conclusion)] +=1 #規則應驗
                    else:
                        invalid_rules[(premise, conclusion)] +=1 #規則無效

#計算每條規則的置信度（confidence規則的準確率如何）和支援度（support規則應驗的次數）
support = valid_rules
confidence = defaultdict(float)
for (premise, conclusion) in valid_rules.keys():
    rule = (premise, conclusion)
    confidence[rule] = valid_rules[rule] / num_occurances[premise]

"""定義輸出每條規則及其置信度和支援度的函式"""
def print_rule(premise, conclusion, support, confidence, features):
    premise_name = features[premise]
    conclusion_name = features[conclusion]
    print("rule: if a person buys {0} they will also buy {1}".format(premise_name, conclusion_name))
    print("置信度confidence: {0:.3f}".format(confidence[(premise, conclusion)]))
    print("支援度support:{0}".format(support[(premise, conclusion)]))


"""排序找出最佳規則"""
def best_rule():
    sorted_support = sorted(support.items(),
                            key=itemgetter(1), #以字典的值的次序進行排序
                            reverse=True)#降序
    sorted_confidence = sorted(confidence.items(), key=itemgetter(1), reverse=True)
    for index in range(5):#輸出排序最高的五個規則
        print("RULE #{0}".format(index + 1))
        premise, conclusion = sorted_support[index][0]
        print_rule(premise, conclusion, support, confidence, features)

if __name__ == '__main__':
    premise = 2
    conclusion = 4
    # print_rule(premise, conclusion, support, confidence, features)
    best_rule()
    # print(valid_rules)

輸出結果為規則的評價結果：

RULE #1
rule: if a person buys cheese they will also buy banana
置信度confidence: 0.659
支援度support:27
RULE #2
rule: if a person buys banana they will also buy cheese
置信度confidence: 0.458
支援度support:27
RULE #3
rule: if a person buys apple they will also buy cheese
置信度confidence: 0.694
支援度support:25
RULE #4
rule: if a person buys cheese they will also buy apple
置信度confidence: 0.610
支援度support:25
RULE #5
rule: if a person buys banana they will also buy apple
置信度confidence: 0.356
支援度support:21

這個例子中的資料集下載連結：商品購買資料集下載

Python資料探勘學習——親和性分析

最近了解了一些Python資料探勘方面的內容，主要學習了《Python資料探勘入門與實踐》這本書的內容，在這裡對書中的內容以及我遇到的一些問題進行整理。資料探勘旨在讓計算機根據已有的資料作出決策。資料探勘的第一步一般是建立資料集，資料集主要包括：（1）樣本：表示真實世界中的物體

Python資料探勘學習筆記（12）淘寶圖片爬蟲實戰

所謂圖片爬蟲，即是從網際網路中自動把對方伺服器上的圖片爬下來的爬蟲程式。一、圖片爬蟲前的網頁連結分析 1.首先開啟淘寶首頁，在搜尋框中輸入關鍵詞，如“神舟”，在搜尋結果介面中點選下一頁，分別開啟第一頁，第二頁，第三頁的搜尋結果，並記下每一頁結果的URL至記

python資料探勘實戰筆記——文字分析（6）：關鍵詞提取

緊接上篇的文件，這節學習關鍵字的提取，關鍵詞——keyword，是人們快速瞭解文件內容，把握主題的重要內容。 #匯入需要的模組 import os import codecs import pandas import jieba import jieba.ana

Python資料探勘學習筆記（1）文字挖掘入門

一、準備階段：（1）開啟cmd，pip安裝jieba（pip install jieba）（2）開啟python安裝目錄的Lib->site-packages->jieba，開啟dict.txt，可以看到這是jieba模組的詞典：每

《python資料分析和資料探勘》——時間序列分析學習筆記

時間序列分析給定一個已被觀測了的時間序列，預測該序列的的未來值。重點介紹AR模型、MA模型、ARMA模型和ARIMA模型 1、時間序列的預處理拿到一個觀察值序列後，首先要對它的純隨機性和平穩性進行檢驗，稱之為預處理。在此區別純隨機序列、平穩非白噪聲序列、非平穩序列。純隨機序

Python 資料分析資料探勘學習路徑圖

話不多說，相信看到這篇文章的你一定是對資料分析，資料探勘有興趣，或者想從事和方面。本文不再累述python對資料分析的重要，資料分析這門的由來之類的。在這裡，我單刀直入，已我學習資料探勘3年來的經歷告訴大家怎麼去學，以讓大家少走彎路。純個人見解，如有不對，還請各位留言指教

python資料探勘分析微信朋友圈

參考https://blog.csdn.net/qinyuanpei/article/details/79360703，基於python3.6實現微信朋友圈性別、地區、個性簽名、頭像四個維度的分析。我的GitHub專案地址https://github.com/sanciyuan/wechat_

機器學習實戰與python資料探勘與python計算機視覺

兩本書的 pdf都比較好找點這裡是機器學習實戰的CSDN介紹這裡是對應原始碼個人部落格也列出過可執行的pythin資料探勘原始碼 python計算機視覺的官網與原始碼在這裡因為看了機器學習實戰

python資料探勘入門與實踐----------特徵值，主成分分析

#http://archive.ics.uci.edu/ml/machine-learning-databases/adult/ import os import pandas as pd adult_filename ="adult.data" adult = pd.read_csv(adu

python資料探勘入門與實踐-----------通過親和力分析推薦電影（Apriori）

嚶~本節程式碼比著書上的原始碼看了一遍並加上了自己的理解註釋，但並沒有執行成功，因為他執行警告，我還不會改錯親和力分析：從頻繁出現的商品中選取共同出現額商品組成頻繁項集，生成關聯規則 import os import pandas as pd import sys #資料讀取 rating

python資料探勘資料分析pandas的介紹及簡單例子

pandas是python下最有力的資料探勘和資料分析的工具之一，支援類似於SQL的資料庫的增、刪、查、改，並且帶有豐富的資料處理函式，支援時間序列的分析功能，支援靈活處理缺失資料。pandas基本的資料結構是Series和DataFrame，series就是序列，類似於一

【Python資料探勘課程】四.決策樹DTC資料分析及鳶尾資料集分析

希望這篇文章對你有所幫助，尤其是剛剛接觸資料探勘以及大資料的同學，同時準備嘗試以案例為主的方式進行講解。如果文章中存在不足或錯誤的地方，還請海涵~一. 分類及決策樹介紹1.分類分類其實是從特定的資料中挖掘模式，作出判斷的過程。比如Gmail郵箱

Python資料探勘課程四.決策樹DTC資料分析及鳶尾資料集分析

希望這篇文章對你有所幫助，尤其是剛剛接觸資料探勘以及大資料的同學，同時準備嘗試以案例為主的方式進行講解。如果文章中存在不足或錯誤的地方，還請海涵~ 一. 分類及決策樹介紹 1.分類分類其實是從特定的資料中挖掘模式，作

【python資料探勘課程】十九.鳶尾花資料集視覺化、線性迴歸、決策樹花樣分析

這是《Python資料探勘課程》系列文章，也是我這學期上課的部分內容。本文主要講述鳶尾花資料集的各種分析，包括視覺化分析、線性迴歸分析、決策樹分析等，通常一個數據集是可以用於多種分析的，希望這篇文章對大

Python資料探勘與機器學習_通訊信用風險評估實戰(4)——模型訓練與調優

系列目錄：訓練資料拆分把訓練資料拆分為訓練集和交叉驗證集，比例為7:3。x_train和y_train用來訓練模型，x_test和y_test用來交叉驗證。 data_train = data_train.set_index('Us

Python資料探勘實戰——相關分析

繼續補以前拉下的債~~~一、相關性指標的研究意義1.1相關係數（Correlation coefficient）：相關係數是變數間關聯程度的最基本測度之一1.2相關分析（Correlation ana

帶你入門Python資料探勘與機器學習（附程式碼、例項）

作者：韋瑋來源：Python愛好者社群本文共7800字，建議閱讀10+分鐘。本文結合程式碼例項待

資料探勘學習（一）——常用的python包

1、資料分析的內容： 2、資料分析與挖掘的相關模組： 3、安裝報錯：Import genism時會報錯：Chunkize warning while installing gensim此時需要在import genism前面加上：UserWarning: d

【python資料探勘課程】十二.Pandas、Matplotlib結合SQL語句對比圖分析

一. 直方圖四圖對比資料庫如下所示，包括URL、作者、標題、摘要、日期、閱讀量和評論數等。執行結果如下所示，其中繪製多個圖的核心程式碼為： p1 = plt.subplot(221) plt.bar(ind, num

python資料探勘入門與實戰——學習筆記（第3、4章）

chapter 3 決策樹預測獲勝球隊 pandas載入資料集 import pandas as pd dataset = pd.read_csv('filepath+filename') 資料清洗，可在讀入時清洗 dataset = pd.read_csv('filen

Python資料探勘學習——親和性分析

相關推薦