Python資料探勘入門與實戰:第一章

阿新 • • 發佈：2018-12-04

程式碼來源於：https://github.com/hLvMxM/Learning_Data_Mining_with_Python/blob/master/Chapter 1/ch1_affinity.ipynb
其中註釋是在自己學習中加上去的，
便於初學者看懂
分析文字為：affinity_dataset.txt

程式碼為：

# @Time    : 2018/12/3 上午10:13
# @Author  : 鄭超
# @Desc    :
# In [1]:
import numpy as np
from operator import itemgetter
from collections import defaultdict

dataset_filename = "affinity_dataset.txt"
X = np.loadtxt(dataset_filename)
n_samples, n_features = X.shape  # 輸出該陣列的結構
features = ["bread", "milk", "cheese", "apples", "bananas"]  # 將檔案中的各項分別定義為一種商品

valid_rules = defaultdict(int)  # 規則應驗字典
invalid_rules = defaultdict(int)  # 規則無效字典
num_occurences = defaultdict(int)  # 條件相同字典

for sample in X:
    for premise in range(n_features):
        if sample[premise] == 0: continue
        num_occurences[premise] += 1  # 滿足第一個條件的總次數
        for conclusion in range(n_features):
            if premise == conclusion: continue  # 同一個條件 進行跳過
            if sample[conclusion] == 1:
                valid_rules[(premise, conclusion)] += 1  # 滿足第一個條件時同時滿足條件二進行+1
            else:
                invalid_rules[(premise, conclusion)] += 1  # 滿足第一個條件時不滿足條件二進行+1
support = valid_rules  # 支援度 支援度指資料集中規則應驗的次數
confidence = defaultdict(float)  # 讓置信度支援浮點數
for premise, conclusion in valid_rules.keys():  # 遍歷keys ,得到條件組合
    confidence[(premise, conclusion)] = valid_rules[(premise, conclusion)] / num_occurences[premise]  # 計算置信度
# In [8]:
for premise, conclusion in confidence:  # 遍歷置信度字典
    premise_name = features[premise]
    conclusion_name = features[conclusion]
    print("Rule: If a person buys {0} they will also buy {1}".format(premise_name, conclusion_name))
    print(" - Confidence: {0:.3f}".format(confidence[(premise, conclusion)]))
    print(" - Support: {0}".format(support[(premise, conclusion)]))
    print("")


def print_rule(premise, conclusion, support, confidence, features):
    # 定義函式,輸出置信度和支援度
    premise_name = features[premise]
    conclusion_name = features[conclusion]
    print("Rule: If a person buys {0} they will also buy {1}".format(premise_name, conclusion_name))
    print(" - Confidence: {0:.3f}".format(confidence[(premise, conclusion)]))  # 輸出置信度
    print(" - Support: {0}\n".format(support[(premise, conclusion)]))  # 輸出支援度


"""輸出支援度最高的前五個元素"""
sorted_support = sorted(support.items(), key=itemgetter(1), reverse=True)  # 使支援度字典按照value 來進行倒敘排練
for index in range(5):
    print("Rule #{0}".format(index + 1))
    premise, conclusion = sorted_support[index][0]
    print_rule(premise, conclusion, support, confidence, features)

print("*" * 60)

"""輸出置信度最高的前五個元素"""
sorted_confidence = sorted(confidence.items(), key=itemgetter(1), reverse=True)  # 使支援度字典按照value 來進行倒敘排練
for index in range(5):
    print("Rule #{0}".format(index + 1))
    premise, conclusion = sorted_confidence[index][0]
    print_rule(premise, conclusion, support, confidence, features)

Python資料探勘入門與實戰:第一章

程式碼來源於：https://github.com/hLvMxM/Learning_Data_Mining_with_Python/blob/master/Chapter 1/ch1_affinity.ipynb 其中註釋是在自己學習中加上去的，便於初學者看懂分析文字為：affinity

python資料探勘入門與實戰——學習筆記（第3、4章）

chapter 3 決策樹預測獲勝球隊 pandas載入資料集 import pandas as pd dataset = pd.read_csv('filepath+filename') 資料清洗，可在讀入時清洗 dataset = pd.read_csv('filen

分享《Python資料探勘入門與實踐》高清中文版+高清英文版+原始碼

下載：https://pan.baidu.com/s/1J7DOGrjoF7HnaSZ8LvFh_A更多資料分享：http://blog.51cto.com/3215120 《Python資料探勘入門與實踐》高清中文版+高清英文版+原始碼高清中文版PDF，251頁，帶目錄和書籤，能夠複製貼上；高清英文版

python資料探勘入門與實踐----------特徵值，主成分分析

#http://archive.ics.uci.edu/ml/machine-learning-databases/adult/ import os import pandas as pd adult_filename ="adult.data" adult = pd.read_csv(adu

python資料探勘入門與實踐-----------通過親和力分析推薦電影（Apriori）

嚶~本節程式碼比著書上的原始碼看了一遍並加上了自己的理解註釋，但並沒有執行成功，因為他執行警告，我還不會改錯親和力分析：從頻繁出現的商品中選取共同出現額商品組成頻繁項集，生成關聯規則 import os import pandas as pd import sys #資料讀取 rating

python資料探勘入門與實踐--------轉換器（資料與處理）與流水線

y=MinMaxScaler().fit_transform(x) y與x為同型矩陣，y每列值的值域為0到1 sklearn.preprocessing.Normalizer 每條資料各特徵值的和為1 sklearn.preprocessing.StandardScaler 各特

python資料探勘入門與實踐--------電離層（Ionosphere）, scikit-learn估計器，K近鄰分類器，交叉檢驗，設定引數

ionosphere.data下載地址：http://archive.ics.uci.edu/ml/machine-learning-databases/ionosphere/ 原始碼及相關資料下載 https://github.com/xxg1413/MachineLea

Python資料探勘入門與實踐--用轉換器抽取特徵

所使用的資料是描述人及其所處的環境，背景及其生活狀況，挖掘目標是：預測一個人是否年收入要多於5 萬美元 1.特徵抽取：特徵抽取是資料探勘中最為重要的一個環節，一般而言，它最終的結果影響要高於資料探勘演算法本身。不幸的是，關於如何選取好的特徵，還

Python資料探勘入門與實踐---用決策樹預測獲勝球隊

參考書籍：《Python資料探勘入門與實踐》 1.載入資料集：使用pandas載入資料集，有1319行資料， 8個特徵，檢視前5項資料集，並查詢是否有重複資料 #coding=gbk #使用決策樹來預測獲勝球隊 import time start =

《python資料探勘入門與實踐》筆記1

1.匯入iris植物資料集，包含150個sample。X是一個4元組，包含特徵：sepal length、 sepal width、 petal length、 petal width。Y是每個sample的分類情況，分類有三種情況（0，1，2）表示。 fro

《python資料探勘》和《python資料探勘入門與實踐》兩本書讀後感

　　這些天花了很多時間來學習資料探勘這門課程，有很多心得和感悟，所以寫下這篇部落格來表達自己讀完這兩本書的感受！　　首先推薦大家通過這兩本書來入門資料探勘這個領域，python資料探勘這本書較容易，

Python資料探勘入門與實踐------鳶尾花分類

import numpy as np from sklearn.datasets import load_iris dataset = load_iris() #print(dataset.DESCR) #檢視資料集 X = dataset.d

Python資料探勘與機器學習技術入門實戰

課程主講簡介：韋瑋，企業家，資深IT領域專家/講師/作家，暢銷書《精通Python網路爬蟲》作者，阿里雲社群技術專家。以下內容根據主講嘉賓視訊分享以及PPT整理而成。本次課程包含了五個知識點： 1.資料探勘與機器學習技術簡介 2.Python資料預

機器學習實戰與python資料探勘與python計算機視覺

兩本書的 pdf都比較好找點這裡是機器學習實戰的CSDN介紹這裡是對應原始碼個人部落格也列出過可執行的pythin資料探勘原始碼 python計算機視覺的官網與原始碼在這裡因為看了機器學習實戰

Python資料探勘與機器學習_通訊信用風險評估實戰(4)——模型訓練與調優

系列目錄：訓練資料拆分把訓練資料拆分為訓練集和交叉驗證集，比例為7:3。x_train和y_train用來訓練模型，x_test和y_test用來交叉驗證。 data_train = data_train.set_index('Us

帶你入門Python資料探勘與機器學習（附程式碼、例項）

作者：韋瑋來源：Python愛好者社群本文共7800字，建議閱讀10+分鐘。本文結合程式碼例項待

Python資料探勘與機器學習_通訊信用風險評估實戰(2)——資料預處理

系列目錄：資料說明通過對讀取資料的實踐，下面是資料集檔案對應讀取後的DataFrame說明。資料檔案 DataFrame DataTech_Credit_Train_Communication1.txt train

python資料探勘與分析實戰—1、2、3

一、資料探勘的建模過程： 1.1定義挖掘目標： 1.1.1動態的菜品推薦 1.1.2客戶進行細分，關注最有價值的客戶 1.1.3基於菜品的歷史銷售情況，對菜品銷量進行預測，預備原材料 1.1.4基於大

python資料探勘與入門實踐（2.2）用sciket-learn估計器分類

接python資料探勘與入門實踐（2.1）用sciket-learn估計器分類三、執行演算法交叉驗證一般分為三類：double-fold CV 即經常所說的2折交叉；10-fold交叉和LOO（leave one out）CV 即留一法交叉。2折：將原始資料集Data

python資料探勘與入門實踐（2.1）用sciket-learn估計器分類

書中主要是用sciket-learn的近鄰演算法進行估計器分類。準備工作：目標 ; -建立分類器，自動判別資料的好壞; 資料集：來自http://archive.ics.uci.edu/ml/machine-learning-dat

Python資料探勘入門與實戰:第一章

相關推薦