【機器學習】第4部分關聯分析

阿新 • • 發佈：2019-02-19

# -*- coding:utf-8 -*-

import itertools
import copy

'''
定義全域性變數k，即支援度計數k,此k也可以在執行程式之前輸入，簡單改動即可
'''
k = 2

'''
儲存頻繁項集的列表
'''
frequenceItem = []

'''
從txt檔案dataset.txt裡獲取事務集
'''


def getDataSet(args):
    f = open(args, 'r')
    source = f.readlines()
    f.close()
    dataset = []
    for line in source:
        temp1 = line.strip('\r\n')
        temp2 = temp1.split(',')
        dataset.append(temp2)
    return dataset


'''
初步掃描事務集，從事務集裡獲取候選1項集
方法的基本思路是：
定義一個集合tmp，將事務集的第一項作為tmp的初始集合
然後掃描事務集，將不在tmp裡的資料項加入tmp中
'''


def find_item(dataset):
    length = len(dataset)
    for i in range(0, length):
        if i == 0:
            tmp = set(dataset[i])
        tmp.update(set(dataset[i]))
    candidate = list(tmp)
    candidate.sort()
    return candidate


'''
從候選項集裡找出頻繁項集，其中num代表頻繁num+1項集
如num為0的為從候選1項集裡找出頻繁1項集
方法基本思路：
1、定義一個支援度列表count
2、對於每一個候選項，依次掃描事務集，如果該項出現在事務集中就將該項對應的count+1、定義一個支援度列表count+1
3、將每一項的count和k（支援度計數）進行比較，將count小於k的項剔除
'''

'''
其實不管num為0還是別的值演算法應該是一樣的，但是由於程式實現上的問題
num為0的時候選項集是一維列表，其它的時候，候選項集是二維列表，
畢竟只是自己寫著玩的，python還不熟，牽一髮而動全身，懶得改了
'''


def find_frequent(candidate, dataset, num):
    frequence = []
    length = len(candidate)
    count = []
    for i in range(0, length):
        count.append(0)
        count[i] = 0
        if num == 0:
            child = set([candidate[i]])
        else:
            child = set(candidate[i])
        for j in dataset:
            parent = set(j)
            if child.issubset(parent):
                count[i] = count[i] + 1
    for m in range(0, length):
        if count[m] >= k:
            frequence.append(candidate[m])
    return frequence


'''
先驗定理，剪枝掉不必要的候選n項集
方法思路：
1、依次取出候選項集裡的項
2、取出n項集裡的n-1項子集
3、如果所有的n-1項集不都都是頻繁n-1項集的子集，則刪除該候選項集
'''


def pre_test(candidate, num, frequence):
    r_candidate = copy.deepcopy(candidate)
    for each in candidate:
        for each2 in itertools.combinations(each, num):
            tmp = (list(each2))
            tag = 0
            for j in frequence:
                if num == 1:
                    if (tmp[0] == j):
                        tag = 1
                        break
                else:
                    if tmp == j:
                        tag = 1
                        break
            if tag == 0:
                r_candidate.remove(each)
                break
    return r_candidate


'''
通過頻繁n-1項集產生候選n項集，並通過先驗定理對候選n項集進行剪枝
方法思路：
1、如果是頻繁1項集，則通過笛卡爾積產生頻繁2項集
2、如果不是頻繁一項集，採用F（k-1） * F（k-1）方法通過頻繁n-1項集產生候選n項集
注：F（k-1） * F（k-1）方法在我的另一篇關聯演算法部落格上做了理論上的簡單介紹，或者也可以直接參看《資料探勘導論》
'''


def get_candidata(frequence, num):
    length = len(frequence)
    candidate = []
    if num == 1:
        for each in itertools.combinations(frequence, 2):
            tmp = list(each)
            tmp3 = []
            tmp3.append(tmp[0])
            tmp3.append(tmp[1])
            candidate.append(tmp3)
    else:
        for i in range(0, length - 1):
            tmp1 = copy.deepcopy(frequence[i])
            tmp1.pop(num - 1)
            for j in range(i + 1, length):
                tmp2 = copy.deepcopy(frequence[j])
                tmp2.pop(num - 1)
                if tmp1 == tmp2:
                    tmp3 = copy.deepcopy(frequence[i])
                    tmp3.append(frequence[j][num - 1])
                    candidate.append(tmp3)
    candidate2 = pre_test(candidate, num, frequence)
    return candidate2


'''
main程式
'''
if __name__ == '__main__':
    dataset = getDataSet('dataset.txt')
    Item = find_item(dataset)
    num = 0
    frequenceItem = []

'''
通過事務集找到頻繁項集，直至頻繁n項集為空，則退出迴圈
'''
while 1:
    if num == 0:
        candidate = Item
    else:
        candidate = get_candidata(frequenceItem[num - 1], num)
    frequenceItem.append(find_frequent(candidate, dataset, num))
    if frequenceItem[num] == []:
        frequenceItem.pop(num)
        break
    num = num + 1
'''
打印出頻繁項集
'''
for each in frequenceItem:
    print each

【機器學習】第4部分關聯分析

# -*- coding:utf-8 -*- import itertools import copy ''' 定義全域性變數k，即支援度計數k,此k也可以在執行程式之前輸入，簡單改動即可 ''' k = 2 ''' 儲存頻繁項集的列表 ''' frequenceItem = [] ''' 從txt檔

【機器學習實戰—第4章：基於概率論的分類方法：樸素貝葉斯】程式碼報錯（python3）

1、報錯：UnicodeDecodeError: ‘gbk’ codec can’t decode byte 0xae in position 199: illegal multibyte sequence 原因：這是檔案編碼的問題，檔案中有非法的多位元組字元。解決辦法：開啟Ch04\

【機器學習】LDA（線性判別分析）或fisher判別分析

內容目錄：一、LDA/fisher判別分析二、LDA判別分析與PCA對比一、fisher判別分析 1.首先在模式識別課程上學習的是fisher判別，LDA概念是看川大同學寫的500問接觸的，兩者是一樣的東西。 2推薦：深度學習500問 github連結形式是問答形式，初學者概念

【機器學習】--關聯規則算法從初識到應用

掃描去掉要求 ini con imu 時也暗示 width 一、前述　　關聯規則的目的在於在一個數據集中找出項之間的關系，也稱之為購物藍分析 (market basket analysis)。例如，購買鞋的顧客，有10%的可能也會買襪子，60%的買面包的顧客，也會買

【機器學習】Windows +Anaconda3(python3.5)+opencv3.4.1 安裝（2）

Windows +Anaconda3(python3.5)+opencv3.4.1 安裝（2）原文參考：https://www.cnblogs.com/

【機器學習】Windows +Anaconda3(python3.5)+opencv3.4.1 安裝（1）

Windows +Anaconda3(python3.5)+opencv3.4.1 安裝（1） 1. Anacond的介紹 Anaconda指的是一個

【機器學習】Windows +Anaconda3(python3.5)+opencv3.4.1 安裝（4）

Windows +Anaconda3(python3.5)+opencv3.4.1 安裝(4) 想解決import cv2問題，於是在網上找了一些方法，但是許多是不可行的，後來發現一

【機器學習】資料探勘演算法——關聯規則（一），相關概念，評價指標

綜述：資料探勘是指以某種方式分析資料來源，從中發現一些潛在的有用的資訊，所以資料探勘又稱作知識發現，而關聯規則挖掘則是資料探勘中的一個很重要的課題，顧名思義，它是從資料背後發現事物之間可能存在的關聯或者聯絡。關聯規則的目的在於在一個數據集中找出項之間的關

【機器學習】資料探勘演算法——關聯規則（二），挖掘過程，Aprioir演算法

關聯規則挖掘的原理和過程從關聯規則（一）的分析中可知，關聯規則挖掘是從事務集合中挖掘出這樣的關聯規則：它的支援度和置信度大於最低閾值（minsup,minconf），這個閾值是由使用者指定的。根據 support=(X,Y).count/T.countsupp

【機器學習】支援向量機（4）——非線性支援向量機（核函式）

前言當訓練資料集線性可分或者近似線性可分時，前面我們在文一以及文二已經介紹了線性可分支援向量機和線性支援向量機。但是有時訓練資料集是非線性的，這時就可以使用非線性支援向量機。非線性支援向量機的主要特點就是利用了核技巧。非線性分類問題如

【機器學習】隨機森林 Random Forest 得到模型後，評估參數重要性

img eas 一個 increase 裏的 sum 示例增加機器在得出random forest 模型後，評估參數重要性 importance（）示例如下特征重要性評價標準 %IncMSE 是 increase in MSE。就是對每一個變量比如 X1

【機器學習】主成分分析PCA（Principal components analysis）

大小限制總結情況 pca 空間會有 ges nal 1. 問題真實的訓練數據總是存在各種各樣的問題：　　1、比如拿到一個汽車的樣本，裏面既有以“千米/每小時”度量的最大速度特征，也有“英裏/小時”的最大速度特征，

【機器學習】1 監督學習應用與梯度下降

例如 tla ges 機器 fprintf lns 找到輸入 style 監督學習簡單來說監督學習模型如圖所示其中 x是輸入變量又叫特征向量 y是輸出變量又叫目標向量通常的我們用（x,y）表示一個樣本而第i個樣本用（x（i），y（i））表示 h是輸出函

【機器學習】EM的算法

log mea www 優化問題 get href ive 路線 EM的算法流程：初始化分布參數θ；重復以下步驟直到收斂： E步驟：根據參數初始值或上一次叠代的模型參數來計算出隱性變量的後驗概率，其實就是隱性變量的期望。作為隱藏變量的

【機器學習】DBSCAN Algorithms基於密度的聚類算法

多次使用缺點有效結束基於需要 att 共享一、算法思想： DBSCAN(Density-Based Spatial Clustering of Applications with Noise)是一個比較有代表性的基於密度的聚

【機器學習】數據預處理之將類別數據轉換為數值

行數據 pri and slab form ces nbsp 遍歷 encode 在進行python數據分析的時候，首先要進行數據預處理。有時候不得不處理一些非數值類別的數據，嗯，今天要說的就是面對這些數據該如何處理。目前了解到的大概有三種方法： 1，通過LabelE

【機器學習】對梯度下降算法的進一步理解

獨立 com 線性回歸執行 ont 執行過程 wid 簡單的技術單一變量的線性回歸讓我們依然以房屋為例，如果輸入的樣本特征是房子的尺寸，我們需要研究房屋尺寸和房屋價格之間的關系，假設我們的回歸模型訓練集如下其中我們用 m表示訓練集實例中的實例數量， x代表特

【機器學習】手寫數字識別算法

alt gdi 數字識別 -1 轉換 error: erro files turn 1.數據準備樣本數據獲取忽略，實際上就是將32*32的圖片上數字格式化成一個向量，如下：本demo所有樣本數據都是基於這種格式的訓練數據：將圖片數據轉成1*1024的數組，作為一

【機器學習】隨機初始化思想神經網絡總結

算法代價函數所有 -i 如果中間相同決定最小　之前在進行梯度下降時，通常我們讓Θ等參數為0，這樣的做法在邏輯回歸中還是可行的，但是在神經網絡中，如果你讓所有的參數都初始化為0，這將意味著第二層的所有的激活單元都會有相同的值，同理，如果我們初始化所有的參數都是一

【機器學習】 Matlab 2015a 自帶機器學習算法匯總

dtree 決策 mat 可能集成模型訓練貝葉斯 cdi top MATLAB機器學習沒看到啥教程，只有一系列函數，只好記錄下： MATLAB每個機器學習方法都有很多種方式實現，並可進行高級配置（比如訓練決策樹時設置的各種參數），這裏由於篇幅的限制，不再詳細描述。我

【機器學習】第4部分 關聯分析

相關推薦

【機器學習】第4部分關聯分析