京東JData演算法大賽高潛使用者購買意向預測——復現

阿新 • • 發佈：2018-12-01

一、前言

　　完全是重現別人的過程，學習思路和處理方式，僅供記錄，具體請看參考連結，更完善清晰

　　參考連結　　　　　　http://izhaoyi.top/2017/06/25/JData/#%E6%95%B0%E6%8D%AE%E9%9B%86%E8%A7%A3%E6%9E%90

　　嘗試重現別人的挖掘過程，學習別人的思路

二、具體過程

　　資料集介紹等前期資訊可以看參考連結，或是演算法大賽的官網，這裡直接進行操作

　　資料預處理：

　　　　異常值判斷

#檔名
#coding=utf-8
import matplotlib
import matplotlib.pyplot as plt
 
import numpy as np
import pandas as pd


ACTION_201602_FILE = "D:\data\JData_Action_201602.csv"          #讀取資料
ACTION_201603_FILE = "D:\data\JData_Action_201603.csv"
ACTION_201604_FILE = "D:\data\JData_Action_201604.csv"
COMMENT_FILE = "D:\data\JData_Comment.csv"
PRODUCT_FILE = "D:\data\JData_Product.csv"
USER_FILE  
= "D:\data\JData_User.csv"
#USER_TABLE_FILE = "D:\data\ User_table.csv"
#ITEM_TABLE_FILE = "D:\data\Item_table.csv"

　　　　判斷是否空值

def check_empty(file_path,file_name):           #判斷是否存在空值
    file = open(file_path)                      #直接用pd.read_csv會報錯，因此先用file open
    df_file = pd.read_csv(file)
     
print('判斷missing value in {0},{1}'.format(file_name,df_file.isnull().any().any()))

'''
    isnull()判斷是否空值，但是直接使用的話得到的是一個矩陣，
    因此用.any()得到每列是否存在空值的情況，
    再使用.any()得到整個檔案是否存在空值的情況
'''

check_empty(USER_FILE,'user')
check_empty(ACTION_201602_FILE,'Action 2')
check_empty(ACTION_201603_FILE,'Action 3')
check_empty(ACTION_201604_FILE,'Action 4')
check_empty(COMMENT_FILE,'Comment')
check_empty(PRODUCT_FILE,'Product')

　　　　得到結果

判斷missing value in user,True
判斷missing value in Product,False
判斷missing value in Action 2,True
判斷missing value in Action 3,True
判斷missing value in Action 4,True
判斷missing value in Comment,False

　　　　檢視每個表空值的情況，也就是列列空值情況

def empty_detail(file_path,file_name):
    file = open(file_path)
    df_file = pd.read_csv(file)
    print('空值詳細資訊 of {0}'.format(file_name))
    print(pd.isnull(df_file).any())         #.any()檢視列情況

empty_detail(USER_FILE,'User')
empty_detail(ACTION_201604_FILE,'Action 2')
empty_detail(ACTION_201603_FILE,'Action 3')
empty_detail(ACTION_201602_FILE,'Action 4')

　　　　得到結果

空值詳細資訊 of User
user_id        False
age             True
sex             True
user_lv_cd     False
user_reg_tm     True
dtype: bool
空值詳細資訊 of Action 2
user_id     False
sku_id      False
time        False
model_id     True
type        False
cate        False
brand       False
dtype: bool
空值詳細資訊 of Action 3
user_id     False
sku_id      False
time        False
model_id     True
type        False
cate        False
brand       False
dtype: bool
空值詳細資訊 of Action 4
user_id     False
sku_id      False
time        False
model_id     True
type        False
cate        False
brand       False
dtype: bool

　　可得，存在空值的情況為

　　　　User

　　　　　　age,sex,user_reg_tm

　　　　Action

　　　　　　model_id

　　接著檢視缺失值的數量和佔比

def empty_records(file_path,file_name,col_name):
    file = open(file_path)
    df_file = pd.read_csv(file)
    missing = df_file[col_name].isnull().sum().sum()        #使用.sum()

    print('缺失數 of {0} in {1} is {2}'.format(col_name,file_name,missing))
    print('佔百分比為：',missing*1.0/df_file.shape[0])
                #df.shape 獲取df的size
                #df.shape[0] 獲取df的行數    df.shape[1] 獲取列數


empty_records(USER_FILE,'User','age')
empty_records(USER_FILE,'User','sex')
empty_records(USER_FILE,'User','user_reg_tm')
empty_records(ACTION_201602_FILE,'Action 2','model_id')
empty_records(ACTION_201602_FILE,'Action 3','model_id')
empty_records(ACTION_201602_FILE,'Action 4','model_id')

　　結果為

缺失數 of age in User is 3
佔百分比為： 2.8484347850855955e-05
缺失數 of sex in User is 3
佔百分比為： 2.8484347850855955e-05
缺失數 of user_reg_tm in User is 3
佔百分比為： 2.8484347850855955e-05
缺失數 of model_id in Action 2 is 4959617
佔百分比為： 0.4318183638671067
缺失數 of model_id in Action 3 is 10553261
佔百分比為： 0.4072043168995297
缺失數 of model_id in Action 4 is 5143018
佔百分比為： 0.38962452388019514

填充user檔案的空值，age用-1，sex用2

userfile = open(USER_FILE)
user = pd.read_csv(userfile)           #填充空值，age用-1，sex用2
user['age'].fillna('-1',inplace=True)
user['sex'].fillna('2',inplace=True)

print(pd.isnull(user).any())

檢視結果

user_id        False
age            False
sex            False
user_lv_cd     False
user_reg_tm     True
dtype: bool

檢視各個檔案中未知記錄所佔比重

print('未知檔案 of age in user：{0} 所佔比重：{1}'.format(user[user['age']=='-1'].shape[0],\
                                                user[user['age']=='-1'].shape[0]/user.shape[0]))
print('未知檔案 of sex in user: {0} 所佔比重： {1} '.format(user[user['sex']==2].shape[0],\
                                                  user[user['sex']==2].shape[0]/user.shape[0] ))

結果

未知檔案 of age in user：14415 所佔比重：0.13686729142336287
未知檔案 of sex in user: 54735 所佔比重： 0.5196969265388669

def unknown_records(file_path, file_name, col_name):
    file_path1 = open(file_path)
    df_file = pd.read_csv(file_path1)
    missing = df_file[df_file[col_name] == -1].shape[0]
    print( 'No. of unknown {0} in {1} is {2}'.format(col_name, file_name, missing))
    print ('percent: ', missing  / df_file.shape[0])

'''
unknown_records(PRODUCT_FILE, 'Product', 'a1')
unknown_records(PRODUCT_FILE, 'Product', 'a2')
unknown_records(PRODUCT_FILE, 'Product', 'a3')
'''

資料一致性驗證：利用pd.Merge連線sku 和 Action中的sku, 觀察Action中的資料是否減少

def user_action_check():
    user_f = open(USER_FILE)
    df_user = pd.read_csv(user_f)
    df_sku = df_user.ix[:,'user_id'].to_frame()
    Ac2 = open(ACTION_201602_FILE)
    df_month2 = pd.read_csv(Ac2)
    Ac3 = open(ACTION_201603_FILE)
    print ('Is action of Feb. from User file? ', len(df_month2) == len(pd.merge(df_sku,df_month2)))
    df_month3 = pd.read_csv(Ac3)
    print ('Is action of Mar. from User file? ', len(df_month3) == len(pd.merge(df_sku,df_month3)))
    Ac4 = open(ACTION_201604_FILE)
    df_month4 = pd.read_csv(Ac4)
    print ('Is action of Apr. from User file? ', len(df_month4) == len(pd.merge(df_sku,df_month4)))


user_action_check()

結果

Is action of Feb. from User file?  True
Is action of Mar. from User file?  True
Is action of Apr. from User file?  True

結論： User資料集中的使用者和互動行為資料集中的使用者完全一致

#重複記錄分析

#檢查是否存在註冊時間在2016年-4月-15號之後的使用者

將user_id轉換為int

import pandas as pd
df_month = pd.read_csv('data\JData_Action_201602.csv')
df_month['user_id'] = df_month['user_id'].apply(lambda x:int(x))
print df_month['user_id'].dtype
df_month.to_csv('data\JData_Action_201602.csv',index=None)
df_month = pd.read_csv('data\JData_Action_201603.csv')
df_month['user_id'] = df_month['user_id'].apply(lambda x:int(x))
print df_month['user_id'].dtype
df_month.to_csv('data\JData_Action_201603.csv',index=None)
df_month = pd.read_csv('data\JData_Action_201604.csv')
df_month['user_id'] = df_month['user_id'].apply(lambda x:int(x))
print df_month['user_id'].dtype
df_month.to_csv('data\JData_Action_201604.csv',index=None)

按照星期對使用者進行分析

def get_from_action_data(fname, chunk_size=100000):
    reader = pd.read_csv(fname, header=0, iterator=True)
    chunks = []
    loop = True
    while loop:
        try:
            chunk = reader.get_chunk(chunk_size)[
                ["user_id", "sku_id", "type", "time"]]
            chunks.append(chunk)
        except StopIteration:
            loop = False
            print("Iteration is stopped")
    df_ac = pd.concat(chunks, ignore_index=True)
    # type=4,為購買
    df_ac = df_ac[df_ac['type'] == 4]
    return df_ac[["user_id", "sku_id", "time"]]



df_ac = []
df_ac.append(get_from_action_data(fname=ACTION_201602_FILE))
df_ac.append(get_from_action_data(fname=ACTION_201603_FILE))
df_ac.append(get_from_action_data(fname=ACTION_201604_FILE))
df_ac = pd.concat(df_ac, ignore_index=True)

print(df_ac.dtypes)




# 將time欄位轉換為datetime型別
df_ac['time'] = pd.to_datetime(df_ac['time'])
# 使用lambda匿名函式將時間time轉換為星期(週一為1, 週日為７)
df_ac['time'] = df_ac['time'].apply(lambda x: x.weekday() + 1)


# 週一到週日每天購買使用者個數
df_user = df_ac.groupby('time')['user_id'].nunique()
df_user = df_user.to_frame().reset_index()
df_user.columns = ['weekday', 'user_num']


# 週一到週日每天購買商品個數
df_item = df_ac.groupby('time')['sku_id'].nunique()
df_item = df_item.to_frame().reset_index()
df_item.columns = ['weekday', 'item_num']


# 週一到週日每天購買記錄個數
df_ui = df_ac.groupby('time', as_index=False).size()
df_ui = df_ui.to_frame().reset_index()
df_ui.columns = ['weekday', 'user_item_num']


# 條形寬度
bar_width = 0.2
# 透明度
opacity = 0.4
plt.bar(df_user['weekday'], df_user['user_num'], bar_width,
        alpha=opacity, color='c', label='user')
plt.bar(df_item['weekday']+bar_width, df_item['item_num'],
        bar_width, alpha=opacity, color='g', label='item')
plt.bar(df_ui['weekday']+bar_width*2, df_ui['user_item_num'],
        bar_width, alpha=opacity, color='m', label='user_item')
plt.xlabel('weekday')
plt.ylabel('number')
plt.title('A Week Purchase Table')
plt.xticks(df_user['weekday'] + bar_width * 3 / 2., (1,2,3,4,5,6,7))
plt.tight_layout()
plt.legend(prop={'size':10})
#plt.show()

結果

京東JData演算法大賽高潛使用者購買意向預測——復現

一、前言　　完全是重現別人的過程，學習思路和處理方式，僅供記錄，具體請看參考連結，更完善清晰　　參考連結　　　　　　http://izhaoyi.top/2017/06/25/JData/#%E6%95%B0%E6%8D%AE%E9%9B%86%E8%A7%A3%E6%9E%90 　　嘗試重現別人的

JData資料處理及高潛使用者購買意向預測

競賽概述：本次大賽以京東商城真實的使用者、商品和行為資料（脫敏後）為基礎，參賽隊伍需要通過資料探勘的技術和機器學習的演算法，構建使用者購買商品的預測模型，輸出高潛使用者和目標商品的匹配結果，為精準營銷提供高質量的目標群體。同時，希望參賽隊伍能通過本次比賽，挖掘資料背後潛在

京東JData演算法大賽小結(公司內部賽)

總體解決方案本文將高潛使用者購買意向預測，抽象為一個二分類問題。從使用者，商品，品牌，使用者-商品，使用者-品牌五個維度進行特徵提取。將觀察天未來5天有購買行為的使用者-商品對標記為正樣本，觀察天過去30天至未來5天有互動行為但未購買的使用者-商品對標記為負樣本。由於正負

冠軍揭曉！京東Alpha開發者大賽Pick誰上了C位

近期，京東Alpha開發者大賽圓滿結束。遍佈全國的AI開發愛好者，對本次大賽展現出了超乎想象的激情與熱愛，開發出了很多優質、好玩的技能作品。家中有叮咚的朋友們也紛紛表示更喜歡撩音箱了，因為男女朋友、賺錢、娛樂遊戲、學習……通過這些技能全都能解決。哇，有這麼神奇？來了解一下吧！一等

生成學習演算法_高斯判別分析_樸素貝葉斯_斯坦福CS229_學習筆記

Part IV Generative Learning Algorithms 回顧上一部分的內容，我們解決問題的出發點在於直接對p(y|x;)建模：如線性迴歸中y建模為高斯分佈，邏輯迴歸y建模為伯努利分佈。這樣建模的好處在於可以直接得到x到y的對映關係，理解起來也比較直接。這樣建模

分享《Python機器學習—預測分析核心演算法》高清中文版PDF+高清英文版PDF+原始碼

下載：https://pan.baidu.com/s/1sfaOZmuRj14FWNumGQ5ahw 更多資料分享：http://blog.51cto.com/3215120 《Python機器學習—預測分析核心演算法》高清中文版PDF+高清英文版PDF+原始碼高清中文版，338頁，帶目錄和書籤，文字能夠

2018科大訊飛AI營銷演算法大賽總結（冠軍）

作者介紹：王賀，武漢大學，計算機專業，研二寫在前面首先很幸運能夠拿到這次冠軍，有兩位大佬隊友是這次獲勝的關鍵，再次感謝鵬哥和阿水。同時希望我的分享與總結能給大家帶來些許幫助，並且一起交流學習。接下來將會呈現ppt內容和部分程式碼賽題分析探索

【機器學習】EM演算法在高斯混合模型學習中的應用

前言 EM演算法，此部落格介紹了EMEM演算法相關理論知識，看本篇部落格前先熟悉EMEM演算法。本篇部落格打算先從單個高斯分佈說起，然後推廣到多個高斯混合起來，最後給出高斯混合模型引數求解過程。單個高斯分佈假如我們有一些資料，這些資料來自同一個

EM演算法與高斯混合模型

由k個高斯模型加權組成，α是各高斯分佈的權重，Θ是引數。對GMM模型的引數估計，就要用EM演算法。更一般的講，EM演算法適用於帶有隱變數的概率模型的估計，即不同的高斯分佈所對應的類別變數。為何不能使用極大似然估計，如果直接使用極大似然估計

Python實現-----使用隨機梯度演算法對高斯核模型進行最小二乘學習法

（1）高斯核模型其中為樣本。可以看出，核模型的均值是以的元素進行計算的。（2）隨機梯度下降法（3）python 程式碼實現 import numpy as np import matplotlib

”藍橋杯“演算法大賽·入門演算法（2）

問題描述給定圓的半徑r，求圓的面積。參考程式碼 C++ #include <iostream> #include <cmath> #include <iomanip> using namespace std; int

“藍橋杯”演算法大賽·入門演算法（1）

問題描述斐波那契（Fibonacci）數列的遞推公式為：，其中。當比較大時，也非常大。現在我們想知道，除以10007的餘數是多少？參考演算法 C++ #include <iostream> constexpr auto MOD = 10007; usi

“藍橋杯”演算法大賽·基礎演算法

第1題　　閏年還是平年？問題描述給定一個年份，判斷這一年是不是閏年。閏年滿足且僅滿足以下情況中的1種：（a）年份是4的倍數而不是100的倍數；（b）年份是400的倍數。不滿足上述任意一種情況的都是平年。規則約定輸入輸入包含一個整數y，表示當前的年份

揭祕微信紅包：架構、搶紅包演算法、高併發和降級方案

編者按與傳統意義上的紅包相比，近兩年火起來的“紅包”，似乎才是如今春節的一大重頭戲。歷經上千年時代傳承與變遷，春節發紅包早已成為歷史沉澱的文化習俗，融入了民族的血脈。按照各家公佈的資料，除夕全天微信使用者紅包總髮送量達到10.1億次，搖一搖互動量達到110億次，紅包峰

阿里、京東高階演算法專家講述數學在企業中的應用

學數學到底學什麼？如果只是為了刷題和考試，那就大錯特錯了。學習數學目的是為了掌握數學的思想方法和

36 歲捧走圖靈碗！80 歲演算法大師高德納要在 105 歲完結《計算機程式設計藝術》...

【CSDN 編者按】號稱計算機領域經典必讀的著作你都讀過哪些，例如《計算機程式設計藝術》系列？近日，這套書的作者高德納（Donald Knuth）在接受紐約時報採訪時，談到了自己對於這部已投入五十載心血作品的反思。自幼便顯露非凡智力的演算法大師高德納，是美國著名電腦科學

C++高精度演算法之高精度減法

高精度減法題目描述高精度減法輸入兩個整數a,b（第二個可能比第一個大）輸出結果（是負數要輸出負號）樣例輸入 2 1 樣例輸出 1 說明 20%資料a,b

斯坦福大學機器學習筆記——異常檢測演算法（高斯分佈、多元高斯分佈、異常檢測演算法）

異常檢測問題介紹：異常檢測演算法主要用於無監督學習問題，但從某種角度看它又類似於一種有監督學習的問題，下面我們從一個例子中簡單介紹一下什麼是異常檢測問題。比如我們有一個飛機引擎製造商，對於一個新造出的飛機引擎我們想判斷這個引擎是不是異常的。假如我們有

阿里移動推薦演算法大賽總結

一、賽題說明 1. 競賽題目在真實的業務場景下，我們往往需要對所有商品的一個子集構建個性化推薦模型。在完成這件任務的過程中，我們不僅需要利用使用者在這個商品子集上的行為資料，往往還需要利用更豐富的使用者行為資料。定義如下的符號： U：使用者集合

演算法提高高精度乘法 ————大數乘法

問題描述　　在C/C++語言中，整型所能表示的範圍一般為-231到231（大約21億）,即使long long型，一般也只能表示到-263到263。要想計算更加規模的數，就要用軟體來擴充套件了，比如用陣列或字串來模擬更多規模的數及共運算。　　現在輸入兩個整數，請輸出它

京東JData演算法大賽高潛使用者購買意向預測——復現

相關推薦