python+matplotlib+web.py

阿新 • • 發佈：2017-07-20

我們 xlabel asc bsp ech http gen class chart

最近看了廈門大學數據庫實驗室林子雨老師的《大數據課程實驗案例：網站用戶行為分析》，可視化這塊是用的R語言，我決定用Python來實現一下。

參考文獻 http://dblab.xmu.edu.cn/post/7499/

數據來源 http://pan.baidu.com/s/1nuOSo7B

  1 # -*- coding: utf-8 -*-
  2 """
  3 Created on Wed Apr 19 17:26:53 2017
  4 
  5 @author: touristlee
  6 
  7 TO:Don‘t worry,be happy!
  8 """
  9 
 10 import pandas as pd
 
 11 import numpy as np
 12 import matplotlib.pylab as plt
 13 import matplotlib.patches as mpatches
 14 
 15 #數據下載地址https://pan.baidu.com/s/1nuOSo7B
 16 #本案例采用的數據集為user.zip，包含了一個大規模數據集raw_user.csv（包含2000萬條記錄），
 17 #和一個小數據集small_user.csv（只包含30萬條記錄）。
 18 #小數據集small_user.csv是從大規模數據集raw_user.csv中抽取的一小部分數據。
 19 # 
之所以抽取出一少部分記錄單獨構成一個小數據集，是因為，在第一遍跑通整個實驗流程時，
 20 #會遇到各種錯誤，各種問題，先用小數據集測試，可以大量節約程序運行時間。
 21 #等到第一次完整實驗流程都順利跑通以後，就可以最後用大規模數據集進行最後的測試。
 22 #user_id（用戶id）
 23 #item_id(商品id)
 24 #behaviour_type（包括瀏覽、收藏、加購物車、購買，對應取值分別是1、2、3、4）
 25 #user_geohash(用戶地理位置哈希值，有些記錄中沒有這個字段值，所以後面我們做數據預處理時把這個字段全部刪除，用隨機生成的省份代替)
 26 #item_category（商品分類） 

 27 #time（該記錄產生時間）
 28 
 29 
 30 #讀取數據
 31 df = pd.read_csv(‘small_user.csv‘,encoding=‘utf-8‘)
 32 #隨機生成一個省份列表
 33 def get_province(x):
 34     youlist = []
 35     for i in x:
 36         maplist = [u‘北京‘,u‘天津‘,u‘上海‘,u‘重慶‘,u‘河北‘,u‘山西‘,u‘遼寧‘,u‘吉林‘,u‘黑龍江‘,u‘江蘇‘,u‘浙江‘,u‘安徽‘,u‘福建‘,u‘江西‘,u‘山東‘,u‘河南‘,u‘湖北‘,u‘湖南‘,u‘廣東‘,u‘海南‘,u‘四川‘,u‘貴州‘,u‘雲南‘,u‘陜西‘,u‘甘肅‘,u‘青海‘,u‘臺灣‘,u‘內蒙古‘,u‘廣西‘,u‘西藏‘,u‘寧夏‘,u‘新疆‘,u‘香港‘,u‘澳門‘]  
 37         youlist.append(maplist[i])
 38     return youlist
 39 #切割字符串
 40 def format_time(x):
 41     return str(x).split(‘ ‘)[0]
 42 #格式化
 43 df = df[[‘user_id‘,‘item_id‘,‘behavior_type‘,‘item_category‘,‘time‘]]
 44 df[‘province‘] = get_province(np.random.randint(0,33,len(df)))
 45 df[‘time‘] = df[‘time‘].map(format_time)
 46 df.columns=[‘uid‘,‘itemid‘,‘behavior‘,‘itemcagegory‘,‘time‘,‘province‘]
 47 df[‘time‘]=df[‘time‘].astype(‘datetime64‘)
 48 print df.dtypes
 49 
 50 #查詢
 51 #查詢有多少條數據
 52 print df.count()
 53 #查詢有多少用戶
 54 print df.drop_duplicates([‘uid‘]).count()
 55 #查詢有多少不重復的數據
 56 print df.drop_duplicates().count()
 57 
 58 #條件查詢
 59 #查詢2014年12月10日到2014年12月13日有多少人瀏覽了商品
 60 print df[(‘2014-12-13‘>=df[‘time‘]) & (df[‘time‘] >= ‘2014-12-10‘) & (df[‘behavior‘]==1)].head()
 61 #每天網站賣出去的商品的個數
 62 df2=df.drop_duplicates()
 63 print df2[df2[‘behavior‘]==4].groupby(‘time‘).itemcagegory.count()
 64 #取給定時間和給定地點，求當天發出到該地點的貨物的數量
 65 print df[(df[‘time‘]==‘2014-12-12‘) & (df[‘province‘]==u‘山西‘) & (df[‘behavior‘]==4)].itemcagegory.count()
 66 
 67 
 68 
 69 #根據用戶行為分析
 70 #查詢一件商品在某天的購買比例或瀏覽比例
 71 print df[df[‘time‘]==‘2014-12-11‘].itemcagegory.count()
 72 print df[(df[‘time‘]==‘2014-12-11‘) & (df[‘behavior‘]==4)].itemcagegory.count()
 73 print float(df[(df[‘time‘]==‘2014-12-11‘) & (df[‘behavior‘]==4)].itemcagegory.count())/float(df[df[‘time‘]==‘2014-12-11‘].itemcagegory.count())
 74 
 75 
 76 
 77 ##查詢某個用戶在某一天點擊網站占該天所有點擊行為的比例（點擊行為包括瀏覽，加入購物車，收藏，購買）
 78 print df[(df[‘uid‘]==10001082) & (df[‘time‘]==‘2014-12-12‘)].behavior.count()
 79 print float(df[(df[‘uid‘]==10001082) & (df[‘time‘]==‘2014-12-12‘)].behavior.count())/float(df[df[‘time‘]==‘2014-12-12‘].behavior.count())
 80 
 81 #用戶實時查詢分析
 82 #各個地區瀏覽網站的訪問次數
 83 
 84 df2=df[df[‘behavior‘]==1]
 85 df2=df2.drop_duplicates(‘uid‘)
 86 print df2.groupby(‘province‘).uid.count()
 87 
 88 
 89 
 90 #可視化
 91 #分析各省份消費者對商品的行為（瀏覽）
 92 fig=plt.figure(figsize=(8,4))
 93 ax1=fig.add_subplot(111)
 94 plt.title(u‘behavior by province‘)
 95 plt.xlabel(‘province‘)
 96 plt.ylabel(‘count‘)
 97 df2=df[df[‘behavior‘]==1]
 98 df2=df2.groupby(‘province‘).uid.count()
 99 df2.plot(kind=‘bar‘)
100 #分析消費者對商品的行為
101 
102 df3=df[[‘behavior‘]]
103 df3=df3.groupby(‘behavior‘).behavior.count()
104 fig2=plt.figure(figsize=(8,4))
105 ax2=fig2.add_subplot(111)
106 plt.title(u‘behavior‘)
107 plt.xlabel(‘behavior‘)
108 plt.ylabel(‘count‘)
109 df3.plot(kind=‘bar‘)
110 
111 ##分析被購買最多的商品是哪一類 TOP10
112 df4=df[[‘behavior‘,‘itemcagegory‘]]
113 df4=df4[df4[‘behavior‘]==4]
114 df4=df4.groupby(‘itemcagegory‘).itemcagegory.count()
115 df5=df4.sort_values(ascending=False).head(10)
116 fig3=plt.figure(figsize=(8,4))
117 ax3=fig3.add_subplot(1,1,1)
118 colors=[‘red‘,‘blue‘,‘yellow‘,‘green‘,‘white‘,‘black‘,‘magenta‘,‘cyan‘,‘yellowgreen‘,‘lightcoral‘]
119 ax3.scatter(df5.index,df5.values,c=colors)
120 plt.xlabel(‘var‘)
121 plt.ylabel(‘freq‘)
122 plt.title(‘TOP10 category‘)
123 plt.legend(handles=[mpatches.Patch(color=x, label=y,joinstyle=‘round‘) for (x,y) in zip(colors,df5.index)],bbox_to_anchor=(1.05, 1), loc=2, borderaxespad=0.)
124 plt.show()
125 
126 ##分析每年的那個月份購買商品的量最多
127 #先增加一列 月份
128 df6=df[df[‘behavior‘]==4]
129 df7=df6.copy()
130 df7[‘month‘]=np.array([i.month for i in df7[‘time‘]])
131 df7=df7[[‘behavior‘,‘month‘]]
132 df7=df7.groupby(‘month‘).count()
133 df7.plot(kind=‘bar‘)
134 
135 ##分析每年的每個月份的行為習慣
136 df7=df.copy()
137 df7[‘month‘]=np.array([i.month for i in df7[‘time‘]])
138 df7=df7[[‘behavior‘,‘month‘]]
139 tmp=df7.groupby([‘month‘,‘behavior‘]).behavior.count()
140 tmp.plot(kind=‘bar‘,color=[‘red‘,‘blue‘,‘green‘,‘yellow‘])
141 
142 
143 #分析各省份消費者對商品的行為（收藏）
144 #分析國內哪個省份的消費者最有購買欲望 即收藏
147 df8=df[df[‘behavior‘]==3]
148 df8=df8.drop_duplicates(‘uid‘)
149 tmp8=df8.groupby(‘province‘).uid.count()
150 fig8=plt.figure(figsize=(8,4))
151 ax8=fig.add_subplot(111)
152 plt.title(u‘behavior by province‘)
153 plt.xlabel(‘province‘)
154 plt.ylabel(‘count‘)
155 tmp8.plot(kind=‘bar‘)

最後一個分析那個省份的消費者最有購買欲望的，原文用的是R語言的地圖，matplotlib畫地圖很麻煩。

我想到的辦法是用第三方模塊來替代。首先想到的是百度的echarts了，這可以說是百度的良心產品了。

使用這個可以用Django或者web.py，這裏我選擇最簡單的web.py。

代碼我上傳到了 https://github.com/touristlee/webpy.git

python+matplotlib+web.py

我們 xlabel asc bsp ech http gen class chart 最近看了廈門大學數據庫實驗室林子雨老師的《大數據課程實驗案例：網站用戶行為分析》，可視化這塊是用的R語言，我決定用Python來實現一下。參考文獻 http://dblab.xmu.ed

python基於web.py的簡易blog

初始化 init.sql:CREATE TABLE blog ( id INT AUTO_INCREMENT, title TEXT, content TEXT, posted_on DATETIME, primary key (id

Python使用web.py讀取Mysql的資料

讀取mysql 的資料有兩種方式 1.MySQLdb模組操作的MYSQL資料庫 importMySQLdb; import urllib2; import os; import re; fr

python安裝web.py遇到的問題python setup.py egg_info及解決方法

作業系統:window10python版本:3.651.嘗試安裝，報錯pip install web.pyModuleNotFoundError: No module named 'utils'Command "python setup.py egg_info" failed

詳細解讀Python的web.py框架下的application.py模組

文章出處：http://www.jb51.net/article/65307.htm 本文主要分析的是web.py庫的application.py這個模組中的程式碼。總的來說，這個模組主要實現了WSGI相容的介面，以便應用程式能夠被WSGI應用伺服器呼叫。WSG

python,mysqldb,web.py安裝和配置

Python: 開啟python官網， https://www.python.org/downloads/ 直接下載對應的安裝檔案即可，配置python：右鍵點選計算機，然後點選屬性，在左

Python簡單Web框架web.py實例hello world

brush main 安裝 self name globals bject pytho log 1、安裝web.py模塊easy_install web.py 2、實現代碼 import web urls = (‘/hello‘, ‘hello‘, )

python web.py

post tutorial body .com org tps pos ocs arch 淺談五大Python Web框架:https://www.cnblogs.com/suzhigang/p/6208244.html web.py 0.3 新手指南:http://web

簡單而直接的Python web 框架：web.py

web.py 是一個Python 的web 框架，它簡單而且功能強大。web.py 是公開的，無論用於什麼用途都是沒有限制的。而且相當的小巧，應當歸屬於輕量級的web 框架。但這並不影響web.py 的強大，而且使用起來很簡單、很直接。

python web py安裝與簡單使用

web.py是一個輕量級的python web框架，簡單而且功能強大。相對flask和Django，web.py更適合初學者來學習和了解web開發的基礎知識。安裝： pip install web.py==0.40-dev1測試安裝是否成功: 複製web.py官網右上角的程式

python web py入門（58）- jQuery

在前面已經學習過多個JS模組，這樣方便管理程式碼，維護程式碼，但時這樣分開時，必須要考慮載入不同檔案之間的順序，這是比較頭痛的問題，有沒有好的方法解決呢？這時，就要使用RequireJS庫了，它是一個JS檔案和模組載入器，它是一個在瀏覽器優化的模組載入器，主要改善了載入的速度

python web py入門（12）- 實現使用者登入論壇

前面已經介紹了怎麼註冊使用者，當用戶註冊成功之後，就需要使用帳號進行登入，這個登入過程是怎麼樣實現的呢？首先是要有一個登入的連線，通過首頁點選登入，就會進入登入的URL連線：http://127.0.0.1:8080/login，當你在網頁上點選之後，就會在WEBPY的應用處

python web.py中使用百度富文字編輯器 UEditor

原文連結 http://flask123.sinaapp.com/article/47/UEditor簡介UEditor是由百度「FEX前端研發團隊」開發的所見即所得富文字web編輯器，具有輕量，可定製，注重使用者體驗等特點，開源基於MIT協議，允許自由使用和修改程式碼。由於

python web py入門-4-請求處理（上）

這篇我們來介紹一下請求處理過程。其實，在前面python中requests做介面自動化的系列講過請求和響應。伺服器需要對客戶端傳送的請求，進行解析和處理。我們在前面文章介紹的URL對映，

Python初學，web.py的Hello World

剛接觸Python，稍稍看了下web.py，根據網上教程寫了Hello World。1、先下載web.py，然後解壓，放到自己建立的專案目錄。 2、用終端CD到web.py，執行：python setup.py install，在Linux 等系統下，需要root 的許可權

python web py入門（17）- 開啟chrome的開發工具視窗

在前面已經介紹了怎麼樣安裝chrome瀏覽器，安裝完成之後，你可以開啟它了。如下圖所示：然後在位址列裡輸入：about:blank, 就會開啟一個空白的視窗。接著來開啟它一個很重要的工具，就是開發工具視

Python環境下使用web.py開發

安裝web.py mac安裝直接在終端中輸入一下程式碼 sudo pip install web.py 安裝成功 Successfully installed web.py-0.38 如圖 web.py測試 import we

python web py入門（15）- javascript指令碼有什麼用？

JavaScript是世界上最流行的指令碼語言，因為你在電腦、手機、平板上瀏覽的所有的網頁，以及無數基於HTML5的手機App，互動邏輯都是由JavaScript驅動的。簡單地說，JavaScript是一種執行在瀏覽器中的解釋型的程式語言.JavaScript 是屬於網路的指

python web py入門（41）- 頁面事件的onload事件

在前面學習了函式，函式可以在很多地方複用，但是在頁面裡嵌入JS是由事件觸發執行的，因此基於瀏覽器的JS開發，基本上就是響應事件處理。HTML4 增加了使事件在瀏覽器中觸發動作的能力，比如當用戶點選元素時

python web py入門（31）- javascript的邏輯處理

前面已經學習過比較處理，現在要學習一種邏輯處理操作，這種操作其實在日常生活裡非常多，比如你過馬路時，就要看紅綠燈，當紅燈亮起，其實就表示布林狀態為true，熄滅就表示為false。又比如你家裡按下電燈的

python+matplotlib+web.py

相關推薦