資料基本探索（python資料分析與挖掘實戰篇）

阿新 • • 發佈：2019-02-13

# -*- coding: utf-8 -*-
"""
Created on Mon Jul  2 09:33:58 2018

@author: 87671
"""

###############
#資料探索
###############

import pandas as pd
data=pd.read_excel('catering_sale.xls',index_col=u'日期')#指定日期為index 
data.describe()

########檢測異常值
import matplotlib.pyplot as plt
plt.rcParams['font.sans-serif']=['SimHei']
plt.rcParams['axes.unicode_minus']=False

plt.figure()
p=data.boxplot(return_type='dict')
# 'flies'即為異常值的標籤.[0]是用來標註第1列的異常值數值,同理[i]標註第i+1列的異常值.
x=p['fliers'][0].get_xdata()#資料只有一個列所以【0】
y=p['fliers'][0].get_ydata()
y.sort()
#用annotate添加註釋 
for i in range(len(x)):
    if i>0:
        plt.annotate(y[i],xy=(x[i],y[i]),xytext=(x[i]+0.05-0.8/(y[i]-y[i-1]),y[i]))
    else:
        plt.annotate(y[i],xy=(x[i],y[i]),xytext=(x[i]+0.08,y[i]))       
plt.show()

#########資料特徵分析 
##定量資料分析
##定性資料分析 

data=data[(data[u'銷量']>400) & (data[u'銷量']<5000)]#過濾異常資料 
statistics=data.describe()

statistics.loc['range']=statistics.loc['max']-statistics.loc['min']#極差
statistics.loc['var']=statistics.loc['std']/statistics.loc['mean']#變異係數
statistics.loc['dis']=statistics.loc['75%']-statistics.loc['25%']#四分位數間距 

print(statistics)


##########週期性分析 （累加圖）
from __future__ import print_function
data2=pd.read_excel('catering_dish_profit.xls',index=u'菜品名')
data2_copy=data2['盈利'].copy()
'''
AttributeError:'DataFrame' object has no attribute 'sort'
解決：將“sort”改為“sort_values”
'''
data2_copy.sort_values(ascending=False)

plt.figure()
data2_copy.plot(kind='bar')
plt.ylabel('盈利(元)')
#圖上的第二條線
p2=1.0*data2_copy.cumsum()/data.sum()#檢視一下p2[6]是85%
p2.plot(color='r',secondary_y=True,style='-o',linewidth=2)
#顯示的數格式 保留4位小數 
plt.annotate(format(p2[6],'.4%'), xy = (6, p2[6]), xytext=(6*0.9, p2[6]*0.9), arrowprops=dict(arrowstyle="->", connectionstyle="arc3,rad=.2")) #添加註釋，即85%處的標記。這裡包括了指定箭頭樣式。
plt.ylabel('盈利（比例）')
plt.show()


############相關性分析 
data3=pd.read_excel('catering_sale_all.xls',index=u'日期')
data3.corr()#相關係數矩陣 
data3.corr()[u'百合醬蒸鳳爪‘]#只顯示百合醬鳳爪的和其他才是的相關係數 
data3[u'百合醬蒸鳳爪'].corr(data3[u'翡翠蒸香茜餃']) #計算“百合醬蒸鳳爪”與“翡翠蒸香茜餃”的相關係數
'''
s1=df.loc[0]#提取第一行
s2=df.loc[1]#提取第二行 
s1.corr(s2,method='pearson'/'spearman')
'''

資料基本探索（python資料分析與挖掘實戰篇）

# -*- coding: utf-8 -*- """ Created on Mon Jul 2 09:33:58 2018 @author: 87671 """ ############### #資料探索 ############### import pandas

Python資料分析與挖掘第一篇—基本介紹及環境搭建

一，資料分析與挖掘簡介　　所謂資料分析，是對已有的資料進行分析，提取一些有價值的資訊，比如平均數，標準差等。而資料探勘，是對大量的資訊進行分析和挖掘，得到一些未知的，有價值的資訊。如今日頭條類的新聞推送就是通過對使用者的資訊進行分析和挖掘，從而達到精準推送使用者感興趣的新聞。資料分析和資料探勘往往是密不可

《Python資料分析與挖掘實戰》筆記（一）：資料探勘基礎

一、資料探勘的基本任務利用分類與預測、聚類分析、關聯規則、時序模式、偏差檢測、智慧推薦等方法，幫助企業提取資料中蘊含的商業價值，提升企業的競爭力。二、資料探勘建模過程定義挖掘目標：任務目標和完

Python資料分析與挖掘實戰（Pandas,Matplotlib常用方法）

作業系統：Windows Python：3.5 歡迎加入學習交流QQ群：657341423 上節講到資料分析和挖掘需要的庫，其中最主要的是Pandas,Matplotlib。 Pandas：主要是對資料分析，計算和統計，如求平均值，方差等。 Matplotl

Python資料分析與挖掘實戰學習筆記（一）

資料預處理1. 資料清洗（1）缺失值處理三種方法：刪除記錄、資料插補、不處理常見插補方法：均值/中位數/眾數插補、使用固定值/期望值、迴歸方法（根據已有資料和其他與其有關變數等建立擬合模型來預測）、插值法（利用已知點建立合適的插值函式，如拉格朗日函式）我們以餐廳銷量資

《Python資料分析與挖掘實戰》筆記（五）：資料建模

分類與預測主要分類與預測演算法迴歸分析確定預測值與其他變數關係。線性、非線性、Logistic、嶺迴歸、主成分迴歸等決策樹自頂向下分類人工神經網路用神經網路表示輸入與輸出之間的關係貝葉斯網路又稱信度網路，是不確定知識表達和推理領域最有效的理論模

《Python資料分析與挖掘實戰》第10章（上）——DNN

本文是基於《Python資料分析與挖掘實戰》的實戰部分的第10章的資料——《家用電器使用者行為分析與事件識別》做的分析。旨在補充原文中的細節程式碼，並給出文中涉及到的內容的完整程式碼；另外，原文中的資料處理部分排版先後順序個人感覺較為凌亂，在此給出梳理。在作者所給程式碼的基礎

菜鷄日記——《Python資料分析與挖掘實戰》實驗6-1 拉格朗日插值法

實驗6-1 用拉格朗日插值法題目描述：用拉格朗日插值法對missing_data.xls中表格的空值進行填補。 # p1, lab6 # Fill all of the null values with Lagrange's interpolation # Data file name i

Python資料分析與挖掘實戰 pdf下載

Python資料分析與挖掘實戰是10餘位資料探勘領域資深專家和科研人員，10餘年大資料探勘諮詢與實施經驗結晶。從資料探勘的應用出發，以電力、航空、醫療、網際網路、生產製造以及公共服務等行業真實案例為主線，深入淺出介紹Python資料探勘建模過程，實踐性極強。本書共15章，分兩個部分：基礎

Python資料分析與挖掘實戰—挖掘建模

常用的分類與預測演算法 1迴歸模型分類 1線性迴歸---自變數因變數線性關係，最小二乘法求解 2非線性迴歸--自變數因變數非線性關係，函式變換為線性關係，或非線性最小二乘方法求解 3logistic迴

Python資料分析與挖掘實戰程式碼糾錯程式碼3-1

我是通過這本書來開始學習資料探勘和分析，在目前學的內容中，發現了書上的程式碼有些地方是錯誤了，在此希望分享下我除錯好的程式碼，供大家參考，相互學習。 1、程式碼清單3-1 餐飲銷額資料異常值檢測程式碼書上的程式碼如下： #-*- coding: utf-

《Python資料分析與挖掘實戰》第7章——kmeans

本文是基於《Python資料分析與挖掘實戰》的實戰部分的第七章的資料——《航空公司客戶價值分析》做的分析。旨在補充原文中的細節程式碼，並給出文中涉及到的內容的完整程式碼。 1）在資料預處理部分增加了屬性規約、資料變換的程式碼2）在模型構建的部分增加了一個畫出雷達圖的函式程式碼

python資料分析與挖掘實戰第六章拓展思考

企業偷漏稅識別模型 1、資料探索偷漏稅企業分佈首先生成data import pandas as pd inputfile = r'E:\Download\百度雲\圖書配套資料、程式碼\chapter6\拓展思考\tax.xls' data =

《Python資料分析與挖掘實戰》第13章——迴歸+DNN

本文是基於《Python資料分析與挖掘實戰》的實戰部分的第13章的資料——《財政收入影響因素分析及預測模型》做的分析。旨在補充原文中的細節程式碼，並給出文中涉及到的內容的完整程式碼。在作者所給程式碼的基礎上增加的內容包括： 1）探索了灰色預測的原理 2）畫出預測結果圖3）由於

《Python資料分析與挖掘實戰》第15章——文字挖掘

本文是基於《Python資料分析與挖掘實戰》的實戰部分的第15章的資料——《電商產品評論資料情感分析》做的分析。旨在回顧對評論文字資料的處理和建模方法。1 挖掘背景與目標對京東平臺上的熱水器評論進行文字挖掘分析，挖掘建模如下：1）分析某一個品牌熱水器的使用者情感傾向2

『Python資料分析與挖掘實戰』第五章：挖掘建模

# coding:utf-8 """ logistic 迴歸，自動建模 """ import pandas as pd # 引數初始化 filename = r"C:\learning\DataMining\Book\Python_DataMining\Data\cha

給出《Python資料分析與挖掘實戰大資料技術叢書》Aprior演算法另一種寫法

背景關聯規則應用，一般是為了尋求：已知某些項在一定概率下推匯出另一項，這樣的組合。當然在資料量比較小的時候，這樣的問題可以窮盡的，但是在資料量比較大時，搜尋將成為瓶頸。 Aprior演算法提出頻繁項

python資料分析與挖掘實戰第九章拓展練習

這一章的拓展練習感覺是比較簡單的。基本上沒有太多讓人糾結的地方。沒有特徵提取和資料規約，讓事情簡單了不少。當然不包括寫出C4.5的決策樹，我也沒有那麼寫。讀取資料，劃分訓練集和測試集，不用多說。

python資料分析與挖掘實戰第七章拓展思考

流失客戶分類模型 1 資料預處理如果動手做過的人可能面臨的第一個問題就是，這資料讀進pandas怎麼弄編碼結果都是錯的。如果你存在這樣的問題，那麼我建議你使用NotePad++載入檔案以後，改成無BOM的UTF-8編碼，然後就可以正常讀取了。資料預處理部

資料基本探索（python資料分析與挖掘實戰篇）

相關推薦