python資料分析與挖掘模組簡介
所謂資料分析,即對已知的資料進行分析,然後提取出一-些有價值的資訊,比如統計出平均數、標準差等資訊,資料分析的資料量有時可能不會太大,而資料探勘,是指對大量的資料進行分析與挖掘,得到一些未知的,有價值的資訊等,比如從網站的使用者或使用者行為資料中挖掘出使用者的潛在需求資訊,從而對網站進行改善等。資料分析與資料探勘密不可分,資料探勘是資料分析的提升。
資料分析與挖掘技術能做什麼事情?
資料探勘技術可以幫助我們更好的發現事物之間的規律。所以,我們可以利用資料探勘技術實現資料規律的探索,比如發現竊電使用者、發掘使用者潛在需求、實現資訊的個性化推送、發現疾病與症狀甚至疾病與藥物之間的規律..... .等。
資料探勘的過程主要有:
1、定義目標
2、獲取資料(常用的手段有通過爬蟲採集或者下載一些統計網站釋出的資料)
3、 資料探索
4、資料預處理(資料清洗(去掉髒資料]、資料整合 [集中]、資料變換[規範化]、資料規約[精簡] )
5、挖掘建模(分類、聚類、關聯、預測)
6、模型評價與釋出
相關模組簡介:
1、numpy可以高效處理資料、提供陣列支援、很多模組都依賴他,比如pandas、scipy、matplotlib都依賴他 ,所以這個模組是基礎。
2、pandas 我們課程後續用得最多的一個模組,主要用於進行資料探索和資料分析。
3、matplotlib 作圖模組,解決視覺化問題。
4、scipy 主要進行數值計算,同時支援矩陣運算,並提供了很多高等資料處理功能,比如積分、傅立葉變換、微分方程求解等。
5、statsmodels 這個模組主要用於統計分析
6、Gensim 這個模組主要用於文字挖掘
7、sklearn、 keras 前者機器學習,後者深度學習
模組安裝的順序與方式建議如下:
1、numpy. mkl (下載安裝)
2、pandas (網路安裝)
3、matplotlib (網路安裝)
4、scipy( 下載安裝)
5、statsmodels (網路安裝)
6、Gensim (網路安裝)
Numpy模組
import numpy
#建立陣列格式
#numpy.array([元素1,元素2,。。。,元素3])
x=numpy.array(['3',6,8,22])
#建立二維陣列格式
#numpy.array([[元素1,元素2,。,元素3],[元素1,元素2,。。。,元素3],)
y=numpy.array([['3',13,10],[9,6,5],[4,5,6]])
#排序sort()
x.sort()
y.sort()
#取最大值和最小值
y1=y.max()
y2=y.min()
#切片操作
#陣列[起始下標:最終下標+1]
x1=x[1:3]
x2=x[:2]
取陣列元素:
>>> x[2]
'8'
>>> y[1][2]
'5'
Pandas模組
import pandas as pda
'''
Series代表某一串資料#index索引
DataFrame資料框
''’
a=pda.Series([8,9,2,1])
b=pda.Series([8,9,2,1],index=['one','two','three','four'])#指定索引格式
c=pda.DataFrame([[5,6,2,3],[8,4,6,3],[6,4,31,2]])
#加columns新增列名
d=pda.DataFrame([[5,6,2,3],[8,4,6,3],[6,4,31,2]],columns=['one','two','three','four'])
#通過字典的格式建立資料框
e=pda.DataFrame({
'one':4,
'two':[6,2,3],
'three':list(str(982))})#前面的索引代表列名
d.head()#代表資料框的頭部資料,預設顯示前五行
#d.head(行數)
d.tail()#預設取尾部資料後五行
#d.tail(行數)
#展示資料的統計情況,按列進行統計
d.describe()結果如圖
count表示每一列多少個數;mean表示每一列的平均數;std每一列的標準差;min每一列的最小值;25%,50%,75%表示分位數;max表示最大值。
#轉置 d.T