python pandas（一）

阿新 • • 發佈：2018-12-21

#coding=utf-8
import numpy as np
import pandas as pd

df1 = pd.DataFrame(pd.read_csv('./house_data/all/test.csv',header=1))   # 讀取.csv檔案
print df1.shape

df2 = pd.DataFrame({"id":[1002,1001,1003,1004,1005,1006],
 "date":pd.date_range('20130102', periods=6),
  "city":['Beijing ', 'SH', ' guangzhou ', 'Shenzhen', 'shanghai', 'BEIJING '],
 "age":[23,44,54,32,34,32],
 "category":['100-A','100-B','110-A','110-C','210-A','130-F'],
  "price":[1200,np.nan,2133,5433,np.nan,4432]},
  columns =['id','date','city','category','age','price'])

df3=pd.DataFrame({"id":[1001,1002,1003,1004,1005,1006,1007,1008],
"gender":['male','female','male','female','male','female','male','female'],
"pay":['Y','N','Y','Y','N','Y','N','Y'],
"m-point":[10,12,20,40,40,40,30,20]})
print df3.info

'''
print df2.shape  # 維度檢視
print df2.info   # 資料表基本資訊（維度、列名稱、資料格式、所佔空間等）
print df2.dtypes  # 檢視每一列的資料型別

print df2["city"].dtype  # object
print df2.isnull()
print df2['price'].unique()  # 即看某一列的值有哪些，避免重複
print  df2.values  # 檢視資料表的值
print '=============='
print df2.head(3) #預設前10行資料
print df2.tail(3)    #預設後10 行資料
'''

# 資料表清洗
df3 = df2.fillna(value=0)  # 用數字0填充空值
print df3.info

df2['price'] = df2['price'].fillna(df2['price'].mean())  # 使用列prince的均值對NA進行填充  ,注意等號左邊的
print df2.info
df2['city']=df2['city'].map(str.strip)  # 去除空格
print df2

df2['city']=df2['city'].str.lower()  # 大小寫轉換
print df2.info
print df2.dtypes  # 檢視每一列的資料型別
# df2['price'] = df2['price'].astype(int)  # 更改列的資料格式
# print df2.dtypes  # 檢視每一列的資料型別

df2=df2.rename(columns={'category': 'category-size'})  # 對列剛改名字，注意接收的是df2物件
print df2.info
# df2['city'] = df2['city'].drop_duplicates()   # 刪除後出現的重複值
# print df2.info

df2['city'] = df2['city'].drop_duplicates(keep='last')  # 刪除先出現的重複值：
print df2.info

df2['city'] = df2['city'].replace('sh', 'shanghai')  # 資料替換
print df2.info
print '======='

''''
df_inner=pd.merge(df2,df3,how='inner')  # 匹配合並，交集
print 'inner:'
print df_inner.info

df_outer=pd.merge(df2,df3,how='outer')  #並集
print 'outer:'
print df_outer.info

print '========='
df_left=pd.merge(df2,df3,how='left')
print 'left:'
print df_left

print '========='
df_rigth=pd.merge(df2,df3,how='right')
print 'right:'
print df_rigth
'''

df2 = df2.set_index('id')  # 設定id為索引
df2 = df2.sort_index()   # 按照索引值排序
print df2

df2 = df2.sort_values(by=['age'])
print df2

df2['group'] = np.where(df2['price'] > 3000,'high','low')  # 增加了group列
print df2

# df2['price'] = np.where(df2['price'] > 3000,'high','low')  # 增加了group列
# print df2
print df2.dtypes
df2.loc[(df2['city'] == 'beijing') & (df2['price'] >= 4000), 'sign']=1
print df2

print '====='
print df2.loc[df2['city']== 'beijing']  # loc函式按標籤值進行提取
print '===='
print df2.iloc[0:2]  # 按索引提取區域行數值

df2 = df2.reset_index()  # 重設索引
df2=df2.set_index('date')  # 設定日期為索引
print '****'
print df2[:'2013-01-03']
print df2.iloc[:3,:2]  # 冒號前後的數字不再是索引的標籤名稱，而是資料所在的位置，從0開始，前三行，前兩列。

print df2.iloc[[0,2,5],[2]]  # 提取第0、2、5行，4、5列    !!!!  若把日期作為索引，則一定會顯示日期
print df2

print df2.ix[:'2013-01-03',:4] # 2013-01-03號之前，前四列資料  使用ix按索引標籤和位置混合提取資料
print df2['city'].isin(['beijing'])  # 整列資料輸出為False或True  ,判斷city列的值是否為北京
print df2['city'].isin(['beijing','shanghai'])  # 輸出True或者False  ，判斷city列裡是否包含beijing和shanghai
print df2.loc[df2['city'].isin(['beijing','shanghai'])]  # 判斷city列裡是否包含beijing和shanghai,並帥選出來
print df2
print pd.DataFrame(df2['city'].str[:3])  # 提取city的前三個字元，並生成資料表，注意只有city列

# 使用與、或、非三個條件配合大於、小於、等於對資料進行篩選，並進行計數和求和。

# 使用 與 進行篩選
print df2.loc[(df2['age'] > 25) & (df2['city'] == 'beijing'), ['id','city','age','category-size','price']]

#使用 或 進行篩選
print '或：',df2.loc[(df2['age'] > 25) | (df2['city'] == 'beijing'), ['id','city','age','category-size','price']]

#使用 非 進行篩選,並按id進行排序，city.count()並進行計數，返回4
print df2.loc[(df2['city'] != 'beijing'), ['id','city','age','category','gender']].sort_values(['id']).city.count()

# 使用query函式進行篩選
print df2.query('city == ["beijing","shanghai"]')

# 對篩選後的結果按prince進行求和
print df2.query('city == ["beijing","shanghai"]').price.sum()  # 11031.0
print '*****'
print df2
print df2.groupby('city').count()  # 按城市對所有的列進行計數彙總
print '*****'
print df2.groupby('city').id.count()  # 按城市對id列進行計數彙總
print df2.groupby(['city','age']).id.count()  # 對兩個欄位進行彙總計數,必須 city age 相同，才能累加
print df2.groupby('city')['price'].agg([len,np.sum, np.mean]) # 對city欄位進行彙總，並分別計算prince的合計和均值
'''
           len     sum    mean
city
beijing    1.0  4432.0  4432.0
guangzhou  1.0  2133.0  2133.0
shanghai   2.0  6599.0  3299.5
shenzhen   1.0  5433.0  5433.0

'''
df = df2.sample(n=3)  # 選取3個樣本
print df
print '===='
weights = [0.8, 0, 0, 0, 0.1, 0.1]
print df2.sample(n=2, weights=weights)

print df2.describe().round(2).T  # 描述性統計
'''
      count    mean      std     min      25%     50%      75%     max
id       6.0  1003.5     1.87  1001.0  1002.25  1003.5  1004.75  1006.0
age      6.0    36.5    10.88    23.0    32.00    33.0    41.50    54.0
price    6.0  3299.5  1523.35  1200.0  2424.62  3299.5  4148.88  5433.0
sign     1.0     1.0      NaN     1.0     1.00     1.0     1.00     1.0
'''
print df2['price'].std() # 計算某個欄位的標準差 1523.35163373
print df2['price'].cov(df2['age'])  # 不支援 字串
print df2.cov() # 資料表中所有欄位間的協方差
'''
        id     age      price  sign
id        3.5    -4.9     1526.1   NaN
age      -4.9   118.3    -1353.5   NaN
price  1526.1 -1353.5  2320600.2   NaN
sign      NaN     NaN        NaN   NaN
'''
# 兩個欄位的相關性分析
print df2['price'].corr(df2['age']) # 相關係數在-1到1之間，接近1為正相關，接近-1為負相關，0為不相關  -0.0816894035549328
# 所有欄位的相關性分析
print df2.corr()

df2.to_csv('./excel_to_python.csv') # 寫入CSV
df2.to_excel('./excel_to_python.xlsx', sheet_name='bluewhale_cc')  # 寫入Excel

python pandas（一）

#coding=utf-8 import numpy as np import pandas as pd df1 = pd.DataFrame(pd.read_csv('./house_data/all/test.csv',header=1)) # 讀取.csv檔案 p

小白學 Python 資料分析（2）：Pandas （一）概述

人生苦短，我用 Python 前文傳送門：小白學 Python 資料分析（1）：資料分析基礎概覽首先還是幾個官方連結放一下： Pandas 官網：https://pandas.pydata.org/ Pandas 中文網：https://www.pypandas.cn/ Pandas Githu

python入門（一）

html pre uic 程序添加 -a 控制臺命令成了第一步，我們先來安裝Python，博主選擇的版本是最新的3.4.2版本。windows下面的Python安裝一般是通過軟件安裝包安裝而不是命令行，所以我們首先要在Python的官方主頁上面下載最新的Python

Python學習（一）

ubun 安裝目錄 tle setup extract reat 常用插件增加網址 Python學習（一）一：開發工具安裝　　1,pycharm下載：Linux版本　　2，破解：在help-register下-service輸入：　　　　 http://elpo

Python爬蟲（一）：基本概念

popu 通用字符 spider dai 自身部分螞蟻 people 網絡爬蟲的定義網絡爬蟲（Web Spider。又被稱為網頁蜘蛛。網絡機器人，又稱為網頁追逐者），是一種依照一定的規則，自己主動的抓取萬維網信息的程序或者腳本。另外一些不常使用

Python基礎（一）

類型 spa 例子 hat except 存在內容限制字符數 Python基礎1 1.Hello World程序 2.變量 3.用戶輸入 4.模塊初識 5.數據類型初識 6.數據運算 7.表達式if ...else語句 8.表達式fo

python爬蟲（一）

返回沒有發現學習內容部分訪問 family 司機獲得 1.首先你需要一些Python的基礎知識和相關的開發環境，沒有相關基礎的同學推薦可以先去網易雲的Mooc觀看學習相關教程 2.什麽是網絡爬蟲？　　我們上網會在瀏覽器中輸入連接，然後服務器會返回給我們相關的信

Python練習（一）

pythonPython練習（一）：給一個不超過5位的正整數，判斷其有幾位，依次打印出個位、十位、百位、千位、萬位的數字：num = int(input(‘please enter a number: ‘)) lst = [] for i in str(num): lst.append(i)

Charles的基本操作方法與python基礎（一）

inpu 格式 format log text src 基礎 pos -s 開始與結束按鈕：斷點按鈕：清空按鈕：若抓不到包可嘗試更改瀏覽器重新請求 python基礎（一）計算機語言分為編譯型語言和解釋型語言，編譯型語言需要提前編譯，然後直接拿來運行，但解釋型語

Python練習題（一）

python練習題1. 企業發放的獎金根據利潤提成。利潤(I)低於或等於10萬元時，獎金可提10%；利潤高　　　於10萬元，低於20萬元時，低於10萬元的部分按10%提成，高於10萬元的部分，可可提　　　成7.5%；20萬到40萬之間時，高於20萬元的部分，可提成5%；40萬到60萬之間時高於　　　40

Python 編碼（一）— Python3

mar 令行 sock 早期 ref 亂碼 transform enc 方法 Unicode 什麽是 Unicode 標準 unicode 標準 Unicode 為每個字符提供了一個獨特的數字，並且跨平臺、設備、應用或者編程語言都是通用的。 -- 來自 http://un

第一章 Python基礎（一）

科學計算廣泛 java 賦值運算退出 glob 單詞技術電視 1.1 編程語言編程語言總體分以為機器語言、匯編語言、高級語言，如下機器語言由於計算機內部只能接受二進制代碼，因此，用二進制代碼0和1描述的指令稱為機器指令，全部機器指令的集合構成計算機的機器語言，

python入門（一）pycharm的安裝

python python入門 python的來歷：Python 是一種面向對象的解釋型計算機程序設計語言，由荷蘭人Guido van Rossum於1989年發明，第一個公開發行版發行於1991年。Python是純粹的自由軟件，源代碼和解釋器CPython遵循 GPL協議。Python語法簡潔清

python筆記（一）

python 學習筆記字符串處理單雙引號一樣.title()：將每個單詞的首字母變為大寫，其余小寫（不管原來是什麽樣）.upper()：將字符串中所有字母變為大寫.lower()：將字符串中所有字母變為小寫.strip()：刪除行首和行末的空白（空格和制表符）（直接輸入變量返回值才能看到，否則看不到

python 漫談（一）相見恨晚的庫

在那分享圖片文本處理執行時間結果性能既然 panda Coding （一）pypy和Cpython解釋器在性能上的比較 Cpython解釋器是從官網下載python自帶的解釋器，就是我們平常使用的解釋器。pypy解釋器的出現是為了在一定程度上提升python代碼

Python入門（一）異常處理

必須 IV PE runt .... fin 是否位置邏輯異常處理捕捉異常可以使用try/except語句。 try/except語句用來檢測try語句塊中的錯誤，從而讓except語句捕獲異常信息並處理。以下是語法： 1 try: 2 <語句>

python 爬蟲（一） requests+BeautifulSoup 爬取簡單網頁代碼示例

utf-8 bs4 rom 文章都是 Coding man header 文本以前搞偷偷摸摸的事，不對，是搞爬蟲都是用urllib，不過真的是很麻煩，下面就使用requests + BeautifulSoup 爬爬簡單的網頁。詳細介紹都在代碼中註釋了，大家可以參閱。

Python基礎（一）簡介&入門&條件&循環

優點 words ctr 查看 pytho type 運行速度賦值人工智一、機器語言（解釋型語言和編譯型語言）介紹　　1、編譯型語言：編譯型語言即把寫好的編程編譯成機器語言再執行，在運行之前一次性編譯，比如C、C++。　　　　　　　　　　優點：運行速度快，缺點

python作業（一）

所有輸入密碼用戶名循環 class 錯誤 print inpu 三次 1、使用while循環輸入 1 2 3 4 5 6 8 9 10 a = 1 while a < 11: if a != 7: print(a) a += 1 2、求

在ArcGIS中建立Python工具（一）

ArcGIS Desktop 自帶有大量的工具，可以執行各種各樣的地理處理任務。通過 python 我們可以靈活地呼叫這些工具，把工具組織成自己的工作流，甚至建立一些新的工具。今天就說說在 ArcGIS 中建立 Python工具這個話題。在 ArcGIS 中我們可以通過兩種方式來建立py

python pandas（一）

相關推薦