【python學習筆記】39：認識SQLAlchemy,簡單操作Pandas中的DataFrame

阿新 • • 發佈：2018-11-19

學習《Python3爬蟲、資料清洗與視覺化實戰》時自己的一些實踐。

認識SQLAlchemy

SQLAlchemy是Python的ORM工具，就像Java有Hibernate一樣，實現關係型資料庫中的記錄與Python自定義Class的物件的轉化，實現操作之間的對映。

書上底層用了pymysql，但是實踐中會出現問題，網上查了一下改用mysql-connector-python就可以了。

from sqlalchemy import Column, String, create_engine
from sqlalchemy.orm import sessionmaker, 
 scoped_session
from sqlalchemy.ext.declarative import declarative_base

# 對映物件的基類
Base = declarative_base()
# 連線資料庫.指定編碼為utf-8
# 使用mysqlconnector(安裝mysql-connector-python)而不是pymsql,以解決下面的錯誤
# 錯誤1366:"Incorrect string value",下面是輸出的異常資訊
# latin-1' codec can't encode characters in position 58-62: ordinal not in range(256) 

engine = create_engine('mysql+mysqlconnector://root:[email protected]:3306/k8', encoding='utf-8')
# 建立綁定於該連線的資料庫會話.域session可以將session進行共享
DBSession = scoped_session(sessionmaker(bind=engine))


# 要對映到的類,它要繼承前面的基類
class Product(Base):
    # 對映到DB中的表名.私有屬性(雙'_'開頭)
    __tablename__ = 'product'
    # 表的結構.使用Column物件,其中記錄了該屬性對應於資料庫中的資料型別以及其它資訊 

    id = Column(String(20), primary_key=True)  # 標識為主鍵
    name = Column(String(20))
    type = Column(String(20))


# 新增使用者
def add_user(user):
    session = DBSession()
    session.add(user)
    try:
        session.commit()
    except Exception as e:
        session.rollback()
        # 輸出異常資訊
        print("add_user(): ======={}=======".format(e))
    finally:
        session.close()


# 其它的一些測試
def other_test():
    session = DBSession()
    # 查詢並更新使用者
    session.query(Product).filter(Product.id == '12345678').update({Product.name: "北京兩日遊"})
    # 這樣輸出的是這些操作對應的SQL語句,並不是查詢結果
    # print(session.query(Product).filter(Product.id == '12345678'))
    # 查詢並檢視查詢結果
    goal = session.query(Product).filter(Product.id == '12345678').one()
    print('name:' + goal.name + ',type' + goal.type)
    # 查詢並刪除使用者
    session.query(Product).filter(Product.id == '12345678').delete()
    try:
        session.commit()
    except Exception as e:
        session.rollback()
        print("other_test(): ======={}=======".format(e))
    finally:
        session.close()


if __name__ == '__main__':
    # 建立一個自定義的Product物件(因為繼承了基類,這裡不需要實現Product類的該構造器即可使用)
    new_user = Product(id='12345678', name='上海一日遊', type='景+酒')
    # 新增使用者的測試
    add_user(new_user)
    # 修改,查詢和刪除使用者的演示
    other_test()

執行結果：

name:北京兩日遊,type景+酒

簡單操作Pandas中的DataFrame

Numpy那章講得比較碎，內容也比較少，沒有什麼好記錄的。Pandas資料處理這章的資料檔案要到書網站上去下載。

import pandas as pd

# (1)從csv檔案中讀取資料生成DataFrame物件.按','分割,編碼為utf-8,0號行作為列名
df = pd.read_csv("E:/Data/practice/taobao_data.csv", delimiter=',', encoding='utf-8', header=0)
# print(type(df))  # <class 'pandas.core.frame.DataFrame'>

# (2)將(剛剛讀出的)df物件中的資料寫到另一個csv檔案中.columns指定要寫的是哪些列,禁止寫入索引,儲存表頭資訊
df.to_csv("E:/Data/practice/test_in.csv", columns=['寶貝', '價格'], index=False, header=True)

# (3)取前3行(得到的還是DataFrame物件)
rows = df[0:3]
# print(rows)

在這裡插入圖片描述

# (4)取指定的某些列
cols = df[['寶貝', '成交量', '位置']]
# print(cols.head())  # 至多前5行

在這裡插入圖片描述

# (5)取前4行中的某些列.第一個維度指定行,在第二個維度上選取指定的列
print(df.ix[0:3, ['成交量', '價格']])  # 注意這裡是0:3,另外ix方法已經被棄用
# 或(使用loc按label索引)
print(df.loc[0:3, ['成交量', '價格']])  # 這裡0:3可以替換成df.index[0:4]
# 或(使用iloc按index索引)
print(df.iloc[0:4, df.columns.get_indexer(['成交量', '價格'])])  # 這裡是0:4

在這裡插入圖片描述

# (6)從已有的列中計算新的列,並直接將其寫入到df物件中
df['銷售額'] = df['價格'] * df['成交量']
# print(df.head())

在這裡插入圖片描述

# (7)根據條件過濾行
result = df[(df['價格'] < 100) & (df['成交量'] > 10000)]
# print(result.head())

在這裡插入圖片描述

# (8)按照某個欄位排序
df1 = df.set_index("價格").sort_index()
# print(df1.head())

在這裡插入圖片描述

# (9)按照多個欄位排序
# 預設level是0,這裡即先"位置"再"價格"
df2 = df.set_index(['位置', '價格']).sort_index()
# print(df2)

在這裡插入圖片描述

# level設定為1時,這裡即先"價格"再"位置"
df2 = df2.sort_index(level=1)
# print(df2)

在這裡插入圖片描述

# (10)資料整理操作
# 先刪除label為'寶貝'和'賣家'的列,然後按位置分組,計算組內的均值,再按成交量進行排序(降序)
df_mean = df.drop(['寶貝', '賣家'], axis=1).groupby("位置").mean().sort_values("成交量", ascending=False)
# print(df_mean)

在這裡插入圖片描述

# 先刪除label為'寶貝'和'賣家'的列,然後按位置分組,計算組內的加和,再按成交量進行排序(降序)
df_sum = df.drop(['寶貝', '賣家'], axis=1).groupby("位置").sum().sort_values("成交量", ascending=False)
# print(df_sum)

在這裡插入圖片描述

# (11)查看錶的資料資訊和描述性統計資訊
print(df.info())
print(df.describe())

在這裡插入圖片描述

【python學習筆記】39：認識SQLAlchemy,簡單操作Pandas中的DataFrame

學習《Python3爬蟲、資料清洗與視覺化實戰》時自己的一些實踐。認識SQLAlchemy SQLAlchemy是Python的ORM工具，就像Java有Hibernate一樣，實現關係型資料庫中的記錄與Python自定義Class的物件的轉化，實現操作之間的對映。

【python學習筆記】37：認識Scrapy爬蟲,爬取滬深A股資訊

學習《Python3爬蟲、資料清洗與視覺化實戰》時自己的一些實踐。認識Scrapy爬蟲安裝書上說在pip安裝會有問題，直接在Anaconda裡安裝。建立Scrapy專案 PyCharm裡沒有直接的建立入口，在命令列建立（從Anaconda安裝後似乎自動就

【python學習筆記】41：認識Pandas中的資料變形

學習《Python3爬蟲、資料清洗與視覺化實戰》時自己的一些實踐。 Pandas資料變形關於stack()和unstack()見這裡和這裡。 import pandas as pd import numpy as np # 讀取杭州天氣檔案 df = pd.read

【python學習筆記】45：認識Matplotlib和pyecharts資料視覺化

學習《Python3爬蟲、資料清洗與視覺化實戰》時自己的一些實踐。 Matplotlib資料視覺化資料準備 import pandas as pd import matplotlib.pyplot as plt df = pd.read_csv("E:/Data/p

【python學習筆記】36：抓取去哪兒網的旅遊產品資料

學習《Python3爬蟲、資料清洗與視覺化實戰》時自己的一些實踐。書上這章開篇就說了儘量找JSON格式的資料，比較方便解析（在python裡直接轉換成字典），去哪兒網PC端返回的不是JSON資料，這裡抓取的是它的移動端的資料。如果是就散落在網頁上，我覺得就像上篇學習的那

【python學習筆記】35：爬蟲基礎和相關產品API(和風天氣)使用例項

學習《Python3爬蟲、資料清洗與視覺化實戰》時自己的一些實踐。在網站URL後面跟robots.txt一般就可以看到網站允許和禁止爬取的資源。 GET請求獲取響應內容最基本的爬蟲。 import requests ''' 中國旅遊網 /www.cntour.

【python學習筆記】40：Pandas中DataFrame的分組/分割/合併

學習《Python3爬蟲、資料清洗與視覺化實戰》時自己的一些實踐。 DataFrame分組操作注意分組後得到的就是Series物件了，而不再是DataFrame物件。 import pandas as pd # 還是讀取這份檔案 df = pd.read_csv("

【python學習筆記】38：使用Selenium抓取去哪兒網動態頁面

學習《Python3爬蟲、資料清洗與視覺化實戰》時自己的一些實踐。在去哪兒網PC端自由行頁面，使用者需要輸入出發地和目的地，點選開始定製，然後就可以看到一系列相關的旅遊產品。在這個旅遊產品頁換頁不會改變URL，而是重新載入，這時頁碼沒有體現在URL中，這種動態頁面用傳統的爬蟲

【python學習筆記】44：Series.apply()列資料批量處理,Series.str.extract()正則匹配

學習《Python3爬蟲、資料清洗與視覺化實戰》時自己的一些實踐。 Series.apply()列資料批量處理先將該列取出，形成Series物件，再呼叫apply()方法傳入用於處理的函式，這個過程就像map()一樣。 import pandas as pd # 各

【python學習筆記】43：Pandas時序資料處理

學習《Python3爬蟲、資料清洗與視覺化實戰》時自己的一些實踐。 Python中時間的一些常用操作 import time # 從格林威治時間到現在,單位秒 print('系統時間戳:', time.time()) print('本地時間按格式轉成str:', tim

【python學習筆記】42：Pandas資料缺失值/異常值/重複值處理

學習《Python3爬蟲、資料清洗與視覺化實戰》時自己的一些實踐。缺失值處理 Pandas資料物件中的缺失值表示為NaN。 import pandas as pd # 讀取杭州天氣檔案 df = pd.read_csv("E:/Data/practice/hz_we

【python學習筆記】46：隨機漫步,埃拉托色尼篩法,蒙特卡洛演算法,多項式迴歸

學習《Python與機器學習實戰》和《scikit-learn機器學習》時的一些實踐。隨機漫步 import matplotlib.pyplot as plt import numpy as np ''' 一維隨機漫步 ''' # 博弈組數 n_person = 20

【python學習筆記】33：生成器、迭代器、高階函式

生成器生成器(generator)相比列表推導式，只佔用很小的空間，因為它是一邊迴圈一邊推算，通過next()呼叫下一元素，並在結束時丟擲StopIteration異常，在語法上只要把[]換成()即可

【Java學習筆記】65：認識Filter(過濾器),FilterChain(過濾鏈)及其實現

Filter和Servlet、Listener一同作為Java web開發的三大元件。runoob中將Filter歸為Servlet，實際上Filter元件和Servlet元件是兩回事，但Filter介面等確實是在javax.servlet.*中，大概可以認為它

【TensorFlow學習筆記】4：認識Variable及其重用(共享),在scope上的初始化

學習《深度學習之TensorFlow》時的一些實踐。認識TF中的Variable TF通過name來標識變數(Variable)，這和呼叫者定義的程式裡的"變數名"無關。當不指定name時，由TF自己指定，當建立的變數的name已經存在時，TF會為其改名。變數的建立

【TensorFlow學習筆記】3：認識TensorBoard視覺化計算圖和計算結點

學習《深度學習之TensorFlow》時的一些實踐。 TensorBoard是一個日誌展示系統，在Session中使用tf.summary中的API將日誌儲存在日誌檔案中，然後通過TensorBoard服務在瀏覽器中就可以讀取這些日誌，檢視圖形化後的資訊。對線性迴歸做視覺

【python學習筆記】12：用matplotlib繪製3D函式影象

①用pyplot的figure()函式可以建立一個figure物件 ②以它為引數建立Axes3D物件，使之具有3D座標軸 ③pyplot的show()方法可以顯示所有figure物件 *顯示兩個3D座標軸 import matplotlib.pyplot as plt #

【MyBatis學習筆記】5：認識使用typeHandlers配置型別處理器

簡述註冊了的型別處理器會用於處理下面兩種情形：為PreparedStatement設定一個引數，將引數從Java型別轉為JDBC型別。從ResultSet中取出一個值，將結果從JDBC型別轉為Java型別。型別處理器可分為以下兩類： MyB

【python學習筆記】13：用梯度下降法求解最優值問題

梯度是函式在某點沿每個座標的偏導數構成的向量，它反映了函式沿著哪個方向增加得最快。因此要求解一個二元函式的極小值，只要沿著梯度的反方向走，直到函式值的變化滿足精度即可。這裡打表儲存了途徑的每個點，最後在圖上繪製出來以反映路徑。 *梯度下降的具體實現 impor

【python學習筆記】16：numpy陣列四則運算

*改變陣列元素值 >>> x=np.arange(8) >>> x array([0, 1, 2, 3, 4, 5, 6, 7]) >>> np

【python學習筆記】39：認識SQLAlchemy,簡單操作Pandas中的DataFrame

認識SQLAlchemy

簡單操作Pandas中的DataFrame

相關推薦