Python資料分析----Python3操作Excel-以豆瓣圖書Top250為例

阿新 • • 發佈：2018-11-07

本文利用Python3爬蟲抓取豆瓣圖書Top250，並利用xlwt模組將其儲存至excel檔案，圖片下載到相應目錄。旨在進行更多的爬蟲實踐練習以及模組學習。

工具

1.Python 3.5

2.BeautifulSoup、xlwt模組

開始動手

首先檢視目標網頁的url： https://book.douban.com/top250?start=0，然後我嘗試了在程式碼裡直接通過字串連線僅改變”start=“後面的數字的方法來遍歷所有的250/25 = 10頁內容，但是後來發現不行，那樣的話出來的永遠是第一頁，於是通過瀏覽器的F12開發者工具檢查，發現start是要post上去的，如下圖：

（圖1）

所以建立一個postData的dict：

1	`postData` `=` `{"start": i}` `#i為0,25,...225`

每次將其post上去即可解決返回都是第一頁的問題。

分析網頁可知，一本書的羅列資訊以及要爬取的點如下圖：

（圖2）

從上到下需要爬取的資訊有：

1.圖書連結地址

2.封面圖片連結我到時候會將此連結開啟，下載圖片到本地（download_img函式）

3.書名要注意的是這裡書名取title的內容而不去a標籤中的string資訊，因為string資訊可能包含諸如空格、換行符之類的字元，給處理造成麻煩，直接取title格式正確且無需額外處理。

4.別名這裡主要是副標題或者是外文名，有的書沒有這項，那麼我們就寫入一個“無”，千萬不可以寫入一個空串，否則的話會出現故障，我下面會提到。

5.出版資訊如作者、譯者、出版社、出版年份、價格，這也是重要資訊之一，否則有多本書名字一致可能會無法分辨

6.評分

7.評價人數

除此之外，我還爬取一個“標籤”資訊，它在圖書連結開啟之後的網頁中，找到它的位置如下：

（圖3）

爬到標籤以後將它們用逗號連線起來作為標籤值。

好了，既然明確了要爬的指標，以及瞭解了網頁結構以及指標所在的html中的位置，那麼就可以寫出如下程式碼：

geturl = url + "/start=" + str(i) #要獲取的頁面地址

print("Now to get " + geturl)

postData = {"start":i} #post資料

res = s.post(url,data = postData,headers = header) #post

soup = BeautifulSoup(res.content,"html.parser") #BeautifulSoup解析

table = soup.findAll('table',{"width":"100%"}) #找到所有圖書資訊的table

sz = len(table) #sz = 25,每頁列出25篇文章

for j in range(1,sz+1): #j = 1~25

sp = BeautifulSoup(str(table[j-1]),"html.parser") #解析每本圖書的資訊

#print(sp.div)

imageurl = sp.img['src'] #找圖片連結

bookurl = sp.a['href'] #找圖書連結

bookName = sp.div.a['title']

nickname = sp.div.span #找別名

if(nickname): #如果有別名則儲存別名否則存’無‘

nickname = nickname.string.strip()

else:

nickname = "None"

#print(type(imageurl),imageurl)

#print(type(bookurl),bookurl)

#print(type(bookName),bookName)

#print(type(nickname),nickname)

notion = str(sp.find('p',{"class":"pl"}).string) #抓取出版資訊,注意裡面的.string還不是真的str型別

#print(type(notion),notion)

rating = str(sp.find('span',{"class":"rating_nums"}).string) #抓取平分資料

nums = sp.find('span',{"class":"pl"}).string #抓取評分人數

nums = nums.replace('(','').replace(')','').replace('\n','').strip()

nums = re.findall('(\d+)人評價',nums)[0]

#print(type(rating),rating)

#print(type(nums),nums)

download_img(imageurl,bookName) #下載圖片

book = requests.get(bookurl) #開啟該圖書的網頁

sp3 = BeautifulSoup(book.content,"html.parser") #解析

taglist = sp3.find_all('a',{"class":" tag"}) #找標籤資訊

tag = ""

lis = []

for tagurl in taglist:

sp4 = BeautifulSoup(str(tagurl),"html.parser") #解析每個標籤

lis.append(str(sp4.a.string))

tag = ','.join(lis) #加逗號

if tag == "": #如果標籤為空，置"無"

tag = "None"

通過xlwt模組存入xls檔案及其問題

爬取下來了以後當然要考慮儲存，這時我想試試把它存到Excel檔案(.xls)中，於是搜得python操作excel可以使用xlwt,xlrd模組，雖然他們暫時只支援到excel2003,但是足夠了。xlwt為Python生成.xls檔案的模組，而xlrd為讀取的。由於我想的是直接生成xls檔案，不需用到xlrd，所以先安裝xlwt。

直接進入Python目錄使用如下命令即可安裝xlwt：

1	`pip3 install xlwt`

安裝完後寫出操作程式碼，這裡同時也寫入txt檔案，方便比較：

#建立Excel

workbook = xlwt.Workbook(encoding='utf-8')

sheet = workbook.add_sheet('book_top250',cell_overwrite_ok=True)

item = ['書名','別稱','評分','評價人數','封面','圖書連結','出版資訊','標籤']

for i in range(1,9):

sheet.write(0,i,item[i-1])

...

for j in range(1,sz+1):

...

writelist = [i+j,bookName,nickname,float(rating),int(nums),"I:\\douban\\image\\"+bookName+".jpg",bookurl,notion,tag]

for k in range(0,9):

sheet.write(i+j,k,writelist[k])

txtfile.write(str(writelist[k]))

txtfile.write('\t')

txtfile.write(u'\r\n')

workbook.save("I:\\douban\\booktop250.xls")<br>...

滿以為這樣就可以了，但是還是出現了一些錯誤。

比如曾經出現了寫著寫著就寫不下去了的情況（以下並非以上程式碼產生的結果）：

（圖4）

這時我把不是str的都改成str了，不該str的儘量用數字(int,float)，然後又遇到了下面的情況：

（圖5）

寫到第64項又寫不下去了，但是那些int,float都寫完了，‘無’也是斷斷續續顯示幾個，我想，既然找不到問題，那麼慢慢套吧。首先極大可能是中文編碼的問題，因為我把一些可以不為str型別的都賦成非str型別以後都正確地顯示了，而且上圖中的顯示在圖片路徑名那裡斷了，所以我讓那一列都不顯示，居然，成功了！

（圖6）

如圖，除了不顯示的那一列，其它完全正常，可以斷定就是下面這裡出現的錯誤：

1	`writelist=[i+j,bookName,nickname,float(rating),int(nums),"I:\\douban\\image\\"+bookName+".jpg",bookurl,notion,tag]`

我的圖片路徑那裡是直接字串拼接而成的，所以可能會有編碼的錯誤。那麼稍微改一下試試：

1 2	`imgpath` `=` `str("I:\\douban\\image\\"+bookName+".jpg");` `writelist=[i+j,bookName,nickname,float(rating),int(nums),imgpath,bookurl,notion,tag]`

好吧，還是不行，還是出現圖5的問題，但是列印在Python IDLE裡面又都是正確的。

既然如此，把圖片連結全部改成一樣的英文試一下：

1 2	`imgpath` `=` `str("I:\\douban\\image\\"+"a"+".jpg")` `writelist=[i+j,bookName,nickname,float(rating),int(nums),imgpath,bookurl,notion,tag]`

又是正確的：（'無'已改為'None'）

（圖7）

所以說，還是圖片路徑的問題，那我們索性將圖片路徑那列換成圖片連結，採取消極應對方法，反正這項是圖片連結還是圖片路徑無關緊要，反正圖片路徑裡面有圖片就可以了。此外我還加了一個計時的程式碼，計算總爬取時間，因為我覺得這樣幹爬太慢了，沒有個將近10分鐘完不成，考慮利用多執行緒去爬，這裡先記錄一下時間以觀後效。然後發現還是不行！現在成了只要imageurl固定（中文也行），就能夠順利輸出到xls中，否則就不行。很詭異。於是我又嘗試了縮短imageurl，實驗得知，當取imageurl[:-6]時是可以的，但imageurl[:-5]就不行了。後面又幹脆不寫入imageurl這一列，可以，不寫入別名或者不寫入圖書連結都是正常的，但是不寫入標號就不行。至今仍不得解。初步猜測莫非是寫入的字元數受限制了？還得靠更多的實驗才能確定。而且也說不定就是Windows下的編碼問題，這又得靠在Linux下進行實驗判斷。所以要做的事情還很多，這裡先把正確的絕大部分工作做了再說。

於是乾脆不要圖書地址一列，最後得出如下最終程式碼：

View Code

執行（7分多鐘）：

（圖8）

還是斷了，那就真不知道怎麼辦才好了。再改變方法，先寫到TXT文字檔案再匯入到xls中，就先不管本文標題了。

執行：

2016-03-27 21:47:17.914149

Now to get http://book.douban.com/top250?/start=0

Now to get http://book.douban.com/top250?/start=25

Now to get http://book.douban.com/top250?/start=50

Now to get http://book.douban.com/top250?/start=75

Now to get http://book.douban.com/top250?/start=100

Now to get http://book.douban.com/top250?/start=125

Now to get http://book.douban.com/top250?/start=150

Now to get http://book.douban.com/top250?/start=175

Now to get http://book.douban.com/top250?/start=200

Now to get http://book.douban.com/top250?/start=225

2016-03-27 21:56:16.046792

程式耗時： 0:08:58.132643

在.txt中是正確的：

（圖9）

然後在xls檔案中選擇資料->匯入資料即可得到最終結果：

（圖10）

封面圖片：

（圖11）

問題先解決到這，後面的問題有待深入研究。

後期可改進

1.採用多程序/多執行緒加快爬取速度

2.可考慮採用xlutis模組分多步寫入到excel中

3.可考慮改換excel處理模組

3.考慮在Linux環境下進行試驗

Python資料分析----Python3操作Excel-以豆瓣圖書Top250為例

工具

開始動手

通過xlwt模組存入xls檔案及其問題

後期可改進

Python資料分析----Python3操作Excel-以豆瓣圖書Top250為例

Python openpyxl、pandas操作Excel方法簡介與具體實例

python第三方包的安裝方法——以爬蟲工具beautifulsoup4為例

python資料分析處理庫-Pandas之Series結構及Series常用操作方法

Python資料分析學習筆記（6）資料規約實戰--以主成分分析PCA為例

零基礎Python資料分析實戰：豆瓣人的電影口味重嗎？

建立Python資料分析的Docker映象+Docker自定義映象commit,Dockerfile方式解析+pull,push,rmi操作

萌新向Python資料分析及資料探勘第一章 Python基礎第三節列表簡介第四節操作列表

Python資料分析庫pandas基本操作

Python資料分析 | (9)NumPy陣列高階操作---變型、重塑、扁平、合併拆分以及重複

python進行資料分析---python3卡方

利用python進行資料分析——p26,"一定要以pylab模式”開啟如何解決

小白學 Python 資料分析（5）：Pandas （四）基礎操作（1）檢視資料

小白學 Python 資料分析（6）：Pandas （五）基礎操作（2）資料選擇

小白學 Python 資料分析（17）：Matplotlib（二）基礎操作

第一次寫，python爬蟲圖片，操作excel。

python3操作Excel openpyxl模塊的使用

python3操作Excel (一)

「機器學習」Python資料分析之Numpy進階

「機器學習」Python資料分析之Numpy

Python資料分析----Python3操作Excel-以豆瓣圖書Top250為例

工具

開始動手

通過xlwt模組存入xls檔案及其問題

後期可改進

相關推薦