用python字典(dict)獲取更多的資料

阿新 • • 發佈：2019-01-15

大家好，這是我的第二篇博文。這次，我想在第一篇的基礎上，依舊使用BeautifulSoup和xlwt，但是這次我會使用python的字典，以此來獲取更多的爬取內容。

工具

內容

這次我爬取的頁面是2345電影，由於在該頁面上存在一個年代選項，具體看下這個截圖:

所以我之前寫了一個只是爬取2017年的電影project（以下我暫且身為1.0版本）,大家可以看下我的GitHub爬取豆瓣電影排行榜的程式碼，他們的框架結構一樣，我也把它儲存成excel的格式，後來我想對這個程式碼進行改進，畢竟這裡面有那麼多個年份的選項，所以就有了一個2.0版本

在1.0版本里

如圖
這裡寫圖片描述
大家可以看到

self.urlBase = 'http://dianying.2345.com/list/----2017--.html'                             #是一個字串
self.pages = self.getPages()       #是一個數字
self.urls = []                     #是一個list
self.items = []                    #同樣也是一個list

這是單純爬取一個頁面的構造器的設定

在2.0版本里面

由於需要爬取2011~2017這7年的資料，所以每個年份就是構成了一個urlbase,每個urlbase對應著一個pages，每個urlbase對應著urls和items(這裡的urls和items都是list)。所以在python中擁有1對1的語法很容易就聯想到dict(字典)
所以我是這樣設定的

self.urlbases = []
self.urlbasepages = {}
self.urlbaseurls = {}
self.urlbaseitems = {}

當然在這兩個版本里面，對於item的設定是一樣的，都是

這裡寫圖片描述

所以在這個大方向確定之後，只需要將1.0版本的基礎上增加一個

def getUrlbase(self)用來獲取urlbases(它是一個list)

下面是1.0版本和2.0版本的在函式構造上的一些區別

1. `getUrls():`

1.0版本前面是這樣的：

for page in xrange(1,pages+1):
    url = 'http://dianying.2345.com/list/----2017---' 
+str(page)+'.html'
    self.urls.append(url)
    self.log.info(u'新增URL:%s到URLS成功'% url)
return self.urls

2.0版本：

for urlbase,pages in self.urlbasepages.items():
    self.urlbaseurls[urlbase] = []
    for page in xrange(1,int(pages)+1):
    url = urlbase.split('-')[0]+'----'+urlbase.split('-')[4]+'---'+str(page)+'.html'
    self.urlbaseurls[urlbase].append(url)
    self.log.info(u'新增URL：%s到URL：%s成功'%(url,urlbase))
return self.urlbaseurls

相比於1.0版本就多了一輪迭代迴圈和將字典urlbasepages的每一個key對應的value初始化為一個list

2.`spider()`

1.0版本前面是這樣的：

for url in urls:
     htmlContent = self.getResponseContent(url)

2.0版本：

for urlbase,urls in self.urlbaseurls.items():
    self.urlbaseitems[urlbase]=[]
    for url in urls:
        htmlContent = self.getResponseContent(url)

還是多了一行迴圈和一個初始化

3.`pipline()`

1.0版本前面是這樣的：

def piplines(self,items):
    filename = u'2017熱門電影.txt'.encode('GBK')
    with open(filename,'w') as fp:
        fp.write('電影名稱     電影評分     電影主演  \r')
        for item in items:

2.0版本：

fileName = '電影.txt'.encode('GBK')
    with open(fileName,'w') as fp:
        fp.write('電影名稱     電影評分     電影主演  \n')
        for  urlbase,items in self.urlbaseitems.items():
            i= 1
            for item in items:

還是一樣多了一行迴圈和初始化

4.最後要說的是saveExcel這個自定義模組

1.0版本：

def run(self,items):
    fileName = u'電影.xls'.encode('GBK')
    book = xlwt.Workbook(encoding='utf8')
    sheet = book.add_sheet('2017',cell_overwrite_ok=True)

這生成的只是一個帶有一個sheet的excel檔案

2.0版本：

def run(self,urlbaseitems):
    filename = u'電影.xls'.encode('GBK')
    book = xlwt.Workbook(encoding='utf8')
    for urlbase,items in urlbaseitems.items():
        sheetname = urlbase.split('-')[4]
        sheet = book.add_sheet(sheetname,cell_overwrite_ok=True)

在每次迴圈中用是split()將urlbase分割開，目的是為了得到其中的年份數字，作為sheetname，這樣就可以得到多個表了。

當然這樣執行完後得到的結果是這樣的
這裡寫圖片描述
可以看到評分是沒有按照順序的(當然我也不知道這評分是否可靠)，原因該網站也沒有按電影評分對電影進行排序

所以為了按照評分進行排序
我在spider() 後面加了幾行程式碼：

for urlbase in self.urlbaseitems.keys():
        self.urlbaseitems[urlbase].sort(key=lambda item:item.point,reverse= True)
return self.urlbaseitems

這裡用到了lambda語法,其實他就是個迷你的函式，大家如果想要深入瞭解dict的各種型別的排序，可以參考這篇部落格
這樣執行的結果是這樣的
這裡寫圖片描述

具體的兩個版本的原始碼我會上傳到我的第二篇GitHub部落格上，大家可以參考下

如果有講的不清楚的或者錯誤的，歡迎各位及時指出來，謝謝

用python字典(dict)獲取更多的資料

工具

內容

在1.0版本里

在2.0版本里面

下面是1.0版本和2.0版本的在函式構造上的一些區別

1. `getUrls():`

2.`spider()`

3.`pipline()`

4.最後要說的是saveExcel這個自定義模組

用python字典(dict)獲取更多的資料

Python 字典 dict{}

Python 字典的一鍵多值,即一個鍵對應多個值

python 字典dict和列表list的讀取速度問題, range合並

'dict_values' object does not support indexing, Python字典dict中由value查key

Python字典dict

python 字典dict 操作方法

頁面滾動scroll到最底部 - 載入更多資料

【python學習筆記】python字典(dict)

小程式點選跳轉外部連結，計算問題，後臺解密獲取更多使用者資訊

python 字典(dict)增刪改查及方法

python - 字典dict

如何獲取更多關於序列化異常的堆疊資訊

程式設計師怎樣獲取更多的勞動收入

《笨方法學Python 3 》24.更多的練習

歡迎關注公眾號“程式設計師那些破事兒”，獲取更多視訊教程

12行程式碼教會你用python讀excel檔案，提取資料，生成條形碼

Python 字典dict相關知識

關於抖音如何熱門，怎麼上推薦獲取更多的流量，獲取更多的抖音粉絲

用python向txt檔案中寫資料時的追加和覆蓋問題

用python字典(dict)獲取更多的資料

工具

內容

在1.0版本里

在2.0版本里面

下面是1.0版本和2.0版本的在函式構造上的一些區別

1. getUrls():

2.spider()

3.pipline()

4.最後要說的是saveExcel這個自定義模組

相關推薦

1. `getUrls():`

2.`spider()`

3.`pipline()`