Python實現的爬取豆瓣電影資訊功能案例

阿新 • • 發佈：2020-01-09

本文例項講述了Python實現的爬取豆瓣電影資訊功能。分享給大家供大家參考，具體如下：

本案例的任務為，爬取豆瓣電影top250的電影資訊（包括序號、電影名稱、導演和主演、評分以及經典臺詞），並將資訊作為字典形式儲存進txt檔案。這裡只用到requests庫，沒有用到beautifulsoup庫

step1：首先獲取每一頁的原始碼，用requests.get函式獲取，為了防止請求錯誤，使用try...except..

def getpage(url):
  try:
    res=requests.get(url)
    if res.status_code==200:
      return res.text
    return None
  except RequestException:
    return None

step2：做每一頁的網址解析，開啟原網址https://movie.douban.com/top250?，檢視網頁原始碼，可以看到每一個電影的原始碼都是從<li>開始，在</li>處結束，寫好正則表示式以後爬到的列表的每一條item都有五個元素，因此將其寫成字典的形式，這裡用到yield函式（關於yield函式的用法，廖老師的有一篇文章比較好懂https://www.ibm.com/developerworks/cn/opensource/os-cn-python-yield/）

對單個網頁的進行解析的程式碼如下：

def parsepage(html):
  pat=re.compile('<li>.*?<em class="">(.*?)</em>.*?<img width="100" alt="(.*?)" src=.*?<p class="">'
          +'(.*?)</p>.*?property="v:average">(.*?)</span>.*?<span class="inq">(.*?)</span>.*?</li>',re.S)
  items=re.findall(pat,html)
  for item in items:
    yield{
      'index':item[0],'title':item[1],'stars':item[2].strip(),'score':item[3],'concept':item[4]
    }

下面的程式碼是將每一個item寫入檔案，這裡encoding='utf-8' 和ensure_ascii=False都是使寫入檔案時中文能保持不變，json.dumps可以將（字典）物件轉化成字串（但前面要先import json），with open的第二個引數為a，表示每次寫入時，是往後追加（續接），而不是後一次寫入將之前內容覆蓋，\n是指要每一次寫入一個item之後要換行。

def write_tofile(content):
  with open('doubanfilms.txt','a',encoding='utf-8' ) as f:
    f.write(json.dumps(content,ensure_ascii=False)+'\n')
    f.close()

最後，需要用迴圈語句將每一頁（共10頁）內容都進行以上操作。這裡，第二頁的網址就是在第一頁的url上加上一個start=25,第三頁是加上start=50，也就是每一頁的start=為25*i。最後一段程式碼如下：

def main():
  url="https://movie.douban.com/top250?"
  for i in range(0,9):
    url_i=url+'start='+str(25*i)
    html_i=getpage(url_i)
    for item in parsepage(html_i):
      print(item)
      write_tofile(item)
if __name__ == '__main__':
  main()

當然，這一段程式碼還有一種寫法：

def main(start):
  url="https://movie.douban.com/top250?start="+str(start)
  html=getpage(url)
  for item in parsepage(html):
    print(item)
    write_tofile(item)
if __name__ == '__main__':
  for i in range(10):
    main(i*10)

如果想讓你的程式跑的更快，可以用多執行緒爬蟲（當然這裡其實沒有必要）：

#在最開始載入Pool包
from multiprocessing import Pool
#最後的執行段改為：
if __name__ == '__main__':
  for i in range(10):
    main(i*10)
  pool=Pool() #在迴圈外寫
  pool.map(main,[i*10 for i in range (10)])

更多關於Python相關內容可檢視本站專題：《Python Socket程式設計技巧總結》、《Python正則表示式用法總結》、《Python資料結構與演算法教程》、《Python函式使用技巧總結》、《Python字串操作技巧彙總》、《Python入門與進階經典教程》及《Python檔案與目錄操作技巧彙總》

希望本文所述對大家Python程式設計有所幫助。

Python實現的爬取豆瓣電影資訊功能案例

Python實現的爬取豆瓣電影資訊功能案例

Python爬蟲實現的根據分類爬取豆瓣電影資訊功能示例

凌海爬取豆瓣電影資訊

初學python爬蟲，爬取“豆瓣電影 Top 250”相關資訊，並下載電影封面

Python使用mongodb儲存爬取豆瓣電影的資料過程解析

Python爬取豆瓣視訊資訊程式碼例項

Python利用Scrapy框架爬取豆瓣電影示例

Python爬取豆瓣電影、演員評分，平做出視覺化圖（律師函警告）

Python實戰之如何爬取豆瓣電影？本文教你

使用Python爬取豆瓣電影詳細資料

python爬取貓眼電影資訊，取前100名看看哪些電影名列前茅

python繞過圖片滑動驗證碼實現爬取PTA所有題目功能附原始碼

python爬蟲實現爬取網頁主頁資訊（html程式碼）

零基礎快速入門（二）爬取豆瓣電影——python爬蟲例項

python爬取豆瓣top250資訊並存入資料庫中 | sqlite3

Java爬取豆瓣電影資料的方法詳解

Python實現爬取並分析電商評論

Python實現爬取網頁中動態載入的資料

Python爬蟲——爬取豆瓣top250完整程式碼

記一次python 爬蟲爬取深圳租房資訊的過程及遇到的問題

Python實現的爬取豆瓣電影資訊功能案例

相關推薦