1. 程式人生 > 程式設計 >Python實現的爬取豆瓣電影資訊功能案例

Python實現的爬取豆瓣電影資訊功能案例

本文例項講述了Python實現的爬取豆瓣電影資訊功能。分享給大家供大家參考,具體如下:

本案例的任務為,爬取豆瓣電影top250的電影資訊(包括序號、電影名稱、導演和主演、評分以及經典臺詞),並將資訊作為字典形式儲存進txt檔案。這裡只用到requests庫,沒有用到beautifulsoup庫

step1:首先獲取每一頁的原始碼,用requests.get函式獲取,為了防止請求錯誤,使用try...except..

def getpage(url):
  try:
    res=requests.get(url)
    if res.status_code==200:
      return res.text
    return None
  except RequestException:
    return None

step2:做每一頁的網址解析,開啟原網址https://movie.douban.com/top250?,檢視網頁原始碼,可以看到每一個電影的原始碼都是從<li>開始,在</li>處結束,寫好正則表示式以後爬到的列表的每一條item都有五個元素,因此將其寫成字典的形式,這裡用到yield函式(關於yield函式的用法,廖老師的有一篇文章比較好懂https://www.ibm.com/developerworks/cn/opensource/os-cn-python-yield/)

對單個網頁的進行解析的程式碼如下:

def parsepage(html):
  pat=re.compile('<li>.*?<em class="">(.*?)</em>.*?<img width="100" alt="(.*?)" src=.*?<p class="">'
          +'(.*?)</p>.*?property="v:average">(.*?)</span>.*?<span class="inq">(.*?)</span>.*?</li>',re.S)
  items=re.findall(pat,html)
  for item in items:
    yield{
      'index':item[0],'title':item[1],'stars':item[2].strip(),'score':item[3],'concept':item[4]
    }

下面的程式碼是將每一個item寫入檔案,這裡encoding='utf-8' 和ensure_ascii=False都是使寫入檔案時中文能保持不變,json.dumps可以將(字典)物件轉化成字串(但前面要先import json),with open的第二個引數為a,表示每次寫入時,是往後追加(續接),而不是後一次寫入將之前內容覆蓋,\n是指要每一次寫入一個item之後要換行。

def write_tofile(content):
  with open('doubanfilms.txt','a',encoding='utf-8' ) as f:
    f.write(json.dumps(content,ensure_ascii=False)+'\n')
    f.close()

最後,需要用迴圈語句將每一頁(共10頁)內容都進行以上操作。這裡,第二頁的網址就是在第一頁的url上加上一個start=25,第三頁是加上start=50,也就是每一頁的start=為25*i。最後一段程式碼如下:

def main():
  url="https://movie.douban.com/top250?"
  for i in range(0,9):
    url_i=url+'start='+str(25*i)
    html_i=getpage(url_i)
    for item in parsepage(html_i):
      print(item)
      write_tofile(item)
if __name__ == '__main__':
  main()

當然,這一段程式碼還有一種寫法:

def main(start):
  url="https://movie.douban.com/top250?start="+str(start)
  html=getpage(url)
  for item in parsepage(html):
    print(item)
    write_tofile(item)
if __name__ == '__main__':
  for i in range(10):
    main(i*10)

如果想讓你的程式跑的更快,可以用多執行緒爬蟲(當然這裡其實沒有必要):

#在最開始載入Pool包
from multiprocessing import Pool
#最後的執行段改為:
if __name__ == '__main__':
  for i in range(10):
    main(i*10)
  pool=Pool() #在迴圈外寫
  pool.map(main,[i*10 for i in range (10)])

更多關於Python相關內容可檢視本站專題:《Python Socket程式設計技巧總結》、《Python正則表示式用法總結》、《Python資料結構與演算法教程》、《Python函式使用技巧總結》、《Python字串操作技巧彙總》、《Python入門與進階經典教程》及《Python檔案與目錄操作技巧彙總》

希望本文所述對大家Python程式設計有所幫助。