靜覓爬蟲學習筆記8-爬取貓眼電影

阿新 • • 發佈：2017-12-04

nal rip score item 之前 req exceptio pool html

　　不知道是不是我學習太晚的原因，貓眼電影這網站我用requests進行爬取源碼直接返回給我一個您的訪問被禁止。作為萌新的我登時就傻了，還好認真聽了之前的課，直接換selenium抓了源碼，雖然效率慘不忍睹，但多少也能運行了，下面上代碼

import json
import requests
import re
from requests.exceptions import RequestException
from multiprocessing import Pool
from selenium import webdriver


def get_one_page(url):                  # 獲取網頁源碼
    browser  
= webdriver.Chrome()
    try:
        browser.get(url)
        return browser.page_source
    finally:
        browser.close()


def  parse_one_page(html):                 # 利用正則表達式提取內容
    pattern = re.compile(‘<dd>.*?board-index.*?>(\d+)</i>.*?data-src="(.*?)".*?name"><a‘
                        +‘ 
.*?>(.*?)</a>.*?star">(.*?)</p>.*?releasetime">(.*?)</p>‘
                        +‘.*?integer">(.*?)</i>.*?fraction">(.*?)</i>.*?</dd>‘,re.S)
    items = re.findall(pattern,html)
    for item in items:
        yield{
            ‘index‘:item[0],
             
‘image‘:item[1],
            ‘title‘:item[2],
            ‘actor‘:item[3].strip()[3:],
            ‘time‘:item[4].strip()[5:],
            ‘score‘:item[5]+item[6]
        }


def write_to_file(content):                 # 寫入文件
    with open(‘result.txt‘,‘a‘,encoding=‘utf-8‘) as f:
        f.write(json.dumps(content,ensure_ascii=False) + ‘\n‘)
        f.close()


def main(offset):
    url="http://maoyan.com/board/4?offset=" + str(offset)
    html = get_one_page(url)
    for item in parse_one_page(html):
        print(item)
        write_to_file(item)


if __name__ == ‘__main__‘:
    for i in range(10):
        main(i*10)
    #多線程寫法，實測不是很好用，因為同時打開多個網頁，抓取結果容易亂序
    """
    pool = Pool()
    pool.map(main,[i*10 for i in range(10)])
    """

多線程那塊這寫法不太好用....

而且有的時候爬取的數據不足100個，會漏掉1到2個，而且每次漏掉的還是不同的數據，萌新求教這是為何

靜覓爬蟲學習筆記8-爬取貓眼電影

nal rip score item 之前 req exceptio pool html 　　不知道是不是我學習太晚的原因，貓眼電影這網站我用requests進行爬取源碼直接返回給我一個您的訪問被禁止。作為萌新的我登時就傻了，還好認真聽了之前的課，直接換selenium抓了

靜覓爬蟲學習筆記8-爬取貓眼電影

靜覓爬蟲學習筆記8-爬取貓眼電影

Python：爬蟲例項2：爬取貓眼電影——破解字型反爬

一起學爬蟲——使用xpath庫爬取貓眼電影國內票房榜

【Python爬蟲學習筆記8-2】MongoDB數據庫操作詳解

一個月入門Python爬蟲學習，輕鬆爬取大規模資料

python爬蟲學習之定向爬取股票資訊

python爬蟲實戰筆記---selenium爬取QQ空間說說並存至本地

python網路爬蟲學習(二)一個爬取百度貼吧的爬蟲程式

【python爬蟲自學筆記】-----爬取網易雲歌單中歌曲歌詞

【爬蟲學習1】正則表示式加Requests爬取貓眼電影排行

python3 爬蟲學習-根據關鍵詞爬取百度百科內容

爬蟲+詞雲：爬取豆瓣電影top100的導演制作圖雲

爬蟲（七）：爬取貓眼電影top100

python爬蟲知識點總結（九）Requests+正則表達式爬取貓眼電影

自學python爬蟲（四）Requests+正則表示式爬取貓眼電影

python學習(23)requests庫爬取貓眼電影

Python3爬蟲入門實戰系列（二）爬取貓眼電影排行榜

Python爬蟲實戰之Requests+正則表示式爬取貓眼電影Top100

Python爬蟲-利用正則表示式爬取貓眼電影

爬蟲練習 | 爬取貓眼電影Top100

靜覓爬蟲學習筆記8-爬取貓眼電影

相關推薦