1. 程式人生 > >用pyquery 初步改寫崔慶才的 抓取貓眼電影排行(正在更新)特意置頂,提醒自己更新

用pyquery 初步改寫崔慶才的 抓取貓眼電影排行(正在更新)特意置頂,提醒自己更新

items parse rac info sco ber windows time ont

目前正在學Python爬蟲,正在讀崔慶才的《Python3網絡爬蟲開發實戰》,之前學習正則表達式,但是由於太難,最後放棄了(學渣的眼淚。。。。),在這本書上的抓取貓眼電影排行上,後來自學了pyquery,發現用pyquery可以解決這個問題,目前自己試著寫了代碼

這個是抓取一頁的情況的代碼(沒有圖的鏈接以及排名還有其他90頁的情況)

import requests
from pyquery import PyQuery as pq

def get_one_page(url):
    headers = {
        User-Agent:Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.79 Safari/537.36
} html = requests.get(url=url,headers=headers) return html.text def parse_one_page(html): doc = pq(html) items = doc(dd .board-item-main .board-item-content .movie-item-info).items() for item in items: name = item.find(.name).text() star = item.find(.star
).text() time = item.find(.releasetime).text() score = item.siblings(.movie-item-number .score .integer).text() + item.siblings(.movie-item-number .score .fraction).text() print(電影名: + name + \n + star + \n + time + \n + 評分:+score +\n) url =
http://maoyan.com/board/4 html = get_one_page(url) parse_one_page(html)

用pyquery 初步改寫崔慶才的 抓取貓眼電影排行(正在更新)特意置頂,提醒自己更新