用pyquery 初步改寫崔慶才的 抓取貓眼電影排行(正在更新)特意置頂,提醒自己更新
阿新 • • 發佈:2018-06-16
items parse rac info sco ber windows time ont
目前正在學Python爬蟲,正在讀崔慶才的《Python3網絡爬蟲開發實戰》,之前學習正則表達式,但是由於太難,最後放棄了(學渣的眼淚。。。。),在這本書上的抓取貓眼電影排行上,後來自學了pyquery,發現用pyquery可以解決這個問題,目前自己試著寫了代碼
這個是抓取一頁的情況的代碼(沒有圖的鏈接以及排名還有其他90頁的情況)
import requests from pyquery import PyQuery as pq def get_one_page(url): headers = { ‘User-Agent‘:‘Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.79 Safari/537.36‘ } html = requests.get(url=url,headers=headers) return html.text def parse_one_page(html): doc = pq(html) items = doc(‘dd .board-item-main .board-item-content .movie-item-info‘).items() for item in items: name = item.find(‘.name‘).text() star = item.find(‘.star‘).text() time = item.find(‘.releasetime‘).text() score = item.siblings(‘.movie-item-number .score .integer‘).text() + item.siblings(‘.movie-item-number .score .fraction‘).text() print(‘電影名:‘ + name + ‘\n‘ + star + ‘\n‘ + time + ‘\n‘ + ‘評分:‘+score +‘\n‘) url = ‘http://maoyan.com/board/4‘ html = get_one_page(url) parse_one_page(html)
用pyquery 初步改寫崔慶才的 抓取貓眼電影排行(正在更新)特意置頂,提醒自己更新