爬取《小王子》豆瓣短評前5頁的短評資料
阿新 • • 發佈:2019-01-01
思考一下,以下程式碼還有什麼更加簡潔的寫法?
import requests
from lxml import etree
import pandas as pd
urls = ['https://book.douban.com/subject/1084336/comments/hot?p={}'.format(str(i)) for i in range(1, 6)]
# 通過觀察的url翻頁規律,使用for迴圈得到5個連結,儲存到urls列表中
comment = [] # 初始化用於儲存短評的列表
for url in urls: # 使用for迴圈分別獲取每個頁面的資料
r = requests.get(url).text # 請求獲取文字資料
s = etree.HTML(r) # 用於解析HTML物件
file = s.xpath('//div[@class="comment"]/p/text()')
comment = comment + file
df = pd.DataFrame(comment) # 把comment列表轉換為pandas DataFrame
df.to_excel('短評資料.xlsx') # 使用pandas把資料儲存到excel表格