python3爬蟲--爬取豆瓣Top250的圖書

阿新 • • 發佈：2018-11-02

from lxml import etree
import requests
import csv

fp = open('doubanBook.csv', 'wt', newline='', encoding='utf-8')
writer = csv.writer(fp)
writer.writerow(('name', 'url', 'author', 'publisher', 'date', 'price', 'rate', 'comment'))

urls = ['https://book.douban.com/top250?start={}'.format(str(i)) for 
 i in range(0,250,25)]
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3486.0 Safari/537.36'
}

for url in urls:
    html = requests.get(url, headers=headers)
    selector = etree.HTML(html.text)
    infos = selector.xpath('//tr[@class="item"]' 
)
    for info in infos:
        name = info.xpath('td/div/a/@title')[0]
        url = info.xpath('td/div/a/@href')[0]
        book_infos = info.xpath('td/p/text()')[0]
        author = book_infos.split('/')[0]
        publisher = book_infos.split('/')[-3]
        date = book_infos.split('/')[-2]
        price = book_infos. 
split('/')[-1]
        rate = info.xpath('td/div/span[2]/text()')[0]
        comments = info.xpath('td/p/span/text()')
        comment = comments[0] if len(comments) != 0 else "空"
        writer.writerow((name, url, author, publisher, date, price, rate, comment))
fp.close()

這裡爬取書名、書籍豆瓣地址、作者、出版社、出版時間、價格、評分、一句書評。爬取完的效果圖如下：
在這裡插入圖片描述

完整爬取完Top250如下圖：
在這裡插入圖片描述

python3爬蟲--爬取豆瓣Top250的圖書

from lxml import etree import requests import csv fp = open('doubanBook.csv', 'wt', newline='', encoding='utf-8') writer = csv.writer(fp) writer.

Python爬蟲入門 | 4 爬取豆瓣TOP250圖書資訊

我們將要爬取哪些資訊：書名、連結、評分、一句話評價…… 1. 爬取單個資訊我們先來嘗試爬取書名，利用之前的套路，還是先複製書名的xpath：得到第一本書《追風箏的人》的書名xpath如下： //*[@id=

python爬蟲--爬取豆瓣top250電影名

python爬蟲--爬取豆瓣top250電影名關於模擬瀏覽器登入的header，可以在相應網站按F12調取出編輯器，點選netwook，如下：以便於不會被網站反爬蟲拒絕。 1 import requests 2 from bs4 import BeautifulSoup

Python爬取豆瓣TOP250圖書排行榜

# -*- coding: utf-8 -*- import bs4 import requests def open_url(url): # url = 'https://movie.douban.com/top250' hd = {}

爬取豆瓣Top250圖書【Beautiful】

由於我有一個喜歡看書的室友，最近比較鬧書荒，我想著爬取一下豆瓣評分Top250的圖書，看看他有沒有想看的，我是本著學習的態度加雙贏的結果（並不是為了裝那啥。。。爬取目標 + 爬取豆瓣評分Top250的圖書 + 獲取每本圖書的詳細資訊

爬蟲-爬取豆瓣圖書TOP250

info spa data inf code pla select lac lec import requests from bs4 import BeautifulSoup def get_book(url): wb_data = requests.get(u

Python爬蟲入門 | 4 爬取豆瓣TOP250圖書信息

Python 編程語言 Python爬蟲先來看看頁面長啥樣的:https://book.douban.com/top250 我們將要爬取哪些信息：書名、鏈接、評分、一句話評價……1. 爬取單個信息我們先來嘗試爬取書名，利用之前的套路，還是先復制書名的xpath：得到第一本書《追風箏的人》的書名xpath如下：

我的第一個python爬蟲：爬取豆瓣top250前100部電影

爬取豆瓣top250前100部電影 1 # -*-coding=UTF-8 -*- 2 3 import requests 4 from bs4 import BeautifulSoup 5 6 headers = {'User-Agent':'Moz

用Python爬蟲爬取豆瓣電影、讀書Top250並排序

更新：已更新豆瓣電影Top250的指令碼及網站概述經常用豆瓣讀書的童鞋應該知道，豆瓣Top250用的是綜合排序，除使用者評分之外還考慮了很多比如是否暢銷、點選量等等，這也就導致了一些近年來評分不高的暢銷書在這個排行榜上高高在上遠比一些經典名著排名還高，於是在這裡打算重新給To

爬蟲之爬取豆瓣熱門圖書的名字

描述調用過濾 content tex pl2 main from code import requests #requests模塊用於HTTP請求 import codecs #codecs模塊用於文件操作 from bs4 import BeautifulS

python scrapy框架爬取豆瓣top250電影篇一明確目標&&爬蟲編寫

1.明確目標 1.1在url上找到要爬取的資訊 1.2.確定了資訊,編寫items檔案 class DoubanItem(scrapy.Item): &nb

Python3 Scrapy框架學習五：使用crawl模板爬取豆瓣Top250，並存入MySql、MongoDB

1.新建專案及使用crawl模板 2.頁面解析 rules = (Rule(LinkExtractor(allow=r'subject/\d+/',restrict_css = '.hd > a[class = ""]'), callback='parse_it

（7）Python爬蟲——爬取豆瓣電影Top250

利用python爬取豆瓣電影Top250的相關資訊，包括電影詳情連結,圖片連結,影片中文名,影片外國名,評分,評價數,概況,導演,主演,年份,地區,類別這12項內容，然後將爬取的資訊寫入Excel表中。基本上爬取結果還是挺好的。具體程式碼如下： #!/us

python爬蟲——爬取豆瓣電影top250資訊並載入到MongoDB資料庫中

最近在學習關於爬蟲方面的知識，因為剛開始接觸，還是萌新，所以有什麼錯誤的地方，歡迎大家指出 from multiprocessing import Pool from urllib.request import Request, urlopen import re, pymongo index

初學python：用簡單的爬蟲爬取豆瓣電影TOP250的排名

一開始接觸到python語言，對它沒什麼瞭解。唯一知道的就是它可以用來寫爬蟲，去爬取網路上的資源。爬蟲是一種按照一定的規則，自動地抓取網路上的資訊的程式或者指令碼。所以當我對python有一定的瞭解後，我就想個寫個爬蟲來試試手。於是就有了這篇文章，用簡單的爬蟲爬取豆瓣電影TO

php爬蟲爬取豆瓣電影top250內容

檢視豆瓣api文件我們直接選擇top250之後往下翻閱可以看到引數需求，有兩個引數，start和count，分別代表請求開始的起始地址，這裡是從0開始的，count代表請求的數目。<br/><br/> 返回資料

Python3爬蟲爬取淘寶商品數據

表格 name 錯誤處理 from [0 https iat turn 感覺這次的主要的目的是從淘寶的搜索頁面獲取商品的信息。其實分析頁面找到信息很容易，頁面信息的存放都是以靜態的方式直接嵌套的頁面上的，很容易找到。主要困難是將信息從HTML源碼中剝離出來，數據和網頁源碼

《團隊-爬取豆瓣Top250電影-團隊-階段互評》

溝通爬取 top 負責負責任完成好的電影責任學號：2015035107080得分：9.8原因：認真完成任務，與組員相互溝通交流，相互協作。學號：2015035107152得分：9.6原因：為人誠實謙虛，能吃苦耐勞，敏而好學，積極尋找答案。學號：201503

團隊-爬取豆瓣Top250電影-團隊-階段互評

尋找爬取編程階段豆瓣 top 積極領導耐心學號：2015035107001得分：8.5 原因：有耐心，較為認真學號：2015035107004得分：9.6 原因：結對編程夥伴，負責學號：2015035107080得分：10 原因：領導性較強，認真負責，樂

python3爬蟲爬取煎蛋網妹紙圖片

port 商業技術分享爬取其中 lar c函數 base 技術其實之前實現過這個功能，是使用selenium模擬瀏覽器頁面點擊來完成的，但是效率實際上相對來說較低。本次以解密參數來完成爬取的過程。首先打開煎蛋網http://jandan.net/ooxx，查看網頁

python3爬蟲--爬取豆瓣Top250的圖書

相關推薦