基於Python，爬取豆瓣讀書原始碼

阿新 • • 發佈：2019-01-27

記得上次分享了一個抓取豆瓣妹子美女圖片的指令碼，今天給大家分享一個爬取豆瓣讀書的原始碼，也算是做個記錄吧，目前已經在學習程式設計的路上，以後要是想寫什麼爬蟲也可以參考參考自己收藏的一些程式碼，嗯，雖然我還是個程式碼小白，不過相信有一天我也能很輕鬆的寫出這樣的程式碼，加油！我不是作者，我只是勤勞的搬運工！

貼出部分程式碼，原始碼到文章底部下載：

#!/usr/bin/env python
# encoding: utf-8
 
# 把str編碼由ascii改為utf8（或gb18030）
import sys
reload(sys)
sys.setdefaultencoding('utf8')
 
import time
import requests
from bs4 import BeautifulSoup
 
file_name = 'book_list.txt'
file_content = '' # 最終要寫到檔案裡的內容
file_content += '生成時間：' + time.asctime()
 
def book_spider(book_tag):
 global file_content
 
url = "http://www.douban.com/tag/%s/book" % book_tag
source_code = requests.get(url)
 # just get the code, no headers or anything
plain_text = source_code.text
 # BeautifulSoup objects can be sorted through easy
soup = BeautifulSoup(plain_text)
 
title_divide = '\n' + '--' * 30 + '\n' + '--' * 30 + '\n'
file_content += title_divide + '\t' * 4 + \
book_tag + '：' + title_divide
count = 1
 # 得到書籍列表的soup物件
list_soup = soup.find('div', {'class': 'mod book-list'})
 for book_info in list_soup.findAll('dd'):
title = book_info.find('a', {
 'class':'title'}).string.strip()
 
desc = book_info.find('div', {'class':'desc'}).string.strip()
desc_list = desc.split('/')
author_info = '作者/譯者： ' + '/'.join(desc_list[0:-3])
pub_info = '出版資訊： ' + '/'.join(desc_list[-3:])
rating = book_info.find('span', {
 'class':'rating_nums'}).string.strip()
file_content += "*%d\t《%s》\t評分：%s\n\t%s\n\t%s\n\n" % (
count, title, rating, author_info, pub_info)
count += 1
 
 
def do_spider(book_lists):
 for book_tag in book_lists:
book_spider(book_tag)
 
book_lists = ['心理學','人物傳記','中國歷史','旅行','生活','科普']
do_spider(book_lists)
 
# 將最終結果寫入檔案
f = open(file_name, 'w')
f.write(file_content)
f.close()

原始碼檔案說明：

doubanBook：爬取豆瓣讀書。只爬取了每個標籤類別的首頁的圖書資訊，若稍加修改，可以爬取任意頁數的資訊。

bookCrawler2：爬取每個熱門標籤下的書籍基本資訊，儲存到MySQL中。因為有些資料的格式不符合要求，實際爬取數量為60000+。稍作修改，可以拓展功能，或者做些其他有趣的事情。

bookCrawler3：上一個爬蟲的全面升級。只爬取“程式設計”標籤下的書籍，但這次爬取了書籍詳情頁面和書籍圖片，並且使用了多執行緒，速度提高很多。

bookSearch：另外，在嘗試用wxPython做一個圖形化的書籍檢索頁面，更好地利用爬取成果。目前只做了最簡單的實現。

getWebpage：儲存指定URL的頁面到本地。

qiushibaike：爬取糗事百科的內容，輸出到命令列。

proxyInfo：爬取某個代理頁面的資訊，輸出到控制檯。

基於Python，爬取豆瓣讀書原始碼

記得上次分享了一個抓取豆瓣妹子美女圖片的指令碼，今天給大家分享一個爬取豆瓣讀書的原始碼，也算是做個記錄吧，目前已經在學習程式設計的路上，以後要是想寫什麼爬蟲也可以參考參考自己收藏的一些程式碼，嗯，雖然我還是個程式碼小白，不過相信有一天我也能很輕鬆的寫出這樣的程式碼，加油！

用Python爬蟲爬取豆瓣電影、讀書Top250並排序

更新：已更新豆瓣電影Top250的指令碼及網站概述經常用豆瓣讀書的童鞋應該知道，豆瓣Top250用的是綜合排序，除使用者評分之外還考慮了很多比如是否暢銷、點選量等等，這也就導致了一些近年來評分不高的暢銷書在這個排行榜上高高在上遠比一些經典名著排名還高，於是在這裡打算重新給To

Python爬蟲爬取網上圖片原始碼，可用來製作深度學習資料集

這次利用python設計一個爬取百度圖片上的圖片的原始碼，其中利用的是python的urllib，如果沒有裝的，可以使用Anconda在環境裡進行安裝或者 pip install urllib 這兩種方式都可以安裝，長話短說，上圖吧，點選執行後，輸入你要下載的圖片型別：比如，熊貓？美女？

python爬蟲，爬取豆瓣電影《芳華》電影短評，分詞生成雲圖。

專案github地址：https://github.com/kocor01/spider_cloub/ Python版本為3.6 最近突然想玩玩雲圖，動手寫了個簡單的爬蟲，搭建了簡單的爬蟲架構爬蟲爬取最近比較火的電影《芳華》分詞後生成雲圖使用了 jieba分詞，雲圖用word

python爬蟲：爬取豆瓣讀書某個tag下的書籍並存入excel

#-*- coding: UTF-8 -*- import sys import time import urllib import urllib2 import requests #import numpy as np from bs4 import BeautifulS

python爬蟲練習之爬取豆瓣讀書所有標籤下的書籍資訊

第一步，爬取所有圖書標籤及分類到達圖書標籤頁，分類瀏覽，第一步需要爬取所有分類及其分類下的所有標籤並用dict儲存需要解析的內容 1.bs4解析 import requests from bs4 import Beau

scrapy框架爬取豆瓣讀書（1）

tin rap 豆瓣 pipe 網頁 xpath from lin tor 1.scrapy框架 Scrapy，Python開發的一個快速、高層次的屏幕抓取和web抓取框架，用於抓取web站點並從頁面中提取結構化的數據。Scrapy用途廣泛，可以用於數據挖掘、監測和自動化

python日常—爬取豆瓣250條電影記錄

ring 分層 com line gets ret 同仁 http 一個 # 感興趣的同仁可以相互交流哦import requests import lxml.html,csv doubanUrl = ‘https://movie.douban.com/top2

requests+正則表示式爬取豆瓣讀書top250

簡單的python練手專案，通過rquests庫請求得到豆瓣top250網頁原始碼，並通過正則表示式匹配得到對應資訊-書名，作者資訊，評分以及簡介。網站的URL為’https://book.douban.com/top250?start=0’,但我們拉到底部發現250本讀書的資訊被分成了1

python爬蟲--爬取豆瓣top250電影名

python爬蟲--爬取豆瓣top250電影名關於模擬瀏覽器登入的header，可以在相應網站按F12調取出編輯器，點選netwook，如下：以便於不會被網站反爬蟲拒絕。 1 import requests 2 from bs4 import BeautifulSoup

python學習爬取豆瓣電影名稱及評分

import requests from bs4 import BeautifulSoup import bs4 import re def getHTMLText(url): try: r = requests.get(url)

（7）Python爬蟲——爬取豆瓣電影Top250

利用python爬取豆瓣電影Top250的相關資訊，包括電影詳情連結,圖片連結,影片中文名,影片外國名,評分,評價數,概況,導演,主演,年份,地區,類別這12項內容，然後將爬取的資訊寫入Excel表中。基本上爬取結果還是挺好的。具體程式碼如下： #!/us

python爬蟲——爬取豆瓣電影top250資訊並載入到MongoDB資料庫中

最近在學習關於爬蟲方面的知識，因為剛開始接觸，還是萌新，所以有什麼錯誤的地方，歡迎大家指出 from multiprocessing import Pool from urllib.request import Request, urlopen import re, pymongo index

（8）Python爬蟲——爬取豆瓣影評資料

利用python爬取豆瓣最受歡迎的影評50條的相關資訊，包括標題,作者,影片名,影片詳情連結,推薦級,迴應數,影評連結,影評,有用數這9項內容，然後將爬取的資訊寫入Excel表中。具體程式碼如下： #!/usr/bin/python # -*- codin

[8]個人學習python：爬取豆瓣首頁所有圖片

程式碼如下：# -*- coding: utf-8 -* import urllib.request,socket,re,sys,os savepath=r'C:\\Users\\Administrator\\PycharmProjects\\untitled\\venv1\

Web Spider實戰1——簡單的爬蟲實戰(爬取"豆瓣讀書評分9分以上榜單")

1、Web Spider簡介 Web Spider，又稱為網路爬蟲，是一種自動抓取網際網路網頁資訊的機器人。它們被廣泛用於網際網路搜尋引擎或其他類似網站，以獲取或更新這些網站的內容和檢索方式。它們可以自動採集所有其能夠訪問到的頁面內容，以供搜尋引擎做進一步處理

[python爬蟲]--爬取豆瓣音樂topX

最近在學習python爬蟲，寫出來的一些爬蟲記錄在csdn部落格裡，同時備份一個放在了github上。 github地址：https://github.com/wjsaya/python_s

爬蟲入門-4-2.爬取豆瓣讀書圖片

div 利用 resp gif a標簽 all name code 爬蟲一.利用lxml解析 from lxml import etree import os import requests PROXY = { ‘HTTPS‘: ‘116.209

Python爬蟲開源項目代碼，爬取微信、淘寶、豆瓣、知乎、新浪微博、QQ、去哪網等代碼整理

http server 以及 pro 模擬登錄取數存在漏洞搜狗作者：SFLYQ 今天為大家整理了32個Python爬蟲項目。整理的原因是，爬蟲入門簡單快速，也非常適合新入門的小夥伴培養信心。所有鏈接指向GitHub，祝大家玩的愉快~ 1、WechatSogou

python爬蟲，Scrapy爬取豆瓣電影《芳華》電影短評，分詞生成詞雲圖。

專案github地址：https://github.com/kocor01/scrapy_cloud Python版本為3.6 自己寫的簡單架構《python爬蟲，爬取豆瓣電影《芳華》電影短評，分詞生成詞雲圖。》這個是用Scrapy框架重新實現的爬蟲

基於Python，爬取豆瓣讀書原始碼

原始碼檔案說明：

相關推薦