豆瓣讀書top250資料爬取與視覺化

阿新 • • 發佈：2020-12-19

爬蟲–scrapy

題目：根據豆瓣讀書top250,根據出版社對書籍數量分類，繪製餅圖

搭建環境

import scrapy
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

載入scrapy框架


#terminal 終端實現
cd .. # 跳轉到上一層目錄
scrapy startproject booktop # 和專案同名的scrapy框架專案

setting配置

ROBOTSTXT_OBEY = False # 君子協議 false 不遵守
USER_AGENT = 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36
(KHTML, like Gecko) Chrome/85.0.4183.121 Safari/537.36'
DOWNLOAD_DELAY = 0.5 # 下載延遲## 如何改變文字的樣式

spider編寫


#spiders資料夾下建立python檔案 bookspider.py
import scrapy
from booktop.items import BookItem
class BookSpider(scrapy.Spider):
		name="bookspider"
		allowed_domains=['book.douban.com']
		start_urls=['https://book.douban.com/top250']
		def parse(self, response, **kwargs):
				print(response.text) # 測試頁面

測試：

#在terminal終端進行
cd booktop # 進入專案資料夾
scrapy crawl bookspider # 執行專案下的爬蟲（和name的值保持一致）
# 測試成功，看到頁面程式碼

獲取資料（書名+出版社)

 需要匯入BookItem類 檔案開頭匯入 from booktop.items import BookItem
def parse(self, response, **kwargs):
		 #print(response.text)
		# table 一個table一本書
		tables=response.xpath('//table') # css也可以
		# print('書籍個數',len(tables))
		# print(tables)
		for t in tables:
				#提取 extract()[0]
				tit=t.css('div.pl2 a::attr(title)').extract()[0]
				# print(title) 書名
				pu=t.css('p.pl::text').extract()[0]
				pu=pu.split('/')[-3].strip()
 				#print(pub) 出版社
				yield BookItem(title=tit,pub=pu)

需要使用item物件完成資料封裝並傳輸

#items.py書寫書類
class BookItem(scrapy.Item):
		#define the fields for your item here like:
		title = scrapy.Field()
		pub=scrapy.Field()
		pass

pipeline 管道儲存資料

# 在setting檔案下，解開註釋
ITEM_PIPELINES = {
'booktop.pipelines.BooktopPipeline': 300,
}

資料儲存到txt檔案下

# 開啟管道檔案 BooktopPipeline
class BooktopPipeline:
	def process_item(self, item, spider):
		# 編碼格式設定為utf-8
		file=open('result.txt','a+',encoding='utf-8')
		file.write(item['title']+','+item['pub']+'\n')
		return item
# 執行測試結果result.txt下有資料成功

分析和視覺化

# 在專案中建立 分析檔案 demo1.py
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import matplotlib
# 處理中文字型
font = {'family': 'microsoft yahei',
		'weight': 'bold',
		'size': 12}
matplotlib.rc('font',**font)
# 讀取檔案
df=pd.read_csv('result.txt',names=['title','pub'])
# print(df)
# 福爾摩斯探案集 出版社有問題，手動修改
df.loc[8,'pub']='群眾出版社'
# print(df)
# 按出版社不同分類彙總書數量，取出前5名
result=df['pub'].value_counts().head()
print(result)
plt.pie(result,labels=result.index,autopct='%3.1f%%')
plt.show()

本文的文字及圖片來源於網路,僅供學習、交流使用,不具有任何商業用途,如有問題請及時聯絡我們以作處理
想要獲取更多Python學習資料可以加
QQ:2955637827私聊
或加Q群630390733
大家一起來學習討論吧！

豆瓣讀書top250資料爬取與視覺化

爬蟲–scrapy 題目：根據豆瓣讀書top250,根據出版社對書籍數量分類，繪製餅圖搭建環境

前程無憂崗位資料爬取+Tableau視覺化分析

一、專案背景隨著科技的不斷進步與發展，資料呈現爆發式的增長，各行各業對於資料的依賴越來越強，與資料打交道在所難免，而社會對於“資料”方面的人才需求也在不斷增大。因此瞭解當下企業究竟需要招聘什麼樣的人

Python爬取豆瓣音樂TOP250，爬取的資料儲存到csv檔案和xls檔案

爬取的目標網址：https://music.douban.com/top250 利用lxml庫，獲取前10頁的資訊，需要爬取的資訊包括歌曲名、表演者、流派、發行時間、評分和評論人數，把這些資訊存到csv和xls檔案

真正傻瓜式操作：這款國產BI軟體，輕鬆實現資料分析預測與視覺化

最近朋友推薦一款名為Yonghong Desktop的工具，號稱既有BI，又有AI，而且還是免費的，於是二話不說，下載->安裝->啟動產品，一系列操作快速搞定後，馬上就想體驗一下。這裡我們使用天池開放的資料資源裡下載的

更新前沿技術！大資料實時專案從架構設計到實戰部署大資料專案分析與視覺化實現

教程目錄： ├─01大資料技術之實時專案-課程概述及資料採集.docx ├─02大資料技術之實時專案-ElasticSearch.docx

爬取中國大學排名變化資料與視覺化分析

一、選題背景高考作為中國學生生涯中最為重要的事，在高考之後，選擇一所好的大學則是接下的人生的一塊的敲門磚，選擇有著好的大學，和有著良好教育氛圍的城市以及所選擇的大學近年來的變化是很重要的事，在以前，想

python資料視覺化豆瓣電影top250資料分析

第一篇文章裡已經通過寫python爬蟲程式獲取到了豆瓣電影Top250有關的資料，這裡對儲存在Excel裡的電影資訊進行資料分析和視覺化。

scrapy與selenium結合爬取資料(爬取動態網站)的示例程式碼

scrapy框架只能爬取靜態網站。如需爬取動態網站，需要結合著selenium進行js的渲染，才能獲取到動態載入的資料。

Python進行拉勾網資料爬取框架與思路

爬取內容用互動式的方式輸入想查詢的職位並迴圈輸出職位簡要資訊，為了方便閱讀，本文使用到的變數並不是以目標變數的英文來命名，而是為了方便而取的變數名，各位大牛請諒解。（因貴網站爬取一定量資料後需要登陸，

豆瓣資料爬取專案——軟體系統設計方案解決

一、概述這篇文章主要是針對一個對於豆瓣的電影資料進行爬取的爬蟲程式，將進行軟體系統的分析和設計，闡述使用的設計模式、軟體架構風格與策略，並採用檢視來描述軟體系統的模型。進行資料庫和核心資料結構的設計分

Python實現某日劇豆瓣小組的帖子和組員資料爬取和資料統計

這次資料統計的目的是找出某長度為12集的日劇從開播（2020-10-09）到結束（2020-12-25）這段時間內，其豆瓣小組的發帖情況，及其組員構成。由於資料是在2021年1月3日開始爬取的，因此無法獲取在放送期間的組員數量變

手把手教你用Python爬取某網小說資料，並進行視覺化分析

網路文學是以網際網路為展示平臺和傳播媒介，藉助相關網際網路手段來表現文學作品及含有一部分文字作品的網路技術產品，在當前成為一種新興的文學現象，並快速興起，各種網路小說也是層出不窮，今天我們使用seleniu

Python Scrapy多頁資料爬取實現過程解析

1.先指定通用模板 url = \'https://www.qiushibaike.com/text/page/%d/\'#通用的url模板 pageNum = 1

05資料爬取-補

修改自一個爬取資料並輸入省份查詢的指令碼。 import requests import json import mysql.connector

scrapy 全站資料爬取

大部分的網站展示的資料都進行了分頁操作，那麼將所有頁碼對應的頁面資料進行爬取就是爬蟲中的全站資料爬取。

scrapy圖片資料爬取

scrapy中已經為我們封裝好了一個專門基於圖片請求和持久化儲存的管道類ImagesPipeline，如果想要基於scrapy實現圖片資料的爬取，則可以直接使用該管道類即可

豆瓣：豆列爬取心得

最近把豆瓣2020版電影日曆上的資料整理到了豆瓣的豆列裡，但豆列裡面沒法做更方便的篩選和查詢，於是乎就想著把資料爬取下來自己篩選一下，便有了這篇筆記，程式碼實現是python3。

python jira 資料爬取bug和子任務清單

importrequests import urllib3 urllib3.disable_warnings() from jira importJIRA import pandas as pd def login_jira(username,password):

24-移動端app資料爬取

移動端資料爬取安裝fiddler 真機安裝fiddler證書修改手機代理（改成電腦ip，埠設定為fiddler的埠）

淘寶資料爬取（二資料清洗）

淘寶資料清洗 01 匯入相關模組 import numpy as np import pandas as pd import matplotlib as mpl import matplotlib.pyplot as plt

豆瓣讀書top250資料爬取與視覺化

爬蟲–scrapy

搭建環境

載入scrapy框架

setting配置

spider編寫

獲取資料（書名+出版社)

pipeline 管道儲存資料

分析和視覺化

相關推薦