Python爬蟲實戰，Scrapy實戰，爬取並簡單分析知網中國專利資料

阿新 • • 發佈：2021-06-17

前言

今天我們就用scrapy爬一波知網的中國專利資料並做簡單的資料視覺化分析唄。讓我們愉快地開始吧~

PS：本專案僅供學習交流，實踐本專案時煩請設定合理的下載延遲與爬取的專利資料量，避免給知網伺服器帶來不必要的壓力。

開發工具

Python版本：3.6.4

環境搭建

安裝Python並新增到環境變數，pip安裝需要的相關模組即可。

資料爬取

我們需要爬取的資料例如下圖所示：

即包括以下這些內容：

爬取思路：

我們可以很容易地發現每個專利的詳情頁url都是類似這樣的：

http://dbpub.cnki.net/grid2008/dbpub/Detail.aspx?DBName=SCPD年份&FileName=專利公開號&QueryID=4&CurRec=1

因此，只要改變專利公開號即可獲得對應專利的詳情頁url(經測試，即使年份對不上也沒關係)，從而獲得對應專利的資訊，具體而言程式碼實現如下：

All done~完整原始碼詳見個人簡介相關檔案。

PS：程式碼執行方式為執行main.py檔案。

資料視覺化

為避免給知網伺服器帶來不必要的壓力，這裡我們只爬了2014年的一部分知網中國專利資料(就跑了一個多小時吧)，對這些資料進行視覺化分析的結果如下。

我們先來看看申請專利的省份分佈唄：

然後再來統計一下專利代理機構？

最後再來看看所有專利摘要做成的詞雲唄：

還有所有專利標題做成的詞雲唄：

文章到這裡就結束了，感謝你的觀看，關注我每天分享Python系列爬蟲，下篇文章分享Python爬蟲知乎表情包。

為了感謝讀者們，我想把我最近收藏的一些程式設計乾貨分享給大家，回饋每一個讀者，希望能幫到你們。

乾貨主要有：

①　2000多本Python電子書（主流和經典的書籍應該都有了）

②　Python標準庫資料（最全中文版）

③　專案原始碼（四五十個有趣且經典的練手專案及原始碼）

④　Python基礎入門、爬蟲、web開發、大資料分析方面的視訊（適合小白學習）

⑤ Python學習路線圖（告別不入流的學習）

All done~完整原始碼+乾貨詳見個人簡介或者私信獲取相關檔案。。

Python爬蟲實戰，Scrapy實戰，爬取並簡單分析知網中國專利資料

前言今天我們就用scrapy爬一波知網的中國專利資料並做簡單的資料視覺化分析唄。讓我們愉快地開始吧~

我不就是吃點肉，應該沒事吧——爬取一座城市裡的烤肉店資料（附完整Python爬蟲程式碼）

寫在前面的一點屁話：對於肉食主義者，吃肉簡直幸福感爆棚！特別是烤肉，看著一塊塊肉慢慢變熟，聽著烤盤上“滋滋”的聲響，這種期待感是任何其他食物都無法帶來的。如果說甜點是“乍見之歡”，那肉則是“久處不

python爬蟲學習（一）requests爬取dytt下載地址

當網址有加密傳送安全證書時可以使用verify=False，因為dytt利用的字元編碼是gb2312，所以解碼也要用gb2312

Python爬蟲入門案例教學：批量爬取彼岸桌面4K超清美女桌布

先圖片開路環境介紹 python 3.6 / 3.8 pycharm 編輯器 requests parsel os 檔案操作在cmd裡面就可以進行安裝 pip install requests

Python爬蟲實戰，Scrapy實戰，大眾點評爬蟲

前言爬一波大眾點評上美食板塊的資料，順便再把爬到的資料做一波視覺化分析

Python爬蟲實戰，Scrapy實戰，中國地震臺網資料視覺化

前言總感覺最近好多地震的新聞，就想著爬一波地震相關的資料來看看。開發工具

Python爬蟲實戰，Scrapy實戰，抓取並分析天氣資料

前言利用Python“簡單地”抓取並分析一下天氣資料。補充一下之前資料視覺化的空白。

python爬蟲開發與專案實戰學習筆記，（一）

------------恢復內容開始------------ 　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　1.1 檔案讀寫

不踩坑的Python爬蟲:《Python爬蟲開發與專案實戰》，從爬蟲入門 Python ！

仔細觀察發現，現在懂爬蟲、學習爬蟲的人越來越多。為什麼Python爬蟲這麼受歡迎呢？

實戰單執行緒爬取，單執行緒+協程爬取，多執行緒爬取

一.目標網頁：https://lusongsong.com/default_2.html.爬取該頁面連結（有17個）下詳情內容並儲存到本地

Python爬蟲入門練手案例，爬取某乎問答數（附原始碼）

前言本文的文字及圖片來源於網路,僅供學習、交流使用,不具有任何商業用途,版權歸原作者所有,如有問題請及時聯絡我們以作處理。

Python爬蟲，京東商品詳情爬取！

最近因需求需要，需要到京東爬取一些類別的商品資訊。記錄下過程中踩過的坑，最後奉獻上全部程式碼。僅供互相學習，如有錯誤請指正~~

Python爬蟲：輸入公司名稱，爬取企查查網站中的公司資訊

前言本文的文字及圖片來源於網路,僅供學習、交流使用,不具有任何商業用途,如有問題請及時聯絡我們以作處理。

【Python爬蟲】入門級爬蟲案例，20行程式碼爬取網站圖片（附原始碼）

知識點爬蟲的步驟 requests parsel xpath資料解析爬蟲四個步驟: 1.獲取網頁地址 (目標地址)2.傳送請求3.資料解析4.儲存本地

Python 爬蟲之設定ip代理，設定User-Agent，設定請求頭，設定post載荷

1、get方式：如何為爬蟲新增ip代理，設定Request header（請求頭） import urllib import urllib.request

爬蟲實戰：圖片的批量爬取

1. 找好練習網站（不要惡意爬取，爬取前面10也即可，避免給網站造成壓力）

Python爬蟲框架：scrapy爬取迅雷電影天堂最新電影！

專案開始第一步仍然是建立scrapy專案與spider檔案切換到工作目錄兩條命令依次輸入

教你如何用Python爬蟲搜尋淘寶商品，生成操作日誌的系統！

/1 前言/ 隨著網購的興起，使得很多傳統店鋪轉型做線上生意，電子商務的產生極大便利了我們的生活。

Python爬蟲僅需一行程式碼，熟練掌握crawl第三方庫

simple_crawl 僅需一行程式碼即可達到爬蟲效果很多人學習python，不知道從何學起。很多人學習python，掌握了基本語法過後，不知道在哪裡尋找案例上手。很多已經做案例的人，卻不知道如何去學習更加高深的知識。那

Python爬蟲大佬主動開源，最新版抖音app或者其他app抓包情況分析

從今年初開始抖音更新後，抖音app就無法普通的通過配置fiddler抓包了，經過百度發現原來是用了ssl pinning技術

Python爬蟲實戰，Scrapy實戰，爬取並簡單分析知網中國專利資料

前言

開發工具

Python版本：3.6.4

相關模組：

環境搭建

資料爬取

資料視覺化

相關推薦