《精通Python網路爬蟲》新書推薦
書籍名稱:精通Python網路爬蟲
書籍定位:Python網路爬蟲初學者
書籍簡介:
本書從技術、工具與實戰3個維度講解了Python網路爬蟲: 技術維度:詳細講解了Python網路爬蟲實現的核心技術,包括網路爬蟲的工作原理、如何用urllib庫編寫網路爬蟲、爬蟲的異常處理、正則表示式、爬蟲中Cookie的使用、爬蟲的瀏覽器偽裝技術、定向爬取技術、反爬蟲技術,以及如何自己動手編寫網路爬蟲; 工具維度:以流行的Python網路爬蟲框架Scrapy為物件,詳細講解了Scrapy的功能使用、高階技巧、架構設計、實現原理,以及如何通過Scrapy來更便捷、高效地編寫網路爬蟲; 實戰維度:以實戰為導向,是本書的主旨,除了完全通過手動程式設計實現網路爬蟲和通過Scrapy框架實現網路爬蟲的實戰案例以外,本書還有部落格爬取、圖片爬取、模擬登入等多個綜合性的網路爬蟲實踐案例。 作者在Python領域有非常深厚的積累,不僅精通Python網路爬蟲,在Python機器學習、Python資料分析與挖掘、Python Web開發等多個領域都有豐富的實戰經驗。
作者簡介:
韋瑋,資深網路爬蟲技術專家、大資料專家和軟體開發工程師,從事大型軟體開發與技術服務多年,現任重慶韜翔網路科技有限公司創始人兼CEO,國家專利發明人。 精通Python技術,在Python網路爬蟲、Python機器學習、Python資料分析與挖掘、Python Web開發等多個領域都有豐富的實戰經驗。 CSDN、51CTO、天善智慧等科技類社群和媒體的特邀專家和講師,輸出了大量的高質量課程和文章,深受使用者喜愛。
書籍目錄:
前 言 第一篇 理論基礎篇 第1章 什麼是網路爬蟲 3 1.1 初識網路爬蟲 3 1.2 為什麼要學網路爬蟲 4 1.3 網路爬蟲的組成 5 1.4 網路爬蟲的型別 6 1.5 爬蟲擴充套件——聚焦爬蟲 7 1.6 小結 8 第2章 網路爬蟲技能總覽 9 2.1 網路爬蟲技能總覽圖 9 2.2 搜尋引擎核心 10 2.3 使用者爬蟲的那些事兒 11 2.4 小結 12 第二篇 核心技術篇 第3章 網路爬蟲實現原理與實現技術 15 3.1 網路爬蟲實現原理詳解 15 3.2 爬行策略 17 3.3 網頁更新策略 18 3.4 網頁分析演算法 20 3.5 身份識別 21 3.6 網路爬蟲實現技術 21 3.7 例項——metaseeker 22 3.8 小結 27 第4章 Urllib庫與URLError異常處理 29 4.1 什麼是Urllib庫 29 4.2 快速使用Urllib爬取網頁 30 4.3 瀏覽器的模擬——Headers屬性 34 4.4 超時設定 37 4.5 HTTP協議請求實戰 39 4.6 代理伺服器的設定 44 4.7 DebugLog實戰 45 4.8 異常處理神器——URLError實戰 46 4.9 小結 51 第5章 正則表示式與Cookie的使用 52 5.1 什麼是正則表示式 52 5.2 正則表示式基礎知識 52 5.3 正則表示式常見函式 61 5.4 常見例項解析 64 5.5 什麼是Cookie 66 5.6 Cookiejar實戰精析 66 5.7 小結 71 第6章 手寫Python爬蟲 73 6.1 圖片爬蟲實戰 73 6.2 連結爬蟲實戰 78 6.3 糗事百科爬蟲實戰 80 6.4 微信爬蟲實戰 82 6.5 什麼是多執行緒爬蟲 89 6.6 多執行緒爬蟲實戰 90 6.7 小結 98 第7章 學會使用Fiddler 99 7.1 什麼是Fiddler 99 7.2 爬蟲與Fiddler的關係 100 7.3 Fiddler的基本原理與基本介面 100 7.4 Fiddler捕獲會話功能 102 7.5 使用QuickExec命令列 104 7.6 Fiddler斷點功能 106 7.7 Fiddler會話查詢功能 111 7.8 Fiddler的其他功能 111 7.9 小結 113 第8章 爬蟲的瀏覽器偽裝技術 114 8.1 什麼是瀏覽器偽裝技術 114 8.2 瀏覽器偽裝技術準備工作 115 8.3 爬蟲的瀏覽器偽裝技術實戰 117 8.4 小結 121 第9章 爬蟲的定向爬取技術 122 9.1 什麼是爬蟲的定向爬取技術 122 9.2 定向爬取的相關步驟與策略 123 9.3 定向爬取實戰 124 9.4 小結 130 第三篇 框架實現篇 第10章 瞭解Python爬蟲框架 133 10.1 什麼是Python爬蟲框架 133 10.2 常見的Python爬蟲框架 133 10.3 認識Scrapy框架 134 10.4 認識Crawley框架 135 10.5 認識Portia框架 136 10.6 認識newspaper框架 138 10.7 認識Python-goose框架 139 10.8 小結 140 第11章 爬蟲利器——Scrapy安裝與配置 141 11.1 在Windows7下安裝及配置Scrapy實戰詳解 141 11.2 在Linux(Centos)下安裝及配置Scrapy實戰詳解 147 11.3 在MAC下安裝及配置Scrapy實戰詳解 158 11.4 小結 161 第12章 開啟Scrapy爬蟲專案之旅 162 12.1 認識Scrapy專案的目錄結構 162 12.2 用Scrapy進行爬蟲專案管理 163 12.3 常用工具命令 166 12.4 實戰:Items的編寫 181 12.5 實戰:Spider的編寫 183 12.6 XPath基礎 187 12.7 Spider類引數傳遞 188 12.8 用XMLFeedSpider來分析XML源 191 12.9 學會使用CSVFeedSpider 197 12.10 Scrapy爬蟲多開技能 200 12.11 避免被禁止 206 12.12 小結 212 第13章 Scrapy核心架構 214 13.1 初識Scrapy架構 214 13.2 常用的Scrapy元件詳解 215 13.3 Scrapy工作流 217 13.4 小結 219 第14章 Scrapy中文輸出與儲存 220 14.1 Scrapy的中文輸出 220 14.2 Scrapy的中文儲存 223 14.3 輸出中文到JSON檔案 225 14.4 小結 230 第15章 編寫自動爬取網頁的爬蟲 231 15.1 實戰:items的編寫 231 15.2 實戰:pipelines的編寫 233 15.3 實戰:settings的編寫 234 15.4 自動爬蟲編寫實戰 234 15.5 除錯與執行 239 15.6 小結 242 第16章 CrawlSpider 243 16.1 初識CrawlSpider 243 16.2 連結提取器 244 16.3 實戰:CrawlSpider例項 245 16.4 小結 249 第17章 Scrapy高階應用 250 17.1 如何在Python3中操作資料庫 250 17.2 爬取內容寫進MySQL 254 17.3 小結 259 第四篇 專案實戰篇 第18章 部落格類爬蟲專案 263 18.1 部落格類爬蟲專案功能分析 263 18.2 部落格類爬蟲專案實現思路 264 18.3 部落格類爬蟲專案編寫實戰 264 18.4 除錯與執行 274 18.5 小結 275 第19章 圖片類爬蟲專案 276 19.1 圖片類爬蟲專案功能分析 276 19.2 圖片類爬蟲專案實現思路 277 19.3 圖片類爬蟲專案編寫實戰 277 19.4 除錯與執行 281 19.5 小結 282 第20章 模擬登入爬蟲專案 283 20.1 模擬登入爬蟲專案功能分析 283 20.2 模擬登入爬蟲專案實現思路 283 20.3 模擬登入爬蟲專案編寫實戰 284 20.4 除錯與執行 292 20.5 小結 294
需要書籍資料請加QQ群:832339352加群即可獲取!