我發現現在不用標題黨的套路還真不好吸引人，最近在做相關的事情，從而稍微總結出了一些文字。我一貫的想法吧，雖然才疏學淺，但是還是希望能幫助需要的人。部落格園實在不適合這種章回體的文章。這裡，我貼出正文的前兩個部分，算個入口吧。

為了防止在看完了之後覺得其實這不是我的興趣範圍，我先說一下這8個commit都涉及啥，粗略的涉及都有，爬取京東圖書程式設計書籍的名稱，標題，價格，好評率。然後涉及如何寫log以及多程序。

完整的部分可以在https://rogerzhu.gitbooks.io/python-commit-by-commit/content/ 這裡看到。程式碼呢，可以在https://github.com/rogerzhu/relwarcDJ 這裡獲取。

python 爬蟲 commit by commit（一）

"F12才是爬蟲開發的最好的朋友" -- by 我自己

既然叫commit by commit，那就要按照自己給自己定下的規矩來寫。在把程式碼clone到本地之後，你可以用git reset --hard 6fda96eae來退回到程式碼的第一個版本。別擔心回不去後面的版本，這commit都在github都能看到，即使你不知道一些奇技淫巧的git命令也沒啥，大膽幹。

首先，我覺得我應該說這個commit我想幹嘛，第一個commit，我是想作為熟悉的門檻，所以這個commit最開始我的本意是想獲得京東圖書程式語言第一頁上面的書名，連結。

對於這個commit，當你輸入如下命令開始執行時：

你應該能看到如下的結果：

前面已經扯了兩篇了，那麼從這篇開始步入技術的正軌了，其實從骨子裡我是很討厭那種教程裡敲半個小時程式碼，最後發現就是一個輸出了一個星號組成的圖案。我覺得，入門級別的程式碼得用不超過10分鐘的時間幹出一點你能看得到，有成就感的正事才能吸引大部分的注意力。可惜啊，C++在這方面確實很難做到，而python在這方面絕對是擅長。所以，第一個commit雖然我的comment是ugly commit，但是絕對能幹活。

既然是入門級別的文章，那麼就從最基本的部分開始，當你瀏覽一個網頁的時候，實際上，你在瀏覽什麼？實際上你在瀏覽的是伺服器傳回來的一系列檔案，這一系列檔案由瀏覽器解析，然後呈現給你。比如我想看看京東圖書程式語言下面的所有圖書，我只要用滑鼠一點一點的點到我想要的地方就可以看到我需要的網頁。

但是作為一個程式設計師，GUI並算是一個高效的互動方式，一個簡單的例子，對於文字可以一目十行，GUI除非你眼睛感測器異於常人或者大腦CPU比一般人要效能好，不然很難做到。對於爬蟲，他不會關心GUI，它的食物只有一種，各類帶格式的檔案。所以，我們需要看到介面背後的原始碼。市面上只要你能見到的瀏覽器，在右鍵選單裡一定會有讓你看到原始碼的選單。但是，在現代網頁越來越豐富的情況下，一個頁面的原始碼檔案實在是太豐富了，按照我最開始的說法，我想找到書名和價格，咋辦？不能用ctrl+f吧，低效不是程式設計師的作為。在這個時候，職業的本能應該驅使你去尋找工具。

開心的是，主流瀏覽器都帶有這種工具，而且獲取這一組工具的方法都是隻要簡單的按下F12就可以了，我敢保證，當你按下這個鍵的時候，你有一種打開了新世界的感覺。比如我用的火狐，按下F12之後在最左邊，你會看到這樣一個圖示:

點選一下這個圖示再移到介面上，你會發現你可以以矩形的方式選擇頁面上的元素。根據人的本能，點選一下，你會發現圖示下面的html會自動定義到選中的元素！這樣，拿到什麼資訊，你只要負責選擇就好了，瀏覽器自帶的工具會自動幫你定位。比如，我想要的圖書的名字和價格，我選中某一格的圖書，就會看到這樣的輸出：

html是一種格式化並且是帶有層級的語言，這樣就會自然引申出一個問題，當我選取一個元素時候，到底採用怎樣的粒度？比如說，就以這個圖書的名字來說，他是在一個列表(li)元素中的一個div中的一個text中的，那麼完全可以直接選取這個text，第二個是通過父級別一點一點的選取。這其實就是一個數據結構大小取捨的問題，而寫程式，我覺得要考慮到擴充套件性和人思維的自然認知性，以便於升級和維護。所以，我一般都是從我自己最自然的認知出發，當我的眼睛看到這個網頁時，我的呆腦，哦不，是大腦會自然把每個圖的一個縮圖，名稱和價格組成的這個方塊歸類為一個小組，於是，我選擇的粒度就是遵從我的內心。

那麼我就用上面說的小箭頭選取到我決定的方塊，可以得到標識這每一方塊的元素是<li>。而在這個HTML中，有無數的li，我們怎麼能定位到我們需要的這個li呢？這裡，讓我不得不想起一個諺語，叫贈人玫瑰手有餘香。在前端程式設計師在開發他們的網頁時，他們需要對元素進行標識，這樣他們才能在程式碼中方便的寫出想要的邏輯。而這個行為，給爬蟲程式設計師們提供了便利，你可以用他們歸類的標識來定位你需要的元素，當然，我這裡說的是在程式碼裡。而beautifulsoup這個包可以非常的方便的讓你完成這件事情，你可以選擇用id，class等等來找到你需要的元素。而在這裡，如果你按照我說的使用箭頭工具的話，會很容易的看到在這個網頁中gl-item這樣的class來標識每一個列表塊。那麼剩下的就是按照已經發現的，翻譯成為程式語言了。

在第一個commit裡面，程式碼一共22行，我都忍不住用截圖的方式展示一下以便於說明。

八個commit讓你學會爬取京東商品資訊

python 爬蟲 commit by commit（一）

八個commit讓你學會爬取京東商品資訊

爬取京東商品資訊

Scrapy框架基於crawl爬取京東商品資訊爬蟲

python語言用requests庫和BeautifulSoup庫爬取京東商品資訊

詳細教程：crawler4j 爬取京東商品資訊 Java爬蟲入門 crawler4j教程

python 爬蟲實戰專案--爬取京東商品資訊（價格、優惠、排名、好評率等）

python制作爬蟲爬取京東商品評論教程

Python爬取京東商品列表

Java爬蟲爬取京東商品信息

利用Python爬蟲爬取京東商品的簡要資訊

Python資料爬蟲學習筆記（21）爬取京東商品JSON資訊並解析

網路爬蟲：Python+requests+bs4+xlwt 爬取京東商品存入Excel表

Python 爬蟲爬取京東商品評論資料，並存入CSV檔案

【Python】【爬蟲】爬取京東商品使用者評論（分析+視覺化）

爬取京東評論資訊

Java爬蟲入門實戰：爬取京東圖書資訊

Python爬蟲實戰（2）：爬取京東商品列表

python 爬取京東商品評論

Spring Boot + JSoup 抓取京東商品資訊

克服拖延——7個技巧讓你堅持前進

八個commit讓你學會爬取京東商品資訊

python 爬蟲 commit by commit（一）

相關推薦