1. 程式人生 > >豆瓣讀書爬蟲(requests + re)

豆瓣讀書爬蟲(requests + re)

pandas 就是 正則 過程 data tle ppa 觀察 嘗試

  前面整理了一些爬蟲的內容,今天寫一個小小的栗子,內容不深,大佬請忽略。內容包括對豆瓣讀書網站中的書籍的基本信息進行爬取,並整理,便於我們快速了解每本書的中心。

技術分享圖片

一、爬取信息

  每當爬取某個網頁的信息時,首先就是要進入到網頁中,看看有沒有什麽爬取過程中的限制,可以查看網站的robots協議。就是在原網址的後面加上"/robots.txt"。本網站中得到的結果是:

User-agent: *
Disallow: /subject_search
Disallow: /search
Disallow: /new_subject
Disallow: /service/iframe
Disallow: /j/
Sitemap: http://www.douban.com/sitemap_index.xml
Sitemap: http://www.douban.com/sitemap_updated_index.xml

User-agent: Wandoujia Spider
Disallow: /

  根據上面的協議可以看到,並沒有禁止一些普通的爬蟲,就像我們現在這樣,僅僅爬取一點點的東西來供自己使用。那麽,我們就可以使用之前文章中提到的結構來實現這個爬蟲,首先導入函數庫,然後套用框架,傳入地址,返回頁面內容。這點內容在這篇博客中寫到了,這裏就不詳細解釋了。到此,網頁的爬取就結束了,接下來就剩下從這些東西中拿到我們想要的內容。

 1 import requests
 2 
 3 url = "https://book.douban.com/"
 4 def getHtmlText(url):
 5     headers = {
 6         User-Agent
: Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/52.0.2743.116 Safari/537.36 7 } 8 try: 9 response = requests.get(url, headers=headers) 10 response.raise_for_status() 11 response.encoding = response.apparent_encoding
12 return response.text 13 except: 14 print("Fail") 15 return 16 17 html = getHtmlText(url)

二、信息處理

  上面提取的的網頁代碼包括很多東西,像展示出來的頁面的各種框架等等,這些對我們來說都是沒有用的,而且通過正則來提取信息,如果在整個頁面中直接提取的話,不免會出現一些巧合,使得沒有提取到真正想要的內容,而且pattern一樣的其他內容,所以,首先,把要把關鍵的塊先拿出來,再一點一點的取出具體信息。

1 import re
2 
3 re_books = re.compile(<ul class="list-col list-col5 list-express slide-item">(.*?)</ul>, re.S)  # re.S也在正則表達式的博客中寫到了,是為了讓“.”可以匹配換行符
4 content = re_books.search(html)

  通過檢查網頁源代碼,找到可以取出主要信息的匹配規則,將中間的內容全部獲得。剩下的就是通過正則來提取每本書的每項信息。這個在於自己觀察他們的規律,尋找匹配的規則。信息的標簽不止一個,最後選擇了使用pandas來整理數據,pandas的DataFrame數據類型可以很方便的存儲二維結構,而且pandas有將數據之間存儲成excel格式的方法(DataFrame.to_excel())。

 1 import pandas as pd  # 這是大部分人的習慣,pandas比較長,而且在數據處理中經常使用,所以用pd兩個字母來代表
 2 
 3 # 首先,先創建一個DataFrame,之後遍歷每本書籍的信息,存成DataFrame格式拼接在他的後面就可以了
 4 data = pd.DataFrame(columns=[title, author, abstract, href, publisher])
 5 
 6 re_book = re.compile(<li class="">(.*?)</li>, re.S)
 7 bookList = re_book.findall(content[0])  # findall找到所有的書籍信息,返回為列表格式
 8 for book in bookList:
 9     count = 0
10     count += 1
11     href = re.search(href="(.*?)", book)  # .*? 是指以非貪婪的模式匹配,()是分組,通過group方便取出其中的信息
12     href = href.group(1)
13     title = re.search(<h4 class="title">(.*?)</h4>, book, re.S)
14     title = title.group(1).split()[0]
15     author = re.search(<span class="author">(.*?)</span>, book, re.S)
16     author =  .join(author.group(1).split())
17     publisher = re.search(<span class="publisher">(.*?)</span>, book, re.S)
18     publisher =  .join(publisher.group(1).split())
19     abstract = re.search(<p class="abstract">(.*?)</p>, book, re.S)
20     abstract =  .join(abstract.group(1).split())
21     abstract = re.sub(【內容簡介】, ‘‘, abstract)  # 慢慢調試中發現,取得的信息不太好看,其中在第一本數的主要內容開頭有這麽幾個字,就用re的sub方法替換掉了
22     new = pd.DataFrame({"title":title, "author":author, "abstract":abstract, "href":href, "publisher":publisher}, index=["0"])
23     data = data.append(new, ignore_index=True)
24 data.to_excel(bookInfo.xls, encoding=utf-8)

  我們可以看一下得到的結果,pandas直接輸出的結果也很規整,這裏存儲到了excel中,起初存到csv文件中,但是亂碼了,後面沒多想就換成了excel,稍後我再去看看怎麽回事,或者有讀者清楚地,可以教教博主。

技術分享圖片

  圖中有些東西沒有展示出來,但是大家都懂對吧。可以自己試一試。當然這個爬蟲很淺,僅得到這點的數據,後面的內容就交給你們了,可以試著往深裏點一點,原理都是大同小異的,學習爬蟲在平時就要隨時發現可以挖掘的東西,慢慢嘗試。

豆瓣讀書爬蟲(requests + re)