Python爬蟲入門級別的三個案例教程

阿新 • • 發佈：2018-11-08

貼吧爬取

寫程式碼前，構思需要的功能塊；寫程式碼時，把各個功能模組名提前寫好

初始化

初始化必要引數，完成基礎設定爬取百度貼吧lol吧：爬取地址中的get引數須傳遞(可以指定不同主題的貼吧和頁碼)

主題名
初始網址
請求頭

生成網址

生成每一頁的路由地址

根據列表生成式生成多個頁面的地址

下載

get請求給每一頁的地址，爬取頁面

儲存

儲存爬取結果到檔案中，把每一頁爬取結果寫入到對應名字的檔案中

控制流程

將以上爬取操作封裝到run函式中，方便外部物件呼叫，以後會在此新增多執行緒

生成要爬取的每一頁的路由地址

通過for迴圈遍歷每一個路由地址
對每個路由地址進行爬取和獲取頁碼操作，並進行儲存

原始碼

 1 import requests
 2 
 3 class TiebaSpider:
 4     def __init__(self, tieba_name_crawl):
 5         """
 6         初始化必要引數，完成基礎設定
 7         爬取百度貼吧lol吧：爬取地址中的get引數須傳遞(可以指定不同主題的貼吧和頁碼)
 8         """
 9         self.tieba_name = tieba_name_crawl
10         self.url_base = 'https://tieba.baidu.com/f?kw=' + tieba_name_crawl + '&ie=utf-8&pn={}'
11         self.headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:61.0) Gecko/20100101 Firefox/61.0'}
12 
13     def make_url(self):
14         """
15         生成每一頁的路由地址
16         :return:(列表生成式)
17         """
18         return [self.url_base.format(i) for i in range(4)]
19 
20     def download_url(self, url_str):
21         """
22         get請求給每一頁的地址，爬取頁面
23         :param url_str: 每一頁的路由地址
24         :return: 爬取的結果
25         """
26         result = requests.get(url_str, headers=self.headers)
27         return result.text
28 
29     def save_result(self, result, page_num):
30         """
31         儲存爬取結果到檔案中
32         :param result: 每一頁的爬取結果
33         :param page_num: 頁碼，方便分類儲存
34         :return: 把每一頁爬取結果寫入到對應名字的檔案中
35         """
36         # with open('./download/lol' + str(page_num) + '.html', 'ab') as f:
37         #     f.write(result.encode('utf-8'))
38         file_path = './download/{}~第{}頁.html'.format(self.tieba_name,page_num)
39         with open(file_path,'wb') as f:
40             f.write(result.encode('utf-8'))
41 
42     def run(self):
43         """
44         將以上爬取操作封裝到run函式中，方便外部物件呼叫，以後會在此新增多執行緒
45         · 生成要爬取的每一頁的路由地址
46         · 通過for迴圈遍歷每一個路由地址
47         · 對每個路由地址進行爬取和獲取頁碼操作，並進行儲存
48         :return:
49         """
50         url_lists = self.make_url()
51         for url_str in url_lists:
52             result_str = self.download_url(url_str)
53             p_num = url_lists.index(url_str) + 1
54             self.save_result(result=result_str,page_num=p_num)
55 
56 if __name__ == '__main__':
57     tieba_spider = TiebaSpider('lol')
58     tieba_spider.run()

爬取糗事百科

 1 import requests
 2 from bs4 import BeautifulSoup
 3 import lxml.html
 4 
 5 class QiushiSpider:
 6     def __init__(self):
 7         """
 8         初始化必要引數，完成基礎設定
 9         """
10         # self.tieba_name = qiushi_name_crawl
11         # https: // www.qiushibaike.com / 8
12         # hr / page / 2 /
13         self.url_base = 'https://www.qiushibaike.com/8hr/page/{}/'
14         # self.url_base = 'https://tieba.baidu.com/f?kw=' + qiushi_name_crawl + '&ie=utf-8&pn={}'
15         self.headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:61.0) Gecko/20100101 Firefox/61.0'}
16 
17     def make_url(self):
18         return [self.url_base.format(i) for i in range(4)]
19 
20     def download_url(self, url_str):
21         result = requests.get(url_str, headers=self.headers)
22         #----------
23         # html = lxml.html.fromstring(result.text)
24         # html_data = html.xpath('//div[@class="content"]/span[1]/text()')
25         # data_all = []
26         # # for h in html_data:
27         # #     data_all.append(h)
28         # return html_data
29         #-----------
30         return result.text
31 
32     def save_result(self, result, page_num):
33         with open('./download/qiushi' + str(page_num) + '.html', 'ab') as f:
34             f.write(result.encode('utf-8'))
35 
36 
37 # qiushi = QiushiSpider()
38 # qiushi_url = qiushi.make_url()
39 # j = 1
40 # for i in qiushi_url:
41 #     qiushi_text = qiushi.download_url(url_str=i)
42 #     qiushi.save_result(result=qiushi_text, page_num=j)
43 #     j += 1

爬取網站資訊

BeautifulSoup方式

 1 import requests
 2 from bs4 import BeautifulSoup
 3 class CountrySoup:
 4     def __init__(self,country_name):
 5         self.country_name = country_name
 6         self.url_base = 'http://example.webscraping.com/places/default/view/{}'.format(self.country_name)
 7         self.headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:61.0) Gecko/20100101 Firefox/61.0',}
 8 
 9     def download_url(self):
10         result = requests.get(self.url_base,headers=self.headers)
11         soup = BeautifulSoup(result.text,'lxml')
12         tr = soup.find(attrs={'id':"places_country__row"})
13         print(tr,type(tr))
14         td = tr.find(attrs={'class':"w2p_fw"})
15         print(td,type(td))
16 
17         print(td.text)

lxml方式

 1 class CountrySpider:
 2     def __init__(self,country_name):
 3         self.country_name = country_name
 4         self.url_base = 'http://example.webscraping.com/places/default/view/{}'.format(self.country_name)
 5         self.headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:61.0) Gecko/20100101 Firefox/61.0',}
 6 
 7     def download_url(self,url_str):
 8         result = requests.get(url_str,headers=self.headers)
 9         html = lxml.html.fromstring(result.text)
10         data_country = html.xpath('//tr[@id="places_country__row"]/td[@class="w2p_fw"]/text()')
11         data_capital = html.xpath('//tr[@id="places_capital__row"]/td[@class="w2p_fw"]/text()')
12         data_area = html.xpath('//tr[@id="places_area__row"]/td[@class="w2p_fw"]/text()')
13         data_all = ['國家：'+data_country[0],'首都：'+data_capital[0],'國土面積：'+data_area[0]]
14         return data_all
15         # print(html_data)
16 
17     def save_result(self,result):
18         print(type(result),result)
19         for r in result:
20             r = r + '\n'
21             with open('./country.txt','ab') as f:
22                 f.write(r.encode('utf-8'))
23         # with open('./country.txt','ab') as f:
24         #     f.writelines(result)
25     def run(self):
26         result = self.download_url(self.url_base)
27         self.save_result(result)
28 
29 
30 if __name__ == '__main__':
31     # c = CountrySpider('Bolivia-27')
32     # c.run()
33     s = CountrySoup('Bolivia-27')
34     s.download_url()

Python爬蟲入門級別的三個案例教程

貼吧爬取寫程式碼前，構思需要的功能塊；寫程式碼時，把各個功能模組名提前寫好初始化初始化必要引數，完成基礎設定爬取百度貼吧lol吧：爬取地址中的get引數須傳遞(可以指定不同主題的貼吧和頁碼) 主題名初始網址請求頭生成網址生成每一頁的

python爬蟲入門（三）XPATH和BeautifulSoup4

XML和XPATH 用正則處理HTML文件很麻煩，我們可以先將 HTML檔案轉換成 XML文件，然後用 XPath 查詢 HTML 節點或元素。 XML 指可擴充套件標記語言（EXtensible Markup Language） XML 是一種標記語言，很類似 HTML XML 的設計宗旨是

【Python】打響2019年第三炮-Python爬蟲入門（三）

打響2019年第三炮-Python爬蟲入門今晚喝了點茶，也就是剛剛，喝茶過程中大腦中溢位一個想法，茶中有茶葉，也有茶水，在茶水入口的一瞬間我不能直接喝進去，因為直接喝進去會帶著茶葉喝進去會很難受。這可能是一句廢話。本章主要解決第一炮、第二炮遺留下來的問題，該如何

python爬蟲入門---第三篇：自動下載圖片

等待部分 app class 請您 pictures string fin from 適用的圖片網站：美桌 import requests import re import urllib from bs4 import BeautifulSoup def get_ht

Python爬蟲入門教程 8-100 蜂鳥網圖片爬取之三

asyncio esp 分享圖片 0.10 結果 .text win int lang 啰嗦兩句前幾天的教程內容量都比較大，今天寫一個相對簡單的，爬取的還是蜂鳥，依舊采用aiohttp 希望你喜歡爬取頁面https://tu.fengniao.com/15/ 本篇教程還

Python爬蟲入門三之Urllib庫的基本使用

res 瀏覽器中必須答案文件的網頁 one .com 屏幕截圖 1.分分鐘扒一個網頁下來怎樣扒網頁呢？其實就是根據URL來獲取它的網頁信息，雖然我們在瀏覽器中看到的是一幅幅優美的畫面，但是其實是由瀏覽器解釋才呈現出來的，實質它是一段HTML代碼，加 JS、CSS

python爬蟲入門之————————————————案例演練

原始碼 """ Version 1.1.0 Author lkk Email [email protected] date 2018-11-25 18:39 DESC 電影天堂 """ # https://www.dy2018.com/ from urllib import

Python爬蟲入門教程 4-100 美空網未登入圖片爬取

簡介上一篇寫的時間有點長了，接下來繼續把美空網的爬蟲寫完，這套教程中編寫的爬蟲在實際的工作中可能並不能給你增加多少有價值的技術點，因為它只是一套入門的教程，老鳥你自動繞過就可以了，或者帶帶我也行。爬蟲分析首先，我們已經爬取到了N多的使用者個人主頁，我通過連結拼接獲取到了 www.moko.cc/

Python爬蟲入門教程——致敬博主夢想橡皮擦

@夢想橡皮擦是你的部落格自動評論“謝謝博主分享”把我帶入了爬蟲的世界，僅以此篇部落格表示敬意！基礎知識：網路爬蟲是一種高效地資訊採集利器，利用它可以快速、準確地採集網際網路上的各種資料資源，幾乎已經成為大資料時代IT從業者的必修課。簡單點說，網路爬蟲就是獲取網頁並提取和儲存資訊的

這可能是最囉嗦的Python爬蟲入門教程了 5-100

重要的事情說100遍：爬蟲入門，爬蟲入門，爬蟲入門，爬蟲入門，爬蟲入門，爬蟲入門，爬蟲入門，爬蟲入門爬蟲入門，爬蟲入門，爬蟲入門，爬蟲入門，爬蟲入門，爬蟲入門，爬蟲入門，爬蟲入門爬蟲入門，爬蟲入門，爬蟲入門，爬蟲入門，爬蟲入門，爬蟲入門，爬蟲入門，爬蟲入門獲取

這可能是最囉嗦的Python爬蟲入門教程了 6-100

1. 簡介國慶假日結束了，新的工作又開始了，今天我們繼續爬取一個網站，這個網站為 http://image.fengniao.com/ ，蜂鳥一個攝影大牛聚集的地方，本教程請用來學習，不要用於商業目的，不出意外，蜂鳥是有版權保護的網站。 2. 網站分析

Python爬蟲入門教程 3-100 美空網資料爬取

簡介從今天開始，我們嘗試用2篇部落格的內容量，搞定一個網站叫做“美空網”網址為：http://www.moko.cc/，這個網站我分析了一下，我們要爬取的圖片在下面這個網址 http://www.moko.cc/post/1302075.html 然後在去分析一下，我需要找到一個圖片列表

Python爬蟲入門教程 3-100 美空網數據爬取

個數 exception 意思消費時間模塊 intel insert -o switch 簡介從今天開始，我們嘗試用2篇博客的內容量，搞定一個網站叫做“美空網”網址為：http://www.moko.cc/，這個網站我分析了一下，我們要爬取的圖片在下面這個網址

這可能是最囉嗦的Python爬蟲入門教程了 8-100

囉嗦兩句前幾天的教程內容量都比較大，今天寫一個相對簡單的，爬取的還是蜂鳥，依舊採用aiohttp 希望你喜歡爬取頁面https://tu.fengniao.com/15/ 本篇教程還是基於學習的目

Python爬蟲入門教程 2-100 妹子圖網站爬取

字典註意 while import 我們分鐘基礎便是訪問前言從今天開始就要擼起袖子，直接寫Python爬蟲了，學習語言最好的辦法就是有目的的進行，所以，接下來我將用10+篇的博客，寫爬圖片這一件事情。希望可以做好。為了寫好爬蟲，我們需要準備一個火狐瀏覽器，還

Python爬蟲入門教程 9-100 河北陽光理政投訴板塊

寫在前面之前幾篇文章都是在寫圖片相關的爬蟲，今天寫個留言板爬出，為另一套資料分析案例的教程做做準備，作為一個河北人，遵紀守法，有事投訴是必備的技能，那麼咱看看我們大河北人都因為什麼投訴過呢？今天要爬取的網站地址 http://yglz.tousu.hebne

15分鐘快速入門Python套路！這7個案例值得一看

有人用Python從各大視訊網站下視訊，有人成功用Python跳一跳跳到4999，有人用Python撩妹子，還有人設計了一套程式碼自動搶紅包... 俗話說外行看熱鬧，內行看門道，我們已經知道了python的火熱情況，但是學一門程式語言是需要花大量精力的，所以我們最關心的還是

Python爬蟲入門教程 15-100 石家莊政民互動資料爬取

寫在前面今天，咱抓取一個網站，這個網站呢，涉及的內容就是網友留言和回覆，特別簡單，但是網站是gov的。網址為 http://www.sjz.gov.cn/col/1490066682000/index.html 首先宣告，為了學習，絕無惡意抓取資訊，不管

Python爬蟲入門教程 4-100 美空網未登錄圖片爬取

表數價值圖片下載開發所有圖片 mpi focus .data data 簡介上一篇寫的時間有點長了，接下來繼續把美空網的爬蟲寫完，這套教程中編寫的爬蟲在實際的工作中可能並不能給你增加多少有價值的技術點，因為它只是一套入門的教程，老鳥你自動繞過就可以了，或者帶帶我也

Python爬蟲入門教程 5-100 27270圖片爬取

retrying ont star 都是 ram emp ret afa else 獲取待爬取頁面今天繼續爬取一個網站，http://www.27270.com/ent/meinvtupian/ 這個網站具備反爬，so我們下載的代碼有些地方處理的也不是很到位，大家重點

Python爬蟲入門級別的三個案例教程

貼吧爬取

初始化

生成網址

下載

儲存

控制流程

原始碼

爬取糗事百科

爬取網站資訊

BeautifulSoup方式

lxml方式

相關推薦