爬蟲——三個小實戰

阿新 • • 發佈：2018-09-21

操作 aik x64 函數 win 調用 pan 添加 {}

貼吧爬取

寫代碼前，構思需要的功能塊；寫代碼時，把各個功能模塊名提前寫好

初始化

初始化必要參數，完成基礎設置爬取百度貼吧lol吧：爬取地址中的get參數須傳遞(可以指定不同主題的貼吧和頁碼)

主題名
初始網址
請求頭

生成網址

生成每一頁的路由地址

根據列表生成式生成多個頁面的地址

下載

get請求給每一頁的地址，爬取頁面

保存

保存爬取結果到文件中，把每一頁爬取結果寫入到對應名字的文件中

控制流程

將以上爬取操作封裝到run函數中，方便外部對象調用，以後會在此添加多線程

生成要爬取的每一頁的路由地址
通過for循環遍歷每一個路由地址
對每個路由地址進行爬取和獲取頁碼操作，並進行保存

源碼

 1 import requests
 2 
 3 class TiebaSpider:
 4     def __init__(self, tieba_name_crawl):
 5         """
 6         初始化必要參數，完成基礎設置
 7         爬取百度貼吧lol吧：爬取地址中的get參數須傳遞(可以指定不同主題的貼吧和頁碼)
 8         """
 9         self.tieba_name = tieba_name_crawl
10         self.url_base = ‘https://tieba.baidu.com/f?kw= 
‘ + tieba_name_crawl + ‘&ie=utf-8&pn={}‘
11         self.headers = {‘User-Agent‘: ‘Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:61.0) Gecko/20100101 Firefox/61.0‘}
12 
13     def make_url(self):
14         """
15         生成每一頁的路由地址
16         :return:(列表生成式)
17         """
18         return [self.url_base.format(i) for 
 i in range(4)]
19 
20     def download_url(self, url_str):
21         """
22         get請求給每一頁的地址，爬取頁面
23         :param url_str: 每一頁的路由地址
24         :return: 爬取的結果
25         """
26         result = requests.get(url_str, headers=self.headers)
27         return result.text
28 
29     def save_result(self, result, page_num):
30         """
31         保存爬取結果到文件中
32         :param result: 每一頁的爬取結果
33         :param page_num: 頁碼，方便分類保存
34         :return: 把每一頁爬取結果寫入到對應名字的文件中
35         """
36         # with open(‘./download/lol‘ + str(page_num) + ‘.html‘, ‘ab‘) as f:
37         #     f.write(result.encode(‘utf-8‘))
38         file_path = ‘./download/{}~第{}頁.html‘.format(self.tieba_name,page_num)
39         with open(file_path,‘wb‘) as f:
40             f.write(result.encode(‘utf-8‘))
41 
42     def run(self):
43         """
44         將以上爬取操作封裝到run函數中，方便外部對象調用，以後會在此添加多線程
45         · 生成要爬取的每一頁的路由地址
46         · 通過for循環遍歷每一個路由地址
47         · 對每個路由地址進行爬取和獲取頁碼操作，並進行保存
48         :return:
49         """
50         url_lists = self.make_url()
51         for url_str in url_lists:
52             result_str = self.download_url(url_str)
53             p_num = url_lists.index(url_str) + 1
54             self.save_result(result=result_str,page_num=p_num)
55 
56 if __name__ == ‘__main__‘:
57     tieba_spider = TiebaSpider(‘lol‘)
58     tieba_spider.run()

爬取糗事百科

 1 import requests
 2 from bs4 import BeautifulSoup
 3 import lxml.html
 4 
 5 class QiushiSpider:
 6     def __init__(self):
 7         """
 8         初始化必要參數，完成基礎設置
 9         """
10         # self.tieba_name = qiushi_name_crawl
11         # https: // www.qiushibaike.com / 8
12         # hr / page / 2 /
13         self.url_base = ‘https://www.qiushibaike.com/8hr/page/{}/‘
14         # self.url_base = ‘https://tieba.baidu.com/f?kw=‘ + qiushi_name_crawl + ‘&ie=utf-8&pn={}‘
15         self.headers = {‘User-Agent‘: ‘Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:61.0) Gecko/20100101 Firefox/61.0‘}
16 
17     def make_url(self):
18         return [self.url_base.format(i) for i in range(4)]
19 
20     def download_url(self, url_str):
21         result = requests.get(url_str, headers=self.headers)
22         #----------
23         # html = lxml.html.fromstring(result.text)
24         # html_data = html.xpath(‘//div[@class="content"]/span[1]/text()‘)
25         # data_all = []
26         # # for h in html_data:
27         # #     data_all.append(h)
28         # return html_data
29         #-----------
30         return result.text
31 
32     def save_result(self, result, page_num):
33         with open(‘./download/qiushi‘ + str(page_num) + ‘.html‘, ‘ab‘) as f:
34             f.write(result.encode(‘utf-8‘))
35 
36 
37 # qiushi = QiushiSpider()
38 # qiushi_url = qiushi.make_url()
39 # j = 1
40 # for i in qiushi_url:
41 #     qiushi_text = qiushi.download_url(url_str=i)
42 #     qiushi.save_result(result=qiushi_text, page_num=j)
43 #     j += 1

爬取國家信息

BeautifulSoup方式

 1 import requests
 2 from bs4 import BeautifulSoup
 3 class CountrySoup:
 4     def __init__(self,country_name):
 5         self.country_name = country_name
 6         self.url_base = ‘http://example.webscraping.com/places/default/view/{}‘.format(self.country_name)
 7         self.headers = {‘User-Agent‘: ‘Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:61.0) Gecko/20100101 Firefox/61.0‘,}
 8 
 9     def download_url(self):
10         result = requests.get(self.url_base,headers=self.headers)
11         soup = BeautifulSoup(result.text,‘lxml‘)
12         tr = soup.find(attrs={‘id‘:"places_country__row"})
13         print(tr,type(tr))
14         td = tr.find(attrs={‘class‘:"w2p_fw"})
15         print(td,type(td))
16 
17         print(td.text)

lxml方式

 1 class CountrySpider:
 2     def __init__(self,country_name):
 3         self.country_name = country_name
 4         self.url_base = ‘http://example.webscraping.com/places/default/view/{}‘.format(self.country_name)
 5         self.headers = {‘User-Agent‘: ‘Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:61.0) Gecko/20100101 Firefox/61.0‘,}
 6 
 7     def download_url(self,url_str):
 8         result = requests.get(url_str,headers=self.headers)
 9         html = lxml.html.fromstring(result.text)
10         data_country = html.xpath(‘//tr[@id="places_country__row"]/td[@class="w2p_fw"]/text()‘)
11         data_capital = html.xpath(‘//tr[@id="places_capital__row"]/td[@class="w2p_fw"]/text()‘)
12         data_area = html.xpath(‘//tr[@id="places_area__row"]/td[@class="w2p_fw"]/text()‘)
13         data_all = [‘國家：‘+data_country[0],‘首都：‘+data_capital[0],‘國土面積：‘+data_area[0]]
14         return data_all
15         # print(html_data)
16 
17     def save_result(self,result):
18         print(type(result),result)
19         for r in result:
20             r = r + ‘\n‘
21             with open(‘./country.txt‘,‘ab‘) as f:
22                 f.write(r.encode(‘utf-8‘))
23         # with open(‘./country.txt‘,‘ab‘) as f:
24         #     f.writelines(result)
25     def run(self):
26         result = self.download_url(self.url_base)
27         self.save_result(result)
28 
29 
30 if __name__ == ‘__main__‘:
31     # c = CountrySpider(‘Bolivia-27‘)
32     # c.run()
33     s = CountrySoup(‘Bolivia-27‘)
34     s.download_url()

爬蟲——三個小實戰

操作 aik x64 函數 win 調用 pan 添加 {} 貼吧爬取寫代碼前，構思需要的功能塊；寫代碼時，把各個功能模塊名提前寫好初始化初始化必要參數，完成基礎設置爬取百度貼吧lol吧：爬取地址中的get參數須傳遞(可以指定不同主題的貼吧和頁碼) 主題名

利用content為伊特元素追加三個小點

eight size style pan highlight true ext let height 案例代碼： <span class="seven"></span> <style type="text/css"> .seven:a

紅樓夢裏妙玉為何只請黛玉寶釵喝茶不請寶玉？她藏了三個小心思！

不錯 -o 高品質生活什麽除了個人朋友 pac 搜狐妙玉是大觀園非常特立獨行的姑娘，她不介意大家說她眼高於頂、目中無人，她只保持本心、交自己喜歡的朋友，做自己覺得對的事情，這樣的妙玉反倒顯得與眾不同。妙玉最隆重的一次出場就是賈母帶著大家到櫳翠庵喝茶

前端基礎之BOM和DOM和三個小示例(計時器、搜尋框、select聯動)

一、BOM和DOM JavaScript分為 ECMAScript，DOM，BOM。 BOM（Browser Object Model）是指瀏覽器物件模型，它使 JavaScript 有能力與瀏覽器進行“對話”。 DOM （Document Object Model）是指文件物件模型，通過它，

Charles抓包三個小技巧：抓取Https、重定向某域名、限流

一、抓取Https--以Android平臺為例，其他平臺類似：總計三步： 1.PC端charles安裝CA證書開啟charles help-->SSL Proxying-->Install Charles Root Certificate，下圖為安好的證書：

初學C語言（6）:三個小程式

//楊輝三角 #include using namespace std; #define p 10 void yanghui(int(*brr)[10]) { int j; int i = 0; for (i = 0;i < p;i++) { for (j = 0

實驗5.1（舊），寫出一個由一個主函數和三個小函數組成的程序，該程序可以從某一字符串中刪除指定字符。

using span ring font 修改 mes out 部分 nbsp 實驗目的：輸入一串字符，再輸入一個指定字符，將字符串中刪去指定字符再顯示出來。要求程序把輸入字符串、刪除指定字符和顯示字符串的功能分別在各自單獨的.cpp文件由外部函數來處理，主文件中

怎樣才能領到支付寶大紅包？這三個小技巧屢試不爽！

支付寶紅包領到的金額是大還是小主要取決於三個方面：支付寶活動的力度、領取時間與領取的方式等！很多人說“我每天都在領，為何支付寶紅包都只有幾毛”？的確，在沒有掌握技巧前，幾十上百的紅包確實是可遇而不可求！那麼究竟有沒有穩妥的支付寶大紅包領取技巧？答案是有的！　　小編就不多廢話了，下面是乾貨！

紅樓夢裡妙玉為何只請黛玉寶釵喝茶不請寶玉？她藏了三個小心思！

妙玉是大觀園非常特立獨行的姑娘，她不介意大家說她眼高於頂、目中無人，她只保持本心、交自己喜歡的朋友，做自己覺得對的事情，這樣的妙玉反倒顯得與眾不同。妙玉最隆重的一次出場就是賈母帶著大家到櫳翠庵喝茶，妙玉在招呼好大家喝茶之後，便單獨請寶釵和黛玉喝茶，這次喝茶非常的有趣，其

移動端web頁面開發中遇到的三個“小坑”

目前自己接觸的移動端專案很有限，所以發現的坑不是那麼多，暫時只記錄下最近在解決的“小坑”。一、簡單的移動端頁面最好不用JS外掛在開發中使用自己熟悉的框架或者外掛對自己的開發效率幫助是很大的，但是

css溢位影藏然後顯示三個小點

1.實現單行文字的溢位顯示省略號 { overflow: hidden;text-overflow:ellipsis;white-space: nowrap;} 2.實現多行溢位顯示省略號（因使用了WebKit的CSS擴充套件屬性，該方法適用於WebKit瀏覽器及移動端

一個大divl裡三個小div水平均勻分佈

效果圖：程式碼： css程式碼： .mainDiv { float: left; margin-left: 10%; width: 80%; margin-top: 2%; height: 200px;

三個小白是如何在三個月內搭一個基於kaldi的嵌入式線上語音識別系統的

前面的部落格裡說過最近幾個月我從傳統語音（語音通訊）切到了智慧語音（語音識別）。剛開始是學語音識別領域的基礎知識，學了後把自己學到的寫了PPT給組內同學做了presentation（語音識別傳統方法(GMM+HMM+NGRAM)概述）。一段時間後老闆就佈置了具體任務：在我們公司自己的ARM晶片上基於kaldi

論文格式修改不得不知道的三個小訣竅

相信很多同學在馬上要定稿的時候，都會十分頭疼格式問題，那些字型字號間距，縮排以及頁首頁尾彷彿永遠也改不完，也改不對，下面輔導員將

給學習Linux系統小白的兩三個建議

性價比 linux 前段時間看過一個針對國內Linux使用情況的調研表，有了不少感慨。現在聽說過linux,會一點linux基本操作的人多如牛毛,然而真正能用linux做一點事情的確少之又少。無論是公司還是學校，辦公基本上都基於win。這也造成了國人不習慣接觸linux的主要原因。看到好多人，學了點基

有一對兔子，從出生後第3個月起每個月都生一對兔子，小兔子長到第三個月後每個月又生一對兔子，假如兔子都不死，問每個月的兔子總數為多少？

package src pac spa scanner span warnings warning resource 分析：第一個月-----------------1 第二個月-----------------1 第三個月-----------------2 第四個月-

案例三：小明左右手分別拿兩張紙牌：黑桃10和紅心8，現在交換手中的牌。編寫一個程序模擬這一個過程：兩個整數分別保存在兩個變量中，將這兩個變量的值互換，並輸出互換後的結果。

nbsp 一個 span right static http 變量 pub left package project_03; /** * 2018-9-7 20:19:59 * @author Sauron XiaMen * */ public class Cha

java：接受用戶從鍵盤輸入的三個整數，並輸出最大值和最小值

scan out sca system () 最小值 public tin 代碼 import java.util.Scanner 從鍵盤輸入要在開頭聲明這個。 Scnner in=new Scanner(Syetem.in); 聲明Scnner類型的in 如果要從鍵盤輸入

桌面小部件Wight父類AppWidgetProvider的三個方法

操作 start 可見 ext 更新布局等等 idg appwidget onUpdate（）這個方法會在每次更新App Widget的時候調用，數據更新的邏輯都寫在這個方法裏邊。而且要註意的是：在用戶添加小部件的時候，會首先調用這個方法，應該在這個方法裏進行初始化操

小程式輪播圖顯示三個資料

//專家團隊 getZhuanjia: function () { var that = this; app.util.request({ "url": "entry/wxapp/YuZhuanjia", success: function (res) {

爬蟲——三個小實戰

貼吧爬取

初始化

生成網址

下載

保存

控制流程

源碼

爬取糗事百科

爬取國家信息

BeautifulSoup方式

lxml方式

相關推薦