爬蟲實踐

阿新 • • 發佈：2018-03-26

str members tor nts rip odi 包含 header accep

1.URL爬取

　　爬取一個站點的所有URL，大概有以下步驟：

　　1.確定好要爬取的入口鏈接。

　　2.根據需求構建好鏈接提取的正則表達式。

　　3.模擬成瀏覽器並爬取對應的網頁。

　　4.根據2中的正則表達式提取出該網頁中包含的鏈接。

　　5.過濾重復的鏈接。

　　6.後續操作，打印鏈接或存到文檔上。

　　這裏以獲取 https://blog.csdn.net/ 網頁上的鏈接為例，代碼如下：

 1 import re
 2 import requests
 3 
 4 def get_url(master_url):
 5     header = {
 6         ‘Accept‘:‘ 
text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8‘,
 7         ‘Accept-Encoding‘:‘gzip, deflate, br‘,
 8         ‘Accept-Language‘:‘zh-CN,zh;q=0.9‘,
 9         ‘Cache-Control‘:‘max-age=0‘,
10         ‘Connection‘:‘keep-alive‘,
11         ‘Cookie‘:‘uuid_tt_dd=10_20323105120-1520037625308-307643; __yadk_uid=mUVMU1b33VoUXoijSenERzS8A3dUIPpA; Hm_lvt_6bcd52f51e9b3dce32bec4a3997715ac=1521360621,1521381435,1521382138,1521382832; dc_session_id=10_1521941284960.535471; TY_SESSION_ID=7f1313b8-2155-4c40-8161-04981fa07661; ADHOC_MEMBERSHIP_CLIENT_ID1.0=51691551-e0e9-3a5e-7c5b-56b7c3f55f24; dc_tos=p64hf6 
‘,
12         ‘Host‘:‘blog.csdn.net‘,
13         ‘Upgrade-Insecure-Requests‘:‘1‘,
14         ‘User-Agent‘:‘Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/64.0.3282.186 Safari/537.36‘
15     }
16     patten = r‘https?://[^\s]*‘
17     requests.Encoding = ‘utf-8‘
18     response = requests.get(url=master_url,headers=header)
 
19     text = response.text
20     result = re.findall(patten,text)
21     result = list(set(result))
22     url_list = []
23     for i in result:
24         url_list.append(i.strip(‘"‘))#過濾掉url中的"
25     return url_list
26 
27 url = get_url("https://blog.csdn.net/")
28 print(url,len(url))
29 for u in url:
30     with open(‘csdn_url.txt‘,‘a+‘) as f:
31         f.write(u)
32         f.write(‘\n‘)

打印結果：

技術分享圖片

2.糗事百科

　　具體思路如下：

　　1.分析網頁間的網址規律，構建網址變量，並可以通過for循環實現多頁面內容的爬取。

　　2.構建函數，提取用戶以及用戶的內容。

　　3.獲取URL，調用函數，獲取到段子。

 1 import requests
 2 from lxml import html
 3 
 4 def get_content(page):
 5     header = {
 6         ‘Accept‘:‘text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8‘,
 7         ‘Accept-Encoding‘:‘gzip, deflate, br‘,
 8         ‘Accept-Language‘:‘zh-CN,zh;q=0.9‘,
 9         ‘Cache-Control‘:‘max-age=0‘,
10         ‘Connection‘:‘keep-alive‘,
11         ‘Cookie‘:‘_xsrf=2|bc420b81|bc50e4d023b121bfcd6b2f748ee010e1|1521947174; Hm_lvt_2670efbdd59c7e3ed3749b458cafaa37=1521947176; Hm_lpvt_2670efbdd59c7e3ed3749b458cafaa37=1521947176‘,
12         ‘Host‘:‘www.qiushibaike.com‘,
13         ‘If-None-Match‘:"91ded28d6f949ba8ab7ac47e3e3ce35bfa04d280",
14         ‘Upgrade-Insecure-Requests‘:‘1‘,
15         ‘User-Agent‘:‘Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/64.0.3282.186 Safari/537.36‘,
16     }
17     requests.Encoding=‘utf-8‘
18     url_=‘https://www.qiushibaike.com/8hr/page/%s/‘%page
19     response = requests.get(url=url_,headers=header)
20     selector = html.fromstring(response.content)
21     users = selector.xpath(‘//*[@id="content-left"]/div/div[1]/a[2]/h2/text()‘)
22     contents = []
23     #獲取每條段子的全部內容
24     for x in range(1,25):
25         content = ‘‘
26         try:
27             content_list = selector.xpath(‘//*[@id="content-left"]/div[%s]/a/div/span/text()‘%x)
28             if isinstance(content_list,list):
29                 for c in content_list:
30                     content += c.strip(‘\n‘)
31             else:
32                 content = content_list
33             contents.append(content)
34         except:
35             raise ‘該頁沒有25條段子‘
36     result = {}
37     i = 0
38     for user in users:
39         result[user.strip(‘\n‘)] = contents[i].strip(‘\n‘)
40         i += 1
41     return result
42 if __name__ == ‘__main__‘:
43     for i in range(1,5):
44         get_content(i)

打印結果：

技術分享圖片

3.微信公眾號文章爬取

搜狗的微信搜索平臺 http://weixin.sogou.com/ ，搜索Python，通過URL http://weixin.sogou.com/weixin?query=python&type=2&page=2&ie=utf8 分析搜索關鍵詞為query，分頁為page，為此已經可以構造出此次爬蟲的主URL。

接下來分析文章的URL：

技術分享圖片

可以獲取到文章URL的xpath：//*[@class="news-box"] /ul/li/div[2]/h3/a/@href

這裏大量訪問很容易被封IP，所有我們在requests請求中添加了代理參數 proxies

 1 import requests
 2 from lxml import html
 3 import random
 4 
 5 def get_weixin(page):
 6     url = "http://weixin.sogou.com/weixin?query=python&type=2&page=%s&ie=utf8"%page
 7     header = {
 8         ‘Accept‘:‘text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8‘,
 9         ‘Accept-Encoding‘:‘gzip, deflate‘,
10         ‘Accept-Language‘:‘zh-CN,zh;q=0.9‘,
11         ‘Cache-Control‘:‘max-age=0‘,
12         ‘Connection‘:‘keep-alive‘,
13         ‘Cookie‘:‘SUV=1520147372713631; SMYUV=1520147372713157; UM_distinctid=161efd81d192bd-0b97d2781c94ca-454c062c-144000-161efd81d1b559; ABTEST=0|1521983141|v1; IPLOC=CN4403; SUID=CADF1E742423910A000000005AB79EA5; SUID=CADF1E743020910A000000005AB79EA5; weixinIndexVisited=1; sct=1; SNUID=E3F7375C282C40157F7CE81D2941A5AD; JSESSIONID=aaaXYaqQLrCiqei2IKOiw‘,
14         ‘Host‘:‘weixin.sogou.com‘,
15         ‘Referer‘:url,
16         ‘Upgrade-Insecure-Requests‘:‘1‘,
17         ‘User-Agent‘:‘Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/64.0.3282.186 Safari/537.3‘
18     }
19     requests.Encoding=‘utf-8‘
20     proxy_list = get_proxy()
21     #使用代理並嘗試請求，直到成功
22     while True:
23         proxy_ip = random.choice(proxy_list)
24         try:
25             response = requests.get(url=url,headers=header,proxies=proxy_ip).content
26             selector = html.fromstring(response)
27             content_url = selector.xpath(‘//*[@class="news-box"] /ul/li/div[2]/h3/a/@href‘)
28             break
29         except:
30             continue
31     return content_url
32 
33 def get_proxy(url=‘http://api.xicidaili.com‘):
34     requests.Encoding=‘utf-8‘
35     header = {
36         ‘Accept‘:‘text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8‘,
37         ‘Accept-Encoding‘:‘gzip, deflate‘,
38         ‘Accept-Language‘:‘zh-CN,zh;q=0.9‘,
39         ‘Cache-Control‘:‘max-age=0‘,
40         ‘Connection‘:‘keep-alive‘,
41         ‘Cookie‘:‘_free_proxy_session=BAh7B0kiD3Nlc3Npb25faWQGOgZFVEkiJTE1MWEzNGE0MzE1ODA3M2I3MDFkN2RhYjQ4MzZmODgzBjsAVEkiEF9jc3JmX3Rva2VuBjsARkkiMWZNM0MrZ0xic09JajRmVGpIUDB5Q29aSSs3SlAzSTM4TlZsLzNOKzVaQkE9BjsARg%3D%3D--eb08c6dcb3096d2d2c5a4bc77ce8dad2480268bd; Hm_lvt_0cf76c77469e965d2957f0553e6ecf59=1521984682; Hm_lpvt_0cf76c77469e965d2957f0553e6ecf59=1521984778‘,
42         ‘Host‘:‘www.xicidaili.com‘,
43         ‘If-None-Match‘:‘W/"df77cf304c5ba860bd40d8890267467b"‘,
44         ‘Referer‘:‘http://www.xicidaili.com/api‘,
45         ‘Upgrade-Insecure-Requests‘:‘1‘,
46         ‘User-Agent‘:‘Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/64.0.3282.186 Safari/537.3‘
47     }
48     response = requests.get(url=url,headers=header).content
49     selector = html.fromstring(response)
50     proxy_list = selector.xpath(‘//*[@id="ip_list"]/tr/td[2]/text()‘)
51     return proxy_list
52 
53 
54 if __name__ == ‘__main__‘:
55     for i in range(1,10):
56         print(get_weixin(i))

通過這個爬蟲，學會了如何使用代理IP請求。

爬蟲實踐

爬蟲實踐---排行榜小說批量下載

timeout nis title name 十倍 == mini 好的線程一、目標排行榜的地址：http://www.qu.la/paihangbang/ 找到各類排行旁的的每一部小說的名字，和在該網站的鏈接。二、觀察網頁的結構很容易就能發現，每一個分類都

爬蟲實踐---電影排行榜和圖片批量下載

.com sts mat 模式 filename ise 主演 any cto 1.目標網址：http://dianying.2345.com/top/ 需要找到的信息：電影的名字，主演，簡介，和標題圖片 2.查看頁面結構：容易看到，需要的主題部分，都被包裹在&ls

爬蟲實踐---悅音臺mv排行榜與簡單反爬蟲技術應用

代碼 int logs 1.8 mac for html req 3.5 由於要抓取的是悅音臺mv的排行榜，這個排行榜是實時更新的，如果要求不停地抓取，這將有可能導致悅音臺官方采用反爬蟲的技術將ip給封掉。所以這裏要應用一些反爬蟲相關知識。目標網址：http://vcha

爬蟲實踐

str members tor nts rip odi 包含 header accep 1.URL爬取　　爬取一個站點的所有URL，大概有以下步驟：　　1.確定好要爬取的入口鏈接。　　2.根據需求構建好鏈接提取的正則表達式。　　3.模擬成瀏覽器並爬取對應的網頁。　

Python爬蟲實踐 -- 記錄我的第一只爬蟲

width 進入 color spa alt ads python3 我們 round 一、環境配置 1. 下載安裝 python3 2. 安裝requests和lxml 進入到 pip 目錄，CMD --> C:\Python\Scripts，輸入命令： pip

爬蟲實踐之爬蟲框架Scrapy安裝

1.爬蟲框架Scarpy Scrapy 是一個快速的高層次的螢幕抓取和網頁爬蟲框架，爬取網站，從網站頁面得到結構化的資料，它有著廣泛的用途，從資料探勘到監測和自動測試，Scrapy完全用Python實現，完全開源，程式碼託管在Github上，可執行在Linux，Windows，Mac和BS

python爬蟲實踐——零基礎快速入門（二）爬取豆瓣電影

爬蟲又稱為網頁蜘蛛，是一種程式或指令碼。但重點在於，它能夠按照一定的規則，自動獲取網頁資訊。爬蟲的基本原理——通用框架 1.挑選種子URL； 2.講這些URL放入帶抓取的URL列隊； 3.取出帶抓取的URL，下載並存儲進已下載網頁庫中。此外，講這些URL放入帶抓取UR

十幾年來總結的最經典的專案，用來作為python爬蟲實踐教學！

一、前言這篇文章之前是給新人培訓時用的，大家覺的挺好理解的，所以就分享出來，與大家一起學習。如果你學過一些python，想用它做些什麼又沒有方向，不妨試試完成下面幾個案例。二、環境準備安裝requests lxml beautifulsoup4 三個庫（下面程式碼

Python爬蟲實踐 -- 記錄我的第二隻爬蟲

1、爬蟲基本原理我們爬取中國電影最受歡迎的影片《紅海行動》的相關資訊。其實，爬蟲獲取網頁資訊和人工獲取資訊，原理基本是一致的。人工操作步驟： 1. 獲取電影資訊的頁面 2. 定位（找到）到評分資訊的位置 3. 複製、儲存我們想要的評分資料爬蟲操作步驟：

Python3_爬蟲實踐（爬取電子書）

一、我的小書屋　　這個爬蟲能爬取　　http://mebook.cc/　　網站的電子書下載路徑。（只是小練習，侵刪）　　爬取網站使用了　　BeautifulSoup　　進行解析，二、爬取原始碼 1 #!/usr/bin/python 2 # -*- c

Python爬蟲實踐：獲取石家莊空氣質量歷史資料（13年至今）

from urllib.request import urlopen from bs4 import BeautifulSoup import re import numpy import csv import time def getdatawithtablehead(url): ""

[Prac] 簡單的爬蟲實踐

（源自《實用資料分析》(原書第2版)，網站更新後原文程式碼不能用了所以自己寫了個小爬蟲） 1.網頁分析開發人員工具（F12）用自帶的元素定位檢視到該內容的兩個標籤 <class="asset ask"> 和 <class="value"&g

Python爬蟲--- 1.5 爬蟲實踐：獲取百度貼吧內容

原文連結：https://www.fkomm.cn/article/2018/7/22/21.html 經過前期大量的學習與準備，我們重要要開始寫第一個真正意義上的爬蟲了。本次我們要爬取的網站是：百度貼吧，一個非常適合新人練手的地方，那麼讓我們開始吧。本次要爬的貼吧是<< 西

Python爬蟲 --- 2.5 Scrapy之汽車之家爬蟲實踐

原文連結：https://www.fkomm.cn/article/2018/8/7/32.html 目的 Scrapy框架為檔案和圖片的下載專門提供了兩個Item Pipeline 它們分別是： FilePipeline ImagesPipeline 這裡主要介紹ImagesPipel

python爬蟲實踐——零基礎快速入門（四）爬取小豬租房資訊

接下來我們爬取小豬短租租房資訊。進入主頁後選擇深圳地區的位置。地址如下： http://sz.xiaozhu.com/ 一，標題爬取按照慣例，我們先複製標題的xpath資訊，多複製幾個進行對比： //*[@id="page_list"]/ul/li[1]/

Python2.7 爬蟲實踐：豆瓣電影影評分析

#避免uncode出現在雲圖，所以我直接將結果儲存為str for i in range(10): num = i + 1 if pageNum >0 : start =(num-1) * 20 else:

Python3爬蟲實踐——QQ空間自動點贊程式（下）

（發完上一篇部落格之後，觀察了一個星期發現閱讀量遲遲突破不了50大關，藍瘦香菇+心疼自己T.T，於是果然又找到了各種拖延的理由，剛才登部落格的時候突然發現有人評論期待我的下篇，立馬精神振奮！開始敲字。） ——————————————————————————————

python爬蟲實踐----爬取京東圖片

爬蟲思路： 1.分析url: http://list.jd.com/list.html?cat=9987,653,655&page=1 # url只有page變化，而page代表了頁數

C#爬蟲實踐

courier 原則 spl odi tex 單個了解 ios enc 　　忘了什麽時候加的，iPad上的人人視頻追劇了《我的天才女友》，沒事的時候看了下，感覺還不錯，進一步了解到原著那不勒斯四部曲，感覺視頻進度有些慢，就想找找書看看，一時沒找到【PS：購買實體書四十多塊

Java爬蟲實踐：Jsoup+HttpUnit爬取今日頭條、網易、搜狐、鳳凰新聞

0x0 背景最近學習爬蟲，分析了幾種主流的爬蟲框架，決定使用最原始的兩大框架進行練手： Jsoup&HttpUnit 其中jsoup可以獲取靜態頁面，並解析頁面標籤，最主要的是，可以採用類似於jquery的語法獲取想要的標籤元素，例如： /

爬蟲實踐

相關推薦