1. 程式人生 > 程式設計 >Python3爬蟲裡關於Splash負載均衡配置詳解

Python3爬蟲裡關於Splash負載均衡配置詳解

用Splash做頁面抓取時,如果爬取的量非常大,任務非常多,用一個Splash服務來處理的話,未免壓力太大了,此時可以考慮搭建一個負載均衡器來把壓力分散到各個伺服器上。這相當於多臺機器多個服務共同參與任務的處理,可以減小單個Splash服務的壓力。

1. 配置Splash服務

要搭建Splash負載均衡,首先要有多個Splash服務。假如這裡在4臺遠端主機的8050埠上都開啟了Splash服務,它們的服務地址分別為41.159.27.223:8050、41.159.27.221:8050、41.159.27.9:8050和41.159.117.119:8050,這4個服務完全一致,都是通過Docker的Splash映象開啟的。訪問其中任何一個服務時,都可以使用Splash服務。

2. 配置負載均衡

接下來,可以選用任意一臺帶有公網IP的主機來配置負載均衡。首先,在這臺主機上裝好Nginx,然後修改Nginx的配置檔案nginx.conf,新增如下內容:

http{
upstreamsplash{
least_conn;
server41.159.27.223:8050;
server41.159.27.221:8050;
server41.159.27.9:8050;
server41.159.117.119:8050;
}
server{
listen8050;
location/{
proxy_passhttp://splash;
}
}
}

這樣我們通過upstream欄位定義了一個名字叫作splash的服務叢集配置。其中least_conn代表最少連結負載均衡,它適合處理請求處理時間長短不一造成伺服器過載的情況。

當然,我們也可以不指定配置,具體如下:

upstreamsplash{
server41.159.27.223:8050;
server41.159.27.221:8050;
server41.159.27.9:8050;
server41.159.117.119:8050;
}

這樣預設以輪詢策略實現負載均衡,每個伺服器的壓力相同。此策略適合伺服器配置相當、無狀態且短平快的服務使用。

另外,我們還可以指定權重,配置如下:

upstreamsplash{
server41.159.27.223:8050weight=4;
server41.159.27.221:8050weight=2;
server41.159.27.9:8050weight=2;
server41.159.117.119:8050weight=1;
}

這裡weight引數指定各個服務的權重,權重越高,分配到處理的請求越多。假如不同的伺服器配置差別比較大的話,可以使用此種配置。

最後,還有一種IP雜湊負載均衡,配置如下:

upstreamsplash{
ip_hash;
server41.159.27.223:8050;
server41.159.27.221:8050;
server41.159.27.9:8050;
server41.159.117.119:8050;
}

伺服器根據請求客戶端的IP地址進行雜湊計算,確保使用同一個伺服器響應請求,這種策略適合有狀態的服務,比如使用者登入後訪問某個頁面的情形。對於Splash來說,不需要應用此設定。

我們可以根據不同的情形選用不同的配置,配置完成後重啟一下Nginx服務:

sudonginx-sreload

這樣直接訪問Nginx所在伺服器的8050埠,即可實現負載均衡了。

3. 配置認證

現在Splash是可以公開訪問的,如果不想讓其公開訪問,還可以配置認證,這仍然藉助於Nginx。可以在server的location欄位中新增auth_basic和auth_basic_user_file欄位,具體配置如下:

http{
upstreamsplash{
least_conn;
server41.159.27.223:8050;
server41.159.27.221:8050;
server41.159.27.9:8050;
server41.159.117.119:8050;
}
server{
listen8050;
location/{
proxy_passhttp://splash;
auth_basic"Restricted";
auth_basic_user_file/etc/nginx/conf.d/.htpasswd;
}
}
}

這裡使用的使用者名稱和密碼配置放置在/etc/nginx/conf.d目錄下,我們需要使用htpasswd命令建立。例如,建立一個使用者名稱為admin的檔案,相關命令如下:

htpasswd-c.htpasswdadmin

接下來就會提示我們輸入密碼,輸入兩次之後,就會生成密碼檔案,其內容如下:

cat.htpasswd
admin:5ZBxQr0rCqwbc

配置完成後,重啟一下Nginx服務:

sudonginx-sreload

這樣訪問認證就成功配置好了。

4. 測試

最後,我們可以用程式碼來測試一下負載均衡的配置,看看到底是不是每次請求會切換IP。利用http://httpbin.org/get測試即可,實現程式碼如下:

importrequests
fromurllib.parseimportquote
importre
lua='''
functionmain(splash,args)
localtreat=require("treat")
localresponse=splash:http_get("http://httpbin.org/get")
returntreat.as_string(response.body)
end
'''
url='http://splash:8050/execute?lua_source='+quote(lua)
response=requests.get(url,auth=('admin','admin'))
ip=re.search('(\d+\.\d+\.\d+\.\d+)',response.text).group(1)
print(ip)

這裡URL中的splash字串請自行替換成自己的Nginx伺服器IP。這裡我修改了Hosts,設定了splash為Nginx伺服器IP。

多次執行程式碼之後,可以發現每次請求的IP都會變化,比如第一次的結果:

41.159.27.223

第二次的結果:

41.159.27.9

這就說明負載均衡已經成功實現了。

本節中,我們成功實現了負載均衡的配置。配置負載均衡後,可以多個Splash服務共同合作,減輕單個服務的負載,這還是比較有用的。

到此這篇關於Python3爬蟲裡關於Splash負載均衡配置詳解的文章就介紹到這了,更多相關Python3 Splash負載均衡配置內容請搜尋我們以前的文章或繼續瀏覽下面的相關文章希望大家以後多多支援我們!