Detecting Rewards Deterioration in Episodic Reinforcement Learning

阿新 • • 發佈：2021-10-02

初識爬蟲，python網路爬蟲與資訊提取，requests庫的簡單使用

一、requests庫的安裝
二、requests庫的七個主要方法及簡單使用
三、requests庫的兩個重要物件
四、requests庫的異常(Exception)
五、HTTP協議
六、爬取網頁通用程式碼框架
七、網路爬蟲的限制

一、requests庫的安裝

Win平臺: win+R執行 cmd，執行

pip install requests

官方文件：https://docs.python-requests.org/zh_CN/latest/
我的是已經安裝好的

安裝成功後測試一下

import requests
r = requests.get("http://www.baidu.com")
print(r.text)

二、requests庫的七個主要方法及簡單使用

（1）七個方法

方法	說明
requests.request()	構造一個請求，支撐以下各方法的基礎方法
requests.get()	獲取HTML網頁的主要方法，對應於HTTP的GET
requests.head()	獲取HTML網頁頭資訊的方法，對應於HTTP的HEAD
requests.post()	向HTML網頁提交POST請求的方法，對應於HTTP的POST
requests.put()	向HTML網頁提交PUT請求的方法，對應於HTTP的PUT
requests.patch()	向HTML網頁提交區域性修改請求，對應於HTTP的PATCH
requests.delete()	向HTML頁面提交刪除請求，對應於HTTP的DELETE

一般最常用到的方法是request(),get(),post()方法

（2）簡單使用

1.request()方法

r = requests.request(method, url, **kwargs)  # 構造一個請求，支撐以下各方法的基礎方法

method : 請求方式，對應get/put/post等7種
url : 擬獲取頁面的url連結
**kwargs: 控制訪問的引數，共13個
- method : 請求方式
  r = requests.request('GET', url, **kwargs)
  r = requests.request('HEAD', url, **kwargs)
  r = requests.request('POST', url, **kwargs)
  r = requests.request('PUT', url, **kwargs)
  r = requests.request('PATCH', url, **kwargs)
  r = requests.request('delete', url, **kwargs)
  r = requests.request('OPTIONS', url, **kwargs)
params : 字典或位元組序列，作為引數增加到url中

訪問控制引數，也就是第三個引數 kwargs 示例

import requests
kv1 = {'key1': 'value1', 'key2': 'value2'}
rs1 = requests.request('GET', 'http://python123.io/ws',params = kv1)
print(rs1.text)
rs2 = requests.request('POST', 'http://python123.io/ws',data = kv1)
print(rs2.text)
kv2 = {'key1': 'value1'}
rs3 = requests.request('POST', 'http://python123.io/ws', json=kv2)
print(rs3.text)
hd = {'user‐agent': 'Chrome/10'}
rs4 = requests.request('POST', 'http://python123.io/ws', headers=hd)
rs5 = requests.request('post','',cookies = '字典或cookieJar')
rs6 = requests.request('post','',auth = '元組')
fs = {'file':open('data.xls','rd')}
rs7= requests.request('POST','',files = fs) # 傳輸檔案
rs8 = requests.request('GET','http://www.baidu.com',timeout = 10)
pxs = { 'http': 'http://user:[email protected]:1234','https': 'https://10.10.10.1:4321' }
rs9 = requests.request('GET','http://www.baidu.com',proxies = pxs)  # proxies 字典型別，設定訪問代理伺服器

引數	說明
files	字典型別，傳輸檔案
timeout	設定超時時間，秒為單位
proxies	字典型別，設定訪問代理伺服器，可以增加登入認證
allow_redirects	True/False，預設為True，重定向開關
stream	True/False，預設為True，獲取內容立即下載開關
verify	True/False，預設為True，認證SSL證書開關
cert	本地SSL證書路徑

2. get()方法

r = requests.get(url, params = None, **kwargs)

r = requests.get(url) # 獲取HTML網頁的主要方法，對應於HTTP的GET
r = requests.delete(url)
print(r.url)

引數	說明
url	擬獲取頁面的url連結
params	url 中的額外引數，字典或位元組流格式，可選
**kwargs	12個控制訪問引數

3.head()方法

r = requests.head('http://httpbin.org/get')     # 獲取HTML網頁頭資訊的方法，對應於HTTP的HEAD
print(r.headers)

4.post()方法

r = requests.post(url, data=None, json=None, **kwargs)

引數	說明
url	擬更新頁面的url連結
data	字典、位元組序列或檔案，Request的內容
json	JSON格式的資料，Request的內容

示例

payload = {'key1':'value1','key2':'value2'}
r = requests.post('http://httpbin.org/post',data=payload) # 向HTML網頁提交POST請求的方法，對應於HTTP的POST
r = requests.post('http://httpbin.org/post',data='abc')
print(r4.text)

5.put()方法

r = requests.put(url, data=None, **kwargs)

r = requests.put('http://httpbin.org/put',data=payload) # 向HTML網頁提`交PUT請求的方法，對應於HTTP的PUT
print(r.text)

6.patch()方法

r = requests.patch(url) # 向HTML網頁提交區域性修改請求，對應於HTTP`的PATCH

7.delete()方法

r = requests.delete(url, **kwargs)

r = requests.delete(url)   # 向HTML頁面提交刪除請求，對應於HTTP的DELETE

url : 擬刪除頁面的url連結

三、requests庫的兩個重要物件

Response和Request

（1）Request

r == response 返回一個包含伺服器資源的response物件
request 構造一個向伺服器請求資源的request物件
從請求到響應的過程

（2）Response物件

Response物件包含伺服器返回的所有資訊，也包含請求的Request資訊

屬性	說明
r.status_code	HTTP請求的返回狀態，200表示連線成功，404表示失敗
r.text	HTTP響應內容的字串形式，即，url對應的頁面內容
r.encoding	從HTTP header中猜測的響應內容編碼方式
r.apparent_encoding	從內容中分析出的響應內容編碼方式（備選編碼方式）
r.content	HTTP響應內容的二進位制形式

有時候打印出來的網頁內容是亂碼，就像下面這樣

所以需要理解Response的編碼

r.encoding	從HTTP header中猜測的響應內容編碼方式
r.apparent_encoding	從內容中分析出的響應內容編碼方式（備選編碼方式）

1）r.encoding：如果header中不存在charset，則認為編碼為ISO‐8859‐1
2）r.text根據r.encoding顯示網頁內容
3）r.apparent_encoding：根據網頁內容分析出的編碼方式，可以看作是 r.encoding的備選

當我們把編碼方式改變後打印出來的內容為
有以下l兩種方式

r.encoding = 'utf-8'   #直接改變編碼
r.encoding = r.apparent_encoding  #用r.encoding的備選

四、requests庫的異常(Exception)

網路連線有風險，異常處理很重要
(1) Requests異常

異常	說明
requests.ConnectionError	網路連線錯誤異常，如DNS查詢失敗、拒絕連線等
requests.HTTPError	HTTP錯誤異常
requests.URLRequired	URL缺失異常
requests.TooManyRedirects	超過最大重定向次數，產生重定向異常
requests.ConnectTimeout	連線遠端伺服器超時異常
requests.Timeout	請求URL超時，產生超時異常

（2）Response異常

r.raise_for_status()	如果不是200，產生異常 requests.HTTPError

r.raise_for_status()在方法內部判斷r.status_code是否等於200，不需要
增加額外的if語句，該語句便於利用try‐except進行異常處理

五、HTTP協議

（1）HTTP是一個基於“請求與響應”模式的、無狀態的應用層協議

HTTP協議採用URL作為定位網路資源的標識，URL格式如下：
- http://host[:port][path]
- host: 合法的Internet主機域名或IP地址
- port: 埠號，預設埠為80
- path: 請求資源的路徑

URL是通過HTTP協議存取資源的Internet路徑，一個URL對應一個數據資源

（2）HTTP 對資源的操作

通過URL和命令管理資源，操作獨立無狀態，網路通道及伺服器成為了黑盒子

六、爬取網頁通用程式碼框架

import requests

def getHTMLText(url):
    try:
        r = requests.get(url, timeout = 30)
        r.raise_for_status()  # 如果狀態不是200，引發HTTPError異常
        r.encoding = r.apparent_encoding
        return r.text
    except:
        return '產生異常'

if __name__ == '__main__':
    url = input('請輸入url地址:')
    print(getHTMLText(url))

七、網路爬蟲的限制

Robots協議

Robots(Robots Exclusion Standard)，網路爬蟲排除標準
作用：網站告知網路爬蟲哪些頁面可以抓取，哪些不行。
形式：在網站根目錄下的robots.txt檔案
案例
https://www.jd.com/robots.txt
http://www.baidu.com/robots.txt
http://www.qq.com/robots.txt
http://news.qq.com/robots.txt

#註釋，代表所有，/代表根目錄*

Robots協議的使用

網路爬蟲：自動或人工識別robots.txt，再進行內容爬取
約束性：Robots協議是建議但非約束性，網路爬蟲可以不遵守，但存在法律風險

小提示：
爬蟲作為一種計算機技術決定了它的中立性，爬蟲本身在法律上並不被禁止，如果爬蟲採集的是公開的資料則是可以的。當然操作不當，就可能涉及違法甚至是犯罪的風險。所以要合理使用，規範爬取。

本文來自部落格園，作者：Aurora*，轉載請註明原文連結：https://www.cnblogs.com/lang12/p/15377703.html

Detecting Rewards Deterioration in Episodic Reinforcement Learning

發表時間：2021（ICML 2021）文章要點：文章想說，我們訓好一個policy之後，在真正用他的時候需要考慮安全性和可靠性（RL tasks is the safety and reliability of the system）。所以我們就需要一個方法來快速檢

REPAINT: Knowledge Transfer in Deep Reinforcement Learning

發表時間：2021（ICML 2021）文章要點：這篇文章提出了一個叫REPresentation And INstance Transfer (REPAINT)的演算法來做RL裡的知識遷移。主要方法就是representation transfer和instance transfer。這個repres

論文記載： Deep Reinforcement Learning for Traffic LightControl in Vehicular Networks

強化學習論文記載論文名： Deep Reinforcement Learning for Traffic LightControl in Vehicular Networks （車輛網路交通訊號燈控制的深度強化學習）---年份：2018.3

Decoupling Value and Policy for Generalization in Reinforcement Learning

發表時間：2021（ICML2021）文章要點：這篇文章想說，通常在訓練PG這類演算法特別是影象作為輸入的任務的時候，主流的做法是policy和value用一個網路表徵，沒有分開。這會導致policy overfitting，因為學value比學

Context-aware Dynamics Model for Generalization in Model-Based Reinforcement Learning

發表時間：2020（ICML 2020）文章要點：這篇文章想說model based方法在data efficiency和planning方面都具有天然優勢，但是model的泛化性通常是個問題。這篇文章提出學一個context相關的latent vector，然後用mod

Improving Generalization in Reinforcement Learning with Mixture Regularization

發表時間：2020（NeurIPS 2020）文章要點：這篇文章提出了一個叫mixreg的方法來提高agent泛化性。大致方法就是說用多個環境訓練，並且對環境做插值，這樣學到的策略就會更平滑，泛化性就更好。具體的，我有兩個狀

Learning to Combat Compounding-Error in Model-Based Reinforcement Learning

發表時間：2019（NeurIPS 2019 Deep Reinforcement Learning Workshop）文章要點：這篇文章想說model based方法裡面通常model都是imperfect的，就是這個model一般只在區域性是準確的，放到全域性上看誤差會越來越

ON THE ROLE OF PLANNING IN MODEL-BASED DEEP REINFORCEMENT LEARNING

發表時間：2021（ICLR 2021）文章要點：這篇文章想要分析model-based reinforcement learning (MBRL)裡面各個部分的作用。文章以muzero為基礎，回答了三個問題

Reinforcement Learning (DQN) 中經驗池詳細解釋

技術標籤：python類大資料多型強化學習一般DQN中的經驗池類，都類似於下面這段程式碼。

MFMARL(Mean Field Multi-Agent Reinforcement Learning)實現

Mean Field Multi-Agent Reinforcement Learning（MFMARL）是倫敦大學學院（UCL）計算機科學系教授汪軍提出的一個多智慧體強化學習演算法。主要致力於極大規模的多智慧體強化學習問題，解決大規模智慧體之間的互動及

強化學習論文研讀（四）——Deep Reinforcement Learning with Double Q-Learning

技術標籤：論文研讀深度學習強化學習python演算法 double Q learning + DQN的合成演算法。

讀論文--Characterizing Attacks on Deep Reinforcement Learning

paper：https://arxiv.org/abs/1907.09470 〇、摘要 DRL在各種應用中取得了巨大的成功，然而最近研究表明，機器學習模型很容易受到對抗性攻擊。一方面，可以通過給觀測值新增擾動，另一方面，也是更具實操性的攻擊方

Online and Offline Reinforcement Learning by Planning with a Learned Model

發表時間：2021 文章要點：文章接著muzero做的，當時muzero裡面提出了一個MuZero Reanalyze（Reanalyse）的方式，這篇文章提出的MuZero Unplugged演算法其實就是把MuZero Reanalyse用到offline RL裡面。作者想說的

Evaluating the Performance of Reinforcement Learning Algorithms

發表時間：2020（ICML 2020）文章要點：文章指出RL復現難的原因在於評價指標不一致。作者提出評估指標應該滿足四點：1. Scientific,主要說你這個指標提供的資訊要告訴別人針對某個具體的問題或假設，得出了什麼結

Game Theory and Multi-agent Reinforcement Learning筆記上

一、引言多智慧體強化學習的標準模型：多智慧體產生動作a1，a2.....an聯合作用於環境，環境返回當前的狀態st和獎勵rt。智慧體接受到系統的反饋st和ri，根據反饋資訊選擇下一步的策略。

Offline Evaluation of Online Reinforcement Learning Algorithms

發表時間：2016（AAAI2016）文章要點：通常大家做offline評估的時候都是去評估一個訓好的fixed的策略，這篇文章就說我想在offline的setting 下去評估一個演算法好不好。根據這個出發點，大致思路是先根據收集的d

Explainable Reinforcement Learning Through a Causal Lens

發表時間：2019（AAAI 2020）文章要點：這篇文章通過構建一個圖結構，來解釋為啥agent要做/不做某個動作。具體來說就是先把某個問題給抽象成一個圖結構，定義狀態動作回報等關鍵資訊的節點和邊，然後在訓練RL的時

LEARNING INVARIANT REPRESENTATIONS FOR REINFORCEMENT LEARNING WITHOUT RECONSTRUCTION

發表時間：2021（ICLR 2021）文章要點：這篇文章想說，在state裡面其實有很多工無關的東西，如果用Reconstruction之類的方式去做就還是會考慮這些東西，作者提出用Bisimulation metric去做representation，讓late

論文解讀：COLING-2020(ccf-b)-Answer-driven Deep Question Generation based on Reinforcement Learning

目錄1，問題2，創新1 encoder1.1 Word encoder1.2 Graph Encoder2 Decoder2.1 應答感知初始化模組Answer-Aware Initialization Module2.2 語義豐富的融合注意力Semantic-Rich Fusion Attention2.3 複製機制和 Maxou

Diagnosing Bottlenecks in Deep Q-learning Algorithms

發表時間：2019（ICML 2019）文章要點：這篇文章主要是做實驗研究Q-learning在加入function approximation之後會出現什麼問題，以及具體是什麼原因造成的。文章主要研究了function approximation， sampling erro

Detecting Rewards Deterioration in Episodic Reinforcement Learning

一、requests庫的安裝

二、requests庫的七個主要方法及簡單使用

三、requests庫的兩個重要物件

四、requests庫的異常(Exception)

五、HTTP協議

六、爬取網頁通用程式碼框架

七、網路爬蟲的限制

相關推薦