Python3爬蟲學習筆記一 (get,post,cookie,proxy,agent)

阿新 • • 發佈：2018-12-26

No.1 第一個python爬蟲練習

from urllib import request,parse
import chardet

if __name__ == '__main__':
    url = 'https://blog.csdn.net/m0_37355951/article/details/80457159'
    rsp = request.urlopen(url)
    html = rsp.read()
    ##獲取網頁的頭資訊(編碼)
    cs = chardet.detect(html)   
    print(cs)   ##{'encoding': 'utf-8', 'confidence': 0.99, 'language': ''}
    ##按照獲取的頁面編碼進行解碼 預設utf-8
    html = html.decode(cs.get("encoding",'utf-8'))
    #輸出返回的資訊
    print(rsp)
    print(rsp.geturl())  
    print(rsp.info())   
    print(rsp.getcode())  ## 正常200
    ##網頁資訊
    print(html)

No.2 模擬Get請求

from urllib import request,parse

if __name__ == '__main__':
    url =  'http://www.baidu.com/s?'
    wd = input('Input your keyword')
    
    ## 拼接的資料
    qs = {
        "wd":wd
    }
    
    ## 對資料進行編譯
    qs = parse.urlencode(qs)
    rsp = request.urlopen(url+qs)
    html = rsp.read().decode()
    print(html)

No.3 模擬post請求

'''
利用parse 模組模擬post請求
    1.開啟F12
    2.輸入一個g
    3.利用NetWork-All-Headers 檢視 發現 FormData 的值是kw:g
'''

from urllib import request,parse
import json

'''
  利用data構造內容 然後urlopen開啟
    返回一個json 格式的結果
    結果應該是girl的翻譯
'''
baseurl = 'https://fanyi.baidu.com/sug'
#存放dict格式的資料
data = {
    'kw':'girl'
}
#需要使用parse來變異
data = parse.urlencode(data).encode()

rsp = request.urlopen(baseurl,data= data)
## 讀取資訊解碼 預設utf-8
json_data = rsp.read().decode()
print(json_data)

#把json字串轉化成字典
json_data = json.loads(json_data)
print(json_data)

for item in json_data['data']:
    print(item['k'],'---',item['v'])

No.4 UrlError的使用

'''
UrlEror的使用
檢視 訪問錯誤
'''

from urllib import request,error

if __name__ == '__main__':
    url = 'http://www.baidu.com'
    try:
        req = request.Request(url)
        rsp = request.urlopen(req)
        html = rsp.read().decode()
        print(html)
    except error.HTTPError as e:
        print(e)
    except error.URLError as e:
        print(e)
    except Exception as e:
        print(e)

No.5 更改自己的agent

常用的agent:
https://blog.csdn.net/rookie_is_me/article/details/81634048

兩種方式：

  1.headers['User-Agent'] = "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.102 Safari/537.36"
  req = request.Request(url= url,headers=headers)
   2.req = request.Request(url)
     req.add_header('User-Agent','Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.102 Safari/537.36')

'''
訪問一個網址 更改自己的agent

'''
from urllib import request,error
if __name__ == '__main__':
    url = 'http://www.baidu.com'

    try:
        headers = {}
        headers['User-Agent'] = "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.102 Safari/537.36"
       # req = request.Request(url= url,headers=headers)
        req = request.Request(url)
        req.add_header('User-Agent','Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.102 Safari/537.36')
        rsp = request.urlopen(req)
        html = rsp.read().decode()
        print(html)
    except error.URLError as e:
        print(e)
    except Exception as e:
        print(e)

No.6 代理伺服器

'''
代理伺服器
www.xicidaili.com
www.goubanjia.com
使用步驟：
    1.設定代理地址
    2.建立ProxyHandle
    3.建立Opener
    4.安裝 Opener
'''

from urllib import request,error,parse

if __name__ == '__main__':
    url = 'http://www.baidu.com'
    #設定代理地址
    proxy = {'http':'117.169.104.102:80'}
    #建立ProxyHandler
    proxy_handler = request.ProxyHandler(proxy)
    #建立Opener
    opener = request.build_opener(proxy_handler)
    #安裝Opener
    request.install_opener(opener)
    try:
        rsp = request.urlopen(url)
        html = rsp.read().decode()
        print(html)
    except error.URLError as e:
        print(e)

No.7 使用cookie登入網站

'''
使用cookie 登入人人網
複製登入後的cookie
'''

from urllib import request

if __name__ == '__main__':
    url = 'http://www.renren.com/894245278/profile'
    headers = {'Cookie':' 自己的cookie '}
    req = request.Request(url=url,headers=headers)
    rsp = request.urlopen(req)
    html = rsp.read().decode()
    print(html)

No.8 自動配置cookie （自動登入）訪問資料

'''
自動配置cookie爬取資料
    CookieJar 管理儲存cookie 向傳出的http請求新增cookie
              cookie儲存在記憶體中 CookieJar例項回收後，cookie消失
        FileCookieJar 使用檔案儲存cookie
            MozillaCookieJar 建立與mocilla瀏覽器cookie.txt相容的FileCookie
            LwpCookieJar
'''
#利用cookieJar訪問人人網
    #開啟登入介面 自動通過使用者名稱密碼登入
    #利用提取的cookie登入隱私頁面

from urllib import request,error,parse
from http import cookiejar

#建立 cookiejar 的例項
cookie = cookiejar.CookieJar()

#生成cookie的管理器
cookie_handler = request.HTTPCookieProcessor(cookie)

#建立http請求管理器
http_handler = request.HTTPHandler()

#生成https管理器
https_handler = request.HTTPSHandler()

#建立請求管理器
opener = request.build_opener(http_handler,https_handler,cookie_handler)


def login():
    url = 'http://www.renren.com/PLogin.do'
    #設定登入資料
    data = {
        'email':'賬號',
        'password':'密碼'
    }
    #資料編碼
    data = parse.urlencode(data).encode()
    req = request.Request(url,data= data)

    rsp = opener.open(req)

def getHomePage():
    url = 'http://www.renren.com/894245278/profile'
    #如果已經執行了login函式 則opener自動包含相應的cookie值
    rsp = opener.open(url)
    html = rsp.read().decode()
    print(html)

if __name__ == '__main__':
    login()
    getHomePage()

Python3爬蟲學習筆記一 (get,post,cookie,proxy,agent)

No.1 第一個python爬蟲練習 from urllib import request,parse import chardet if __name__ == '__main__': url = 'https://blog.csdn.net/m0_37355951/arti

python3爬蟲學習筆記（一）初入爬蟲 urllib學習

一、爬蟲是什麼網路爬蟲（也叫做網頁蜘蛛），是一種按照一定的規則，自動地抓取全球資訊網資訊的程式或者指令碼。如果把網際網路比做成一個大的蜘蛛網，蜘蛛網上每個節點都有大量的資料，爬蟲就像一隻小蜘蛛通過網頁的地址找到網站並獲取資訊：HTML程式碼/JSON資料/二進位制資料（圖

python3爬蟲學習筆記

apple 搜索 logs exce header 索引 port exception 不能 Robot.txt Robots協議（也稱為爬蟲協議、機器人協議等）的全稱是“網絡爬蟲排除標準”（Robots Exclusion Protocol），網站通過Robots協議告訴

python爬蟲學習筆記一：爬蟲學習概覽與Requests庫的安裝與使用

python網路爬蟲與資訊提取學習目錄： the website is the API Requests：自動爬取HTML頁面自動網路請求提交 robots.txt：網路爬蟲排除標準 Beautiful Soup：解析HTML頁面正則表示式詳解，提取頁面關鍵資訊Re

【Python3 爬蟲學習筆記】資料儲存 3 -- CSV檔案儲存

CSV，全稱為Comma-Separated Values，中文可以叫作逗號分隔符或字元分隔值，其檔案以純文字形式儲存表格資料。該檔案時一個字元序列，可以由任意數目的記錄組成，記錄間以某種換行符分隔。每條記錄由欄位組成，欄位間的分隔符是其他字元或字串，最常見的是逗號或製表符。不過所有記錄都有

【Python3 爬蟲學習筆記】基本庫的使用 8—— 正則表示式 1

三、正則表示式 1.例項引入開啟開源中國提供的正則表示式測試工具 http://tool.oschina.net/regex/ ，輸入待匹配的文字，然後選擇常用的正則表示式，就可以得出相應的匹配結果。對於URL來說，可以用下面的正則表示式匹配： [a-zA-z]+://[^\

【Python3 爬蟲學習筆記】基本庫的使用 7 —— 使用requests

抓取二進位制資料前面我們抓取知乎的一個頁面，實際上它返回的是一個HTML文件。如何抓取圖片、音訊、視訊？圖片、音訊、視訊這些檔案本質上都是由二進位制碼組成的，由於有特定的儲存格式和對應的解析方式，我們才可以看到這些形形色色的多媒體，所以要抓取它們，就要拿到它們的二進位制碼。抓取

【Python3 爬蟲學習筆記】基本庫的使用 12—— 正則表示式 5

6. compile() compile()方法可以將正則字串編譯成正則表示式物件，以便在後面的匹配中複用。示例程式碼如下： import re content1 = '2016-12-15 12:00' content2 = '2016-12-17 12:55' content3

【Python3 爬蟲學習筆記】基本庫的使用 11—— 正則表示式 4

4. findall() search()方法可以返回匹配正則表示式的第一個內容，但是如果想要獲取匹配正則表示式的所有內容，就要藉助findall()方法了。該方法會搜尋整個字串，然後返回匹配正則表示式的所有內容。上一節中的HTML文字中，如果想要獲得所有a節點的超連結、歌手和歌名，就

【Python3 爬蟲學習筆記】基本庫的使用 10—— 正則表示式 3

3.search() mathch()方法是從字串的開頭開始匹配的，一旦開頭不匹配，那麼整個匹配就失敗了。因為match()方法在使用時需要考慮到開頭的內容，這在匹配時並不方便。它更適合用來檢測某個字串是否符合某個正則表示式的規則。 search()方法在匹配時會掃描整個字串，然後返回第

【Python3 爬蟲學習筆記】基本庫的使用 9—— 正則表示式 2

1.1 匹配目標如果想從字串中提取出一部分內容，可以用()括號將想提取的子字串括起來。()實際上標記了一個子表示式的開始和結束位置，被標記的每個子表示式會一次對應一個分組，呼叫group()方法傳入分組的索引即可獲取提取的結果。示例如下： import re content =

【Python3 爬蟲學習筆記】解析庫的使用 3 —— Beautiful Soup 1

Beautiful Soup可以藉助網頁的結構和屬性等特性來解析網頁。有了Beautiful Soup，我們不用再去寫一些複雜的正則表示式，只需要簡單的幾條語句，就可以完成網頁中某個元素的提取。 Beautiful Soup是Python的一個HTML或XML的解析庫，可以用它來方便地從

【Python3 爬蟲學習筆記】解析庫的使用 2 —— 使用XPath 2

8. 文字獲取我們使用XPath中的text()方法獲取節點中文字，接下來嘗試獲取前面li節點中的文字，相關程式碼如下： from lxml import etree html = etree.parse('./test.html', etree.HTMLParser()) re

【Python3 爬蟲學習筆記】解析庫的使用 1 —— 使用XPath 1

XPath，全稱XML Path Language，即XML路徑語言，它是一門在XML文件中查詢資訊的於洋。它最初是用來搜尋XML文件的，但它同樣適用於HTML文件的搜尋。 1. XPath概覽 XPath的選擇功能十分強大，它提供了非常簡潔明瞭的路徑選擇表示式。另外，它還提供了超過

【Python3 爬蟲學習筆記】基本庫的使用 13 —— 抓取貓眼電影排行

四、抓取貓眼電影排行 4.1 抓取分析需要抓取的目標站點為http://maoyan.com/board/4 ,開啟之後便可以檢視到榜單資訊，如下圖所示：排名第一的電影是霸王別姬，頁面中顯示的有效資訊有影片名稱、主演、上映時間、上映地區、評分、圖片等資訊。將網頁滾動到最下方，

【Python3 爬蟲學習筆記】解析庫的使用 7 —— Beautiful Soup 5

CSS選擇器 Beautiful Soup還提供了另外一個選擇器，那就是CSS選擇器。使用CSS選擇器時，只需要呼叫select()方法，傳入相應的CSS選擇器即可，示例如下： html = ''' <div class="panel"> <div class="

【Python3 爬蟲學習筆記】解析庫的使用 5 —— Beautiful Soup 3

提取資訊要獲取關聯元素節點的資訊，比如文字、屬性等，如下： html = """ <html> <body> <p class="story"> Once upon a time there were three little sisters

【Python3 爬蟲學習筆記】解析庫的使用 4 —— Beautiful Soup 2

父節點和祖先節點如果要獲取某個節點元素的父節點，可以呼叫parent屬性： html = """ <html> <head> <title>The Dormouse's story</title> </head> <

【Python3 爬蟲學習筆記】解析庫的使用 10 —— 使用pyquery 3

節點操作 pyquery提供了一系列方法來對節點進行動態修改，比如為某個節點新增一個class，移除某個節點等，這些操作有時候會為提取資訊帶來極大地便利。 addClass和removeClass html = ''' <div class="wrap"> <d

【Python3 爬蟲學習筆記】解析庫的使用 9 —— 使用pyquery 2

遍歷 pyquery的選擇結果可能是多個節點，也可能是單個節點，型別都是PyQuery型別，並沒有返回像Beautiful Soup那樣的列表。對於單個節點來說，可以直接列印輸出，也可以直接轉成字串： from pyquery import PyQuery as pq doc =

Python3爬蟲學習筆記一 (get,post,cookie,proxy,agent)

No.1 第一個python爬蟲練習

No.2 模擬Get請求

No.3 模擬post請求

No.4 UrlError的使用

No.5 更改自己的agent

No.6 代理伺服器

No.7 使用cookie登入網站

No.8 自動配置cookie （自動登入）訪問資料

相關推薦