Python之爬蟲有感（一）

urllib.request.Request('URL',headers = headers)
User-Agent 是爬蟲和反爬蟲鬥爭的第一步，傳送請求必須帶User—Agent
使用流程：
    1、建立請求物件
        request = urlllib.request.Request('url'......)
    2、傳送請求獲取響應物件
        response = urllib.request.urlopen(request)

3、獲取響應內容
html = response.read().deconde('utf-8')

為什麼要使用User—Agent呢？如果沒有這個就對網頁進行爬取，當爬取大量資料短時間大量訪問網頁那邊就會知道你這邊是一個程式，就可以進行遮蔽，使用User-Agent能夠讓那邊認為你這邊的爬蟲是一個瀏覽器對其進行訪問，不會攔截，當然如果就一個User-Agent短時間訪問多次也是會被攔截，此時解決問題的方法是使用多個User-Agent，每次訪問網頁都隨機選取一個User-Agent，這樣就可以解決該問題。

簡單的示例，使用上面的方法爬取百度首頁內容：

import urllib.request

url = "https://www.baidu.com/"

headers = {'User-Agent': '自己找一個Uer-Agent'}

#1、建立請求物件
req = urllib.request.Request(url, headers=headers)

#2、獲取響應物件
res = urllib.request.urlopen(req)

#3|響應物件read（）.decode('utf-8')
html = res.read().decode('utf-8')
print(html)

如果要爬取一些複雜的網頁，就需要對網頁進行分析。

比如說對騰訊招聘進行爬取，首先騰訊招聘網頁是一個動態網頁，簡單方式爬取不了，那我們找到這個網頁的json網頁如下：

https://careers.tencent.com/tencentcareer/api/post/Query?timestamp=1563246818490&countryId=&cityId=&bgIds=&productId=&categoryId=40001001,40001002,40001003,40001004,40001005,40001006&parentCategoryId=&attrId=&keyword=&pageIndex=0

&pageSize=10&language=zh-cn&area=cn
網頁獲得的結果是這樣的：

這樣看起來很難受，所以用一個外掛JSON View（chrome瀏覽器），重新載入後格式為：

這樣看起來就舒服多了，而且都是字典格式以及列表，找到我們想要的資料就更加簡單了。

我們可以修改pageIndex這個錨點的值跳轉到不同頁面，對多個頁面進行爬取。
話不多說，直接先上程式碼：

import urllib.request
import json

beginURL = 'https://careers.tencent.com/tencentcareer/api/post/Query?timestamp=1563246818490&countryId=&cityId=&bgIds=&productId=&categoryId=40001001,40001002,40001003,40001004,40001005,40001006&parentCategoryId=&attrId=&keyword=&pageIndex='
offset = 0
endURL = '&pageSize=10&language=zh-cn&area=cn'
start_urls = beginURL + str(offset) + endURL
headers = {'User-Agent': '自己找一個User-Agent'}

while True:
    if offset < 2:
        offset += 1
    else:
        break

    html = urllib.request.urlopen(start_urls, headers=headers)
    result = json.loads(html.read())

    position = {}
    L = []
    for i in range(len(result['Data']['Posts'])):
        position['職位名稱'] = result['Data']['Posts'][i]['RecruitPostName']
        position['最近公佈時間'] = result['Data']['Posts'][i]['LastUpdateTime']
        position['工作地點']  = result['Data']['Posts'][i]['CountryName'] + result['Data']['Posts'][0]['LocationName']
        position['職位內容'] = result['Data']['Posts'][i]['Responsibility']
        position['工作連結'] = result['Data']['Posts'][i]['PostURL']
        L.append(position)

    print(L)
    with open('TencentJobs.json', 'a', encoding='utf-8') as fp:
        json.dump(L, fp, ensure_ascii=False)

我的思路大致是這樣的：

首先從一個網頁裡面爬取到自己想要的資料，將第一個網頁加載出來，html = urllib.request.urlopen(start_urls, headers=headers) result = json.loads(html.read())，將start-urls換成第一個網頁的url就可以了，通過程式將網頁得到的結果放在result裡，然後從第一個網頁進行分析，發現它裡面的內容都是字典還有一個列表，那麼通過字典和列表的索引方式找到我們想要的資料。例如，獲得職位名稱可以使用result['Data']['Posts'][i]['RecruitPostName']，再用一個一個position字典進行儲存，後面依次類推。

將所有的字典都儲存到一個列表L裡面，然後再將L內資料寫入到本地json檔案中。對於多頁面找到了錨點pageIndex，就通過一些手段每次某一頁面爬取完就更改pageIndex爬取下一頁。本程式通過更改offset的值，原網頁應該有203個頁面左右，我程式裡面只爬取了兩個頁面，可以自行更改。

好了，如果使用了scrapy框架就會體會到python爬蟲是多麼的方便了。



 
 
              
           
              
              
            
            相關推薦
			   
            
            
            
 

    

    
    Python之爬蟲有感（一）
      urllib.request.Request('URL',headers = headers)User-Agent 是爬蟲和反爬蟲鬥爭的第一步，傳送請求必須帶User—Agent使用流程：    1、建立請求物件    &nbs 

  
 

    

    
    Python 之 基礎知識（一）
      post   練習   初學   查看   http   變量   規則   style   python程序   首先，對於初學者在一個項目中設置多個程序可以執行，是非常方便的，可以方便對不同知識點的練習和測試
對於商業項目而言，通常在一個項目中，只有一個可以執行的Python程序
一、註釋
為了提高可讀性 

  
 

    

    
    Python之異常設計（一）
      final   崩潰   進行   n)   finally   list   發生   err   exception   一 定義
異常分為兩類：一類是自動觸發異常如除零錯誤；另一類是通過raise觸發。
二 為什麽要使用異常
　　當程序運行時，如果檢測到程序錯誤，Python就會引發異常，我們可以在程序 

  
 

    

    
    python之操作mysql（一）
      mod   它的   utf8   連接數   mode   char   PE   class   是個   使用python操作mysql的思路：
1. 連接數據庫：ip，端口號，密碼，賬號，數據庫
2. 建立遊標
3.執行sql語句
4.獲取執行結果
5.關閉遊標，關閉連接
conn = pymysql 

  
 

    

    
    python之氣泡排序（一）
      氣泡排序 
氣泡排序（英語：Bubble Sort）是一種簡單的排序演算法。它重複地遍歷要排序的數列，一次比較兩個元素，如果他們的順序錯誤就把他們交換過來。 
遍歷數列的工作是重複地進行直到沒有再需要交換，也就是說該數列已經排序完成。這個演算法的名字由來是因為越小的元素會經由交換慢慢“浮”到數列的頂端。 
氣 

  
 

    

    
    Python 網路爬蟲學習（一）
      
							
							
							最近在學習一些Python網路爬蟲的東西，現將所學習內容整理如下，希望與大家相互交流，共同進步。



一、網路爬蟲基本概念

1.網路爬蟲(Web Spider) 
      是通過網頁的連結地址來尋找網頁的。從網站某一個頁面（通常是首頁）開始，讀取網頁的內 

  
 

    

    
    Python之介面測試（一）
      前言
之前我們已經學會了利用JMeter工具進行介面測試，今天我們學習一下如何利用python進行介面測試。
一：傳送get請求

import requests,json
url = 'http://localhost:8080/pinter/com/userList?genderType=0'
req=r 

  
 

    

    
    Python編寫簡單爬蟲之新手入門（一）
      
                最近學習了一下python的基礎知識，大家一般對“爬蟲”這個詞，一聽就比較熟悉，都知道是爬一些網站上的資料，然後做一些操作整理，得到人們想要的資料，但是怎麼寫一個爬蟲程式程式碼呢？相信很多人是不會的，今天寫一個針對新手入門想要學習爬蟲的文章，希望對想要學習的你能有所幫助~~廢 

  
 

    

    
    python爬蟲教程之美麗湯（一）
       
python 爬蟲之美麗湯 BeautifulSoup 

 
  作者： jwang106
  
 
1. 使用requests獲取網頁的html原始碼 
import requests
from bs4 import BeautifulSoup


response = requests.get('h 

  
 

    

    
    Python Web框架之Django初探（一）
      python   django   easy_install   pip   Python Web框架之Django初探  Django是一個開放源代碼的Web應用框架，由Python寫成。采用了MVC的框架模式，即模型M，視圖V和控制器C。它最初是被開發來用於管理勞倫斯出版集團旗下的一些以新聞內容為主的網站 

  
 

    

    
    Python爬蟲系列（一）：從零開始，安裝環境
      tar   公司   pip   nal   網頁   解析   目標   http   caption   在上一個系列，我們學會使用rabbitmq。本來接著是把公司的celery分享出來，但是定睛一看，celery4.0已經不再支持Windows。公司也逐步放棄了服役多年的celery項目。恰好，公司找 

  
 

    

    
    Python爬蟲學習（一）
      code   time   response   utf   path   urllib   quest   ext   .com   Python訪問網頁主要使用包urllib
打開網頁使用

urllib.request.urlopen(url, data=None, [timeout, ]*, cafi 

  
 

    

    
    Python修行之Dict初識（一）
      name   鍵值   可變   語句   ppi   iter   rom   ping   The   字典全稱（Dictionaries）
字典為非線性結構
類似Dict稱為k-v對、全名為:key - value鍵值對的數據的集合
dict是可變的、無序的、key不重復（去重）
*key必須可以has 

  
 

    

    
    Python網路資料爬取----網路爬蟲基礎（一）
       
The website is the API......(未來的資料都是通過網路來提供的，website本身對爬蟲來講就是自動獲取資料的API)。掌握定向網路資料爬取和網頁解析的基本能力。 
##Requests 庫的使用，此庫是Python公認的優秀的第三方網路爬蟲庫。能夠自動的爬取HTML頁面；自動的 

  
 

    

    
    Python學習手冊之控制結構（一）
      布林比較布林Python 有許多種資料型別，其中一種型別叫布林，英文表示為 Boolean。它包含兩個值:True 和 False。有兩種方式可以宣告資料型別是布林型。一種是直接宣告，另外一種是通過值比較產生，比如等於運算子==。 
 
 >>> boolean = True
>> 

  
 

    

    
    Python爬蟲基礎（一）——HTTP
      前言 
　　因特網聯絡的是世界各地的計算機（通過電纜），全球資訊網聯絡的是網上的各種各樣資源（通過文字超連結），如靜態的HTML檔案，動態的軟體程式······。由於全球資訊網的存在，處於因特網中的每臺計算機可以很方便地進行訊息交流、檔案資源交流······。基於因特網的幫助，我們可以在web客戶端（如瀏覽器 

  
 

    

    
    Python爬蟲入門（一）寫在前面
      
                一、前言

你是不是在為想收集資料而不知道如何收集而著急？

你是不是在為想學習爬蟲而找不到一個專門為小白寫的教程而煩惱？

Bingo! 你沒有看錯，這就是專門面向小白學習爬蟲而寫的！我會採用例項的方式，把每個部分都跟實際的例子結合起來幫助小夥伴兒們理解。最後再寫幾個實戰的 

  
 

    

    
    Python爬蟲開發（一）：零基礎入門
       
 
 0×00 介紹 
 本人對於Python學習建立了一個小小的學習圈子，為各位提供了一個平臺，大家一起來討論學習Python。歡迎各位到來Python學習群：960410445一起討論視訊分享學習。Python是未來的發展方向，正在挑戰我們的分析能力及對世界的認知方式，因此，我們與時俱進，迎接變化，並 

  
 

    

    
    床頭筆記之Python程式設計實用函式（一）
      
							
							
							Python count() 方法： 統計次數
用於字串str
count() 方法用於統計字串裡某個字元出現的次數。可選引數為在字串搜尋的開始與結束位置。
str.count(sub, start= 0,end=len(string))
引數
sub – 搜尋 

  
 

    

    
    Python 基礎之階段測試（一）
      1、執行 Python 指令碼的兩種方式：① 進入 Python 直譯器執行；② 通過 Python + .py 檔案的全路徑執行 Python 程式；③ 在 Linux 中還可以通過給 .py 檔案新增執行許可權並 ./*.py 的方式執行。2、簡述位、位元組的關係： 八位是一個位元組。3、簡述 ascll