爬蟲基礎

阿新 • • 發佈：2017-11-06

二進制 font ref 提交解析json數據 user 網頁代碼 int query

一、爬蟲的原理

用戶獲取網絡數據的方式：

瀏覽器提交請求->下載網頁代碼->解析成頁面。而網頁代碼中便包含了我們想要的數據

爬蟲就是模擬瀏覽器發送請求，然後提取想要的數據，存放於數據庫或文件中

#1、發起請求
使用http庫向目標站點發起請求，即發送一個Request
Request包含：請求頭、請求體等

#2、獲取響應內容
如果服務器能正常響應，則會得到一個Response
Response包含：html，json，圖片，視頻等

#3、解析內容
解析html數據：正則表達式，第三方解析庫如Beautifulsoup，pyquery等
解析json數據：json模塊
解析二進制數據:以b的方式寫入文件

 
#4、保存數據
數據庫
文件

二、request

1、請求方式

#1、請求方式：
    常用的請求方式：GET，POST
    其他請求方式：HEAD，PUT，DELETE，OPTHONS

    ps：用瀏覽器演示get與post的區別，（用登錄演示post）

    post與get請求最終都會拼接成這種形式：k1=xxx&k2=yyy&k4=zzz
    post請求的參數放在請求體內：
        可用瀏覽器查看，存放於form data內
    get請求的參數直接放在url後

#2、請求url
    url全稱統一資源定位符，如一個網頁文檔，一張圖片
    一個視頻等都可以用url唯一來確定

    url編碼
    https://www.baidu.com/s?wd=圖片
    圖片會被編碼（看示例代碼）


    網頁的加載過程是：
    加載一個網頁，通常都是先加載document文檔，
    在解析document文檔的時候，遇到鏈接，則針對超鏈接發起下載圖片的請求

#3、請求頭
    User-agent：請求頭中如果沒有user-agent客戶端配置，
    服務端可能將你當做一個非法用戶
    host
    cookies：cookie用來保存登錄信息

    一般做爬蟲都會加上請求頭


#4、請求體
    如果是get方式，請求體沒有內容
    如果是post方式，請求體是format data

    ps：
    1、登錄窗口，文件上傳等，信息都會被附加到請求體內
    2、登錄，輸入錯誤的用戶名密碼，然後提交，就可以看到post，正確登錄後頁面通常會跳轉，無法捕捉到post

三、response

#1、響應狀態
    200：代表成功
    301：代表跳轉
    404：文件不存在
    403：權限
    502：服務器錯誤

#2、respone header
    set-cookie：可能有多個，是來告訴瀏覽器，把cookie保存下來
    
#3、preview就是網頁源代碼
    最主要的部分，包含了請求資源的內容
    如網頁html，圖片
    二進制數據等

示例：

import requests
import re
import hashlib,time

# def get_index(url):
#     獲取當前url的頁面內容 

#     response=requests.get(url)
#     if response.status_code == 200:
#         return response.text
#
# def parse_index(res):
#     匹配需要訪問的標簽
#     urls=re.findall(r‘class="items".*?href="(.*?)"‘,res,re.S)
#     return urls
#
# def get_detail(urls):
#     根據需要訪問的標簽匹配需要的內容標簽
#     for url in urls:
#         if not url.startswith(‘http‘):
#             url=‘http://www.xiaohuar.com%s‘ %url
#         r1=requests.get(url)
#         if r1.status_code == 200:
#             l=re.findall(r‘id="media".*?src="(.*?)"‘,r1.text,re.S)
#             if l:
#                 mp4_url=l[0]
#                 # print(mp4_url)
#                 save(mp4_url)
#
# def save(url):
#     保存需要訪問的地址內容
#     print(‘Download：%s‘ %url)
#     r2=requests.get(url)
#     if r2.status_code == 200:
#         m=hashlib.md5()
#         m.update(url.encode(‘utf-8‘))
#         m.update(str(time.time()).encode(‘utf-8‘))
#         filename=‘%s.mp4‘ %m.hexdigest()
#         file_path=r‘G:\\%s‘ %filename
#         with open(file_path,‘wb‘) as f:
#             f.write(r2.content)
#
#
# def main():
#     匹配所有的頁面
#     for i in range(5):
#         res1=get_index(‘http://www.xiaohuar.com/list-3-%s.html‘ %i)
#         res2=parse_index(res1)
#         get_detail(res2)
#
#
# if __name__ == ‘__main__‘:
#     main()

爬蟲基礎

Python爬蟲小白---（二）爬蟲基礎--Selenium PhantomJS

decode bject windows beautiful 結構由於 target header 速度一、前言　　前段時間嘗試爬取了網易雲音樂的歌曲，這次打算爬取QQ音樂的歌曲信息。網易雲音樂歌曲列表是通過iframe展示的，可以借助Selenium獲

爬蟲基礎模塊

封裝 httpproxy dumps readme clas blog 互聯網 gbk img Python標準庫中提供了：urllib、urllib2、httplib等模塊以供Http請求，但是，它的 API 太渣了。它是為另一個時代、另一個互聯網所創建的。它需要巨量的工

爬蟲基礎知識與簡單爬蟲實現

春秋屬性 str 版本 page 2017年 light install defaults css規則：選擇器，以及一條或者多條生命。 selector{declaration1;,,,;desclarationN} 每條聲明是由一個屬性和一個值組成 propert

爬蟲基礎02-day24

html send ont http 序列化 switch 知乎初始 robot 寫在前面上課第24天，打卡：　　　　努力不必讓全世界知道； 1 s16/17爬蟲2 2 3 內容回顧： 4 1. Ht

爬蟲基礎知識

動態 match 正則表達式正則表達括號學習 () 虛擬 path 1.安裝 requests scrapy 豆瓣源 pip install -i 豆瓣源包名 2.新建虛擬環境時使用 -p 參數指定 Python的版本目錄 virtualenv

爬蟲基礎

二進制 font ref 提交解析json數據 user 網頁代碼 int query 一、爬蟲的原理用戶獲取網絡數據的方式：瀏覽器提交請求->下載網頁代碼->解析成頁面。而網頁代碼中便包含了我們想要的數據爬蟲就是模擬瀏覽器發送請求，然後提取想要的數據，

爬蟲新手學習1-爬蟲基礎

計算機 china 用戶名 ges wps 請求頭重復內容 dnspod tran 一、為什麽要做爬蟲？首先：都說現在是"大數據時代"，那數據從何而來？企業產生的用戶數據：百度指數、阿裏指數、TBI騰訊瀏覽指數、新浪微博指數數據平臺購買數據：數據堂、國雲數據市場、

網絡爬蟲基礎一

ascii json數據 with pre utf-8 頁面跳轉 while post wow64 爬蟲的分類按使用場景：通用爬蟲：指搜索引擎的爬蟲聚焦爬蟲：指針對特定網站的爬蟲聚焦爬蟲又可以分為大致3種：累積式爬蟲: 從開始到結束,一直不斷爬取，過程中

爬蟲基礎(理論基礎)--01

名稱 err 接收 web app 版本號等待正則 .... 將不世界上80%的爬蟲是基於Python開發的，學好爬蟲技能，可為後續的大數據分析、挖掘、機器學習等提供重要的數據源。整理這個文檔資料希望能對小夥伴有幫助。什麽是爬蟲？網絡爬蟲（又被稱為網頁蜘蛛

爬蟲基礎(requests庫的基本使用)--02

證書 wid text 關系 info 簡單出現 storage 傳遞數據什麽是Requests Requests是用python語言基於urllib編寫的，采用的是Apache2 Licensed開源協議的HTTP庫如果你看過上篇文章關於urllib庫的使用，你會發現

爬蟲基礎(BeautifulSoup庫的使用)--04

實現了解文本 con AD 解析 num prev sele 上一篇文章的正則，其實對很多人來說用起來是不方便的，加上需要記很多規則，所以用起來不是特別熟練，而這節我們提到的beautifulsoup就是一個非常強大的工具，爬蟲利器。 beautifulSoup “美味

網絡爬蟲基礎練習

style 列表 pan inf ews post itl htm 生成 0.可以新建一個用於練習的html文件，在瀏覽器中打開。 1.利用requests.get(url)獲取網頁頁面的html文件 import requests newsurl=‘http://ne

Python爬蟲基礎知識及前期準備

多多指教 arm 讀取第一次小項目網信替換 mark python爬蟲學習爬蟲有一小段時間了，於是決定把自己學爬蟲時所學的，寫過的代碼以及看過的文檔記錄下來，權當小結。第一次寫這些，如果有錯誤，請多指教。首先我們需要了解一下什麽是爬蟲。根據百度百科上給出的定義

python爬蟲基礎案例之糗事百科

alt 依靠 webdriver pytho 糗事百科代碼 web 分享圖片 sel 關於爬蟲也是剛接觸，案例是基於python3做的，依靠selenium的webdriver做的，所以python3必須有selenium這個包，如果是基於谷歌瀏覽器的話需要下載谷歌瀏

爬蟲基礎入門（一）

第三部分 tps 百度首頁控制 set 協議 debug AD 主機 1 URL含義 URL的格式由三部分組成： ①第一部分是協議(或稱為服務方式)。 ②第二部分是存有該資源的主機IP地址(有時也包括端口號)。 ③第三部分是主機資源的具體地址，如目錄和文件名等。 2 分

Python爬蟲基礎與技巧

修改 request對象 enc 語言是我 res 加密 firefox int 基於Python2.71 基本抓取網頁get 方法import urllib2url = "http://www.baidu.com"response = urllib2

爬蟲基礎二

瀏覽器軌跡 slider 回來 gb2 all for start cti 1概念： a層級 1 1 1 1 1 1 1 1 1

爬蟲基礎---HTTP協議理解、網頁的基礎知識、爬蟲的基本原理

以及 res form 一次發的 urn 網絡協議位置 nsf 一、HTTP協議的理解 URL和URI 在學習HTTP之前我們需要了解一下URL、URI(精確的說明某資源的位置以及如果去訪問它) URL：Universal Resource Locator 統一資源定位

python 爬蟲基礎知識(繼續補充)

client 網絡連接安全套接層計算 http 所有 .cn nec 文件上傳學了這麽久爬蟲,今天整理一下相關知識點,還會繼續更新 HTTP和HTTPS HTTP協議（HyperText Transfer Protocol，超文本傳輸協議）：是一種發布和接收 HTML

爬蟲基礎篇1--爬蟲原理

響應方式狀態 key-value 狀態碼正則獲取網頁 res -- 1.什麽是爬蟲？請求網站並提取數據的自動化程序（讓程序替你去上網） 2.爬蟲的基本流程（1）向服務器發起請求（2）獲取網頁內容（3）解析內容（4）保存數據 3.什麽是request和response

爬蟲基礎

相關推薦