Python爬蟲學習——1.爬蟲入門

阿新 • • 發佈：2020-11-16

HTTP和HTTPS

HTTP協議（HyperText Transfer Protocol，超文字傳輸協議）：是一種釋出和接收 HTML頁面的方法。

HTTPS（Hypertext Transfer Protocol over Secure Socket Layer）簡單講是HTTP的安全版，在HTTP下加入SSL層。

SSL（Secure Sockets Layer 安全套接層）主要用於Web的安全傳輸協議，在傳輸層對網路連線進行加密，保障在Internet上資料傳輸的安全。

HTTP的埠號為80，
HTTPS的埠號為443

HTTP請求方式

get請求：從伺服器上獲取指定頁面資訊

　　　　特點：比較便捷

　　　　缺點：不安全，引數的長度有限制

post請求：向伺服器提交資料並獲取頁面資訊

　　　　特點：比較安全，資料整體沒有限制，通常用來向HTTP伺服器提交量比較大的資料（比如請求中包含許多引數或者檔案上傳操作等）

當傳送網路請求時（需要帶一定的資料給伺服器，不帶資料也可以），會看到請求頭：request header和客戶端返回資料的相應：response

request headers包含資訊：

Accept：文字的格式
Accept-Encoding：編碼格式
Connection：長連結/短連結
Cookie：驗證用的資訊
Host：域名
Referer：標誌從那個頁面跳轉過來的

User-Agent：瀏覽器和使用者的資訊

爬蟲入門

1. 什麼是爬蟲？

　　使用程式碼模擬使用者，批量的傳送網路請求，批量的獲取資料。

2. 爬蟲的價值？

　　買賣資料（高階的領域價格昂貴！！）；資料分析；流量；......

3. 爬蟲的合法性？

　　灰色產業（沒有法律明確規定是否違法）。

4. 爬蟲可以爬取所有東西嗎？

　　不可以。爬蟲只能怕去到使用者所能訪問到的資訊。如騰訊視訊vip使用者可以爬取vip視訊，普通使用者只可爬取非vip的視訊。

5. 爬蟲的分類？

通用爬蟲：使用搜索引擎
- 優勢：開放性，速度快
- 劣勢：目標不明確，返回內容大多使用者不需要，不清楚使用者的需求
聚焦爬蟲！！！
- 優勢：目標明確，能夠精準捕捉使用者需求，返回的內容固定

6. 爬蟲的工作原理？

　　（1）確認你抓取目標的url是哪一個

　　（2）使用Python程式碼傳送網路請求來獲取資料

　　（3）解析獲取到的資料（精確資料）

　　（4）資料持久化（將資料儲存在本地）

學習課程：B站《廖雪峰爬蟲》

Python爬蟲學習——1.爬蟲入門

HTTP和HTTPS HTTP協議（HyperText Transfer Protocol，超文字傳輸協議）：是一種釋出和接收 HTML頁面的方法。

python模組學習1

一、random模組在未來的開發中，我們可能需要用到生成隨機數，這樣就需要用到random模組

python基礎學習1

程式設計與程式語言什麼是程式語言程式語言可以簡單的理解為一種計算機和人都能識別的語言。實際上就是讓計算機知道你想做什麼並且能夠按照你的指令去做事。

Python深度學習1——什麼是深度學習

1.什麼是深度學習 1.1人工智慧、機器學習與深度學習 1.1.1人工智慧人工智慧：努力將通常由人類完成的智力任務自動化

python 爬蟲學習入門5 requests庫

技術標籤：爬蟲python Requests庫 requests庫為我們提供了一個封裝好的庫函式，使用更為簡便

學習python爬蟲筆記1----豆瓣TOP250

# Author:KRL# -*- codeing = utf-8 -*-# @Time :2021/7/3020:13# @Author :MI# @Site :# @File :doubantop250.py# @Software :PyCharm# 拿到網頁原始碼 requests# 利用re提取我們需要的內容 reimport requestsimpo

Python爬蟲_Selenium與PhantomJS入門

Python爬蟲_Selenium與PhantomJS Selenium Selenium 是一個Web的自動化測試工具，最初是為網站自動化測試而開發的。型別像我們玩遊戲用的按鍵精靈，可以按指定的命令自動化操作，不同是Selenium可以直接執行在瀏覽器

python爬蟲學習筆記之Beautifulsoup模組用法詳解

本文例項講述了python爬蟲學習筆記之Beautifulsoup模組用法。分享給大家供大家參考，具體如下：

python爬蟲學習筆記之pyquery模組基本用法詳解

本文例項講述了python爬蟲學習筆記之pyquery模組基本用法。分享給大家供大家參考，具體如下：

python爬蟲學習01--電子書爬取

python爬蟲學習01--電子書爬取 1.獲取網頁資訊 import requests#匯入requests庫 \'\'\' 獲取網頁資訊

Python爬蟲學習02--pyinstaller

Python爬蟲學習02--打包exe可執行程式 1.上一次做了一個爬蟲爬取電子書的Python程式，然後發現可以通過pyinstaller進行打包成exe可執行程式。發現非常簡單好用

python爬蟲學習筆記(二十五)-Scrapy框架 Middleware

1. Spider 下載中介軟體(Middleware) Spider 中介軟體(Middleware) 下載器中介軟體是介入到 Scrapy 的 spider 處理機制的鉤子框架，您可以新增程式碼來處理髮送給 Spiders 的 response 及 spider 產生的 item 和 req

python爬蟲學習筆記(二十四)-Scrapy框架圖片管道的使用

1. 介紹 Scrapy提供了一個 item pipeline ，來下載屬於某個特定專案的圖片，比如，當你抓取產品時，也想把它們的圖片下載到本地。

python爬蟲學習筆記(二十三)-Scrapy框架 CrawlSpider

1. CrawlSpiders 原理圖 sequenceDiagram start_urls ->>排程器: 初始化url 排程器->>下載器: request

python爬蟲學習筆記(二十二)-Scrapy框架案例實現

爬取小說 spider import scrapy from xiaoshuo.items import XiaoshuoItem class XiaoshuoSpiderSpider(scrapy.Spider):

python爬蟲學習筆記(二十九)-Scrapy 框架-分散式

1. 介紹scrapy-redis框架 scrapy-redis 一個三方的基於redis的分散式爬蟲框架，配合scrapy使用，讓爬蟲具有了分散式爬取的功能。

python爬蟲學習筆記(二十八)-Scrapy 框架爬取JS生成的動態頁面

問題有的頁面的很多部分都是用JS生成的，而對於用scrapy爬蟲來說就是一個很大的問題，因為scrapy沒有JS engine，所以爬取的都是靜態頁面，對於JS生成的動態頁面都無法獲得

python -爬蟲學習2：獲取資料requests 庫

上一篇介紹的主要是爬蟲的工作原理，大致分為四個步驟：獲取資料解析資料提取資料儲存資料。這一篇主要就從獲取資料介紹起。

python爬蟲學習筆記（更新中）

requests庫簡單介紹 import requests r = requests.get("url") /* r=requests.get(url,params=Node,**kwargs)

Python學習筆記--爬蟲

1.編碼方式 Unicode為了執行統一標準，將所有國家的編碼方式加了進來，例如常用的UTF-8就是Unicode的一種實現方式，他是可變長編碼。

Python爬蟲學習——1.爬蟲入門

HTTP和HTTPS

HTTP請求方式

request headers包含資訊：

爬蟲入門

1. 什麼是爬蟲？

2. 爬蟲的價值？

3. 爬蟲的合法性？

4. 爬蟲可以爬取所有東西嗎？

5. 爬蟲的分類？

6. 爬蟲的工作原理 ？

相關推薦

6. 爬蟲的工作原理？