第二十四節課：requests爬蟲實戰

阿新 • • 發佈：2020-12-05

# 第二十四節課：requests爬蟲實戰
'''
本節課大綱：
1- 爬蟲的概述
2- 爬蟲實操流程
3- 實戰操作
'''
# 1- 爬蟲的概述
# 我們瞭解的網路爬蟲是什麼？  ------爬取資料
# 使用者獲取網路資料的方式：瀏覽器提交請求-->下載網頁程式碼-->解析/渲染成頁面
# 爬蟲流程：模擬瀏覽器傳送請求-->下載網頁程式碼-->只提取有用的資料-->存放於資料庫或者檔案中
# 網路爬蟲：想網站發起請求，獲取資源後分析並提取有用資料的程式
# 網路爬蟲的作用：資訊時代，資料可以創造財富
# 網際網路中最有價值的便是資料，比如天貓商城的商品資訊，鏈家網的租房資訊等等，這些資料都代表了各行各業的真金白銀

# 2- 爬蟲操作流程
# 很簡單 Python（用於構造編輯請求）+requests（用這個庫區傳送和解析請求）+excel（存資料） 就可以實現爬蟲
# 1、模擬瀏覽器傳送請求
# 2、下載網頁程式碼
# 3、只提取有用的資料
# 4、存放於資料庫或者檔案中
# 例項：
import requests
''' 
反扒機制：
    1- 判別是否是瀏覽器--後果：報錯遠端主機強迫關閉了一個現有連結--解決方案：模擬瀏覽器
    2- 驗證碼 拖拽或者輸入
    3- 封IP
    4- 封賬號
'''
user_header = {'User-Agent':'Baiduspider'}
# 1 使用requests構建請求
web_usl='https://www.51job.com/'
resp = requests.get(web_usl,headers = user_header)  #如果有反扒機制，就在括號裡面加上headers，即寫作：resp = requests.get(web_usl，headers =user_header)
# 2 獲取響應資料
print(resp.text)    #打印出來有超級多的程式碼
# 3 提取有效資料

# 4 儲存Excel

第二十四節課：requests爬蟲實戰

# 第二十四節課：requests爬蟲實戰\'\'\'本節課大綱：1- 爬蟲的概述2- 爬蟲實操流程3- 實戰操作\'\'\'# 1- 爬蟲的概述# 我們瞭解的網路爬蟲是什麼？------爬取資料# 使用者獲取網路資料的方式：瀏覽器提交請求-->

風炫安全WEB安全學習第四十四節課敏感資訊洩漏

第四十四節課敏感資訊洩漏敏感資訊洩漏 0x01 漏洞簡介敏感資料包括但不限於：口令、金鑰、證書、會話標識、License、隱私資料(如短訊息的內容)、授權憑據、個人資料(如姓名、住址、電話等)等，在程式檔案、配置檔案

Android http（第二十五節課）

技術標籤：android 第二十五節課 http .HTTP ( Hyper Text Transfer Protocol) 協議即超文字傳輸協議，它規定了瀏覽器和全球資訊網伺服器之間互相通訊的規則。從圖中可以看出，使用手機客戶端訪問百度時，會發送

第二十四節面向物件繼承另一個視訊的筆記

繼承繼承的本質某一批類的抽象，從而實現對現實世界更好的建模。 extends的意思是“擴充套件”。子類是父類的擴充套件。

第十四節：Lambda、linq、SQL的相愛相殺(3)

一. SQL 開篇 1. where用法 1　　　#region 封裝EF呼叫SQL語句查詢 2public static List<T> ExecuteQuery<T>(string sql,params SqlParameter[] pars)

Python爬蟲第一課：requests的使用

requests模組的入門使用注意是requests不是request. 1、為什麼使用requests模組，而不是用python自帶的urllib

java基礎第二十四課---java內部類

技術標籤：java基礎java 內部類是一個定義在另一個類中的類。那為什麼要使用內部類呢？其主要原因有以下三點

風炫安全WEB安全學習第四十五節課資訊收集之子域名蒐集

資訊收集之子域名蒐集滲透測試常見手法和思維資訊收集簡述資訊收集對於滲透測試前期來說是非常重要的，因為只有我們掌握了目標網站或目標主機足夠多的資訊之後，我們才能更好地對其進行漏洞檢測。正所謂，知己知

第二十四章實踐部署邏輯卷

實踐一、部署邏輯卷第一步：安裝 yum install -y lvm2 第二步：讓兩塊硬碟支援LVM技術

8.17Java入門--->第二十一節（IO流）

1、輸入流，輸出流 2、位元組流、字元流位元組流主要是input stream和outputSteam作為基類

第二十四章 IPtables防火牆

一、iptables防火牆基本概述 1.應用場景 1.主機安全2.埠轉發/ip轉發3.內部共享上網

Linux學習-28期-第四節課

管道符、重定向與環境變數輸入輸出重定向輸入重定向：< 輸出重定向: >（清空寫入）, >>（追加寫入），2>/2>>錯誤輸出,&>全部輸出 eg. 重定向將命令和檔案相結合

第十四節—dyld載入流程

本文為L_Ares個人寫作，以任何形式轉載請表明原文出處。想探索dyld的載入流程，還是需要一些比較常識性的東西，我們就從庫這個東西開始說。

第十六節課:模組與包

# 模組與包的作用\'\'\'本節大綱:1- 模組與包的作用2- 模組的定義與使用3- 包的定義與使用\'\'\'# 1- 模組與包的作用\'\'\'目前我們還只是一個檔案,但是實際的專案程式碼量很大,有十幾萬行甚至幾十萬行,為了方便管理

第25節課：pytest測試框架

# 第25節課：pytest測試框架\'\'\'本節大綱：1- pytest框架簡介2- pytest執行測試用例3- 資料驅動\'\'\'# 1- pytest框架簡介\'\'\'簡介“*Pytest是Python的第三方單元測試框架，比自帶unittest更簡介高效*支援315中以

統計學習方法第十四章作業：聚類—層次聚類聚合/分裂演算法、K_means聚類演算法程式碼實現

技術標籤：統計學習方法演算法聚類python機器學習層次聚類聚合/分裂演算法 import numpy as np

風炫安全WEB安全學習第十七節課使用Sqlmap自動化注入(一)

[風炫安全WEB安全學習第十七節課使用Sqlmap自動化注入(一)](https://www.bilibili.com/video/bv17A411j7Yk?p=17)

風炫安全web安全學習第三十二節課 Python程式碼執行以及程式碼防禦措施

風炫安全web安全學習第三十二節課 Python程式碼執行以及程式碼防禦措施 Python 語言可能發生的命令執行漏洞

風炫安全web安全學習第三十七節課 15種上傳漏洞講解(二)

風炫安全web安全學習第三十七節課15種上傳漏洞講解(二) 05字尾名黑名單校驗之上傳.htaccess繞過

風炫安全web安全學習第三十六節課-15種上傳漏洞講解(一)

風炫安全web安全學習第三十六節課15種上傳漏洞講解(一) 檔案上傳漏洞 0x01 漏洞描述和原理