一文帶你瞭解Python 四種常見基礎爬蟲方法介紹

阿新 • • 發佈：2020-12-04

一、Urllib方法

Urllib是python內建的HTTP請求庫

import urllib.request
#1.定位抓取的url
url='http://www.baidu.com/'
#2.向目標url傳送請求
response=urllib.request.urlopen(url)
#3.讀取資料
data=response.read()
# print(data) #打印出來的資料有ASCII碼
print(data.decode('utf-8')) #decode將相應編碼格式的資料轉換成字串

#post請求
import urllib.parse
url='http://www.iqianyue.com/mypost/'
#構建上傳的data
postdata=urllib.parse.urlencode({
 'name':'Jack','pass':'123456'
}).encode('utf-8') #字串轉化成位元組流資料
html=urllib.request.urlopen(url,data=postdata).read()
print(html)

#headers針對檢驗頭資訊的反爬機制
import urllib.request
headers={
'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML,like Gecko) Chrome/58.0.3029.110 Safari/537.36'
}
request1=urllib.request.Request('https://www.dianping.com/',headers=headers)#Request類構建了一個完整的請求
response1=urllib.request.urlopen(request1).read()
print(response1.decode('utf-8'))

#超時設定+異常處理
import urllib.request
import urllib.error
for i in range(20):
 try:
  response1=urllib.request.urlopen('http://www.ibeifeng.com/',timeout=0.01)
  print('a')
 except urllib.error.URLError as e:
  print(e)
 except BaseException as a: #所有異常的基類
  print(a)

二、requests方法

–Requests是用python語言基於urllib編寫的，採用的是Apache2 Licensed開源協議的HTTP庫

–urllib還是非常不方便的，而Requests它會比urllib更加方便，可以節約我們大量的工作。
–requests是python實現的最簡單易用的HTTP庫，建議爬蟲使用requests庫。
–預設安裝好python之後，是沒有安裝requests模組的，需要單獨通過pip安裝

import requests
#get請求
r=requests.get('https://www.taobao.com/')
#列印位元組流資料
# print(r.content)
# print(r.content.decode('utf-8')) #轉碼
print(r.text) #列印文字資料

import chardet
#自動獲取到網頁編碼，返回字典型別
print(chardet.detect(r.content))

POST請求實現模擬表單登入
import requests
#構建上傳到網頁的資料
data={
 'name':'Jack','pass':'123456'
}
#帶登陸資料傳送請求
r=requests.post('http://www.iqianyue.com/mypost/',data=data)
print(r.text) #列印請求資料
#將登入後的html儲存在本地
f=open('login.html','wb')
f.write(r.content) #寫入位元組流資料
f.close()

#針對檢驗頭資訊的反爬機制headers
import requests
#構建headers
headers={
 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML,like Gecko) Chrome/58.0.3029.110 Safari/537.36'
}
r=requests.get('https://www.dianping.com/',headers=headers)
print(r.text)
print(r.status_code) #狀態403 被攔截了(檢視狀態)

#cookies
#跳過登陸，獲取資源
import requests
f=open('cookie.txt','r') #開啟cookie檔案
#初始化cookies，宣告一個空字典
cookies={}
#按照字元 ； 進行切割讀取，返回列表資料，然後遍歷
#split()：切割函式 strip()去除字串前後空白
for line in f.read().split(';'):
 #split將引數設定為1，把字串切割成兩個部分
 name,value=line.strip().split('=',1)
 #為空字典cookies新增內容
 cookies[name]=value
r=requests.get('http://www.baidu.com',cookies=cookies)
data=r.text
f1=open('baidu.html','w',encoding='utf-8')
f1.write(data)
f1.close()

#設定代理（網站搜尋免費代理ip）
#解決網頁封IP的問題
import requests
proxies={
 #'協議':'ip:埠號'
 'HTTP':'222.83.160.37：61205'
}
req=requests.get('http://www.taobao.com/',proxies=proxies)
print(req.text)

#設定超時
import requests
from requests.exceptions import Timeout
try:
 response = requests.get("http://www.ibeifeng.com ",timeout=0.01)
 print(response.status_code)
except Timeout:
 print('訪問超時！')

三、BS4- BeautifulSoup4解析

from bs4 import BeautifulSoup
html = """
<html><head><title>The Dormouse's story</title></head>
<body>
<p class="title">The Dormouse's story</p>

<p class="story">Once upon a time there were three little sisters; and their names were
<a href="http://example.com/elsie" rel="external nofollow" rel="external nofollow" class="sister" id="link1">Elsie</a>,<a href="http://example.com/lacie" rel="external nofollow" class="sister" id="link2">Lacie</a> and
<a href="http://example.com/tillie" rel="external nofollow" class="sister" id="link3">Tillie</a>;
and they lived at the bottom of a well.</p>

<p class="story">...</p>
"""
# #建立一個BS物件
soup=BeautifulSoup(html,'html.parser') #html.parser預設解析器
print(type(soup))
# 結構化輸出
print(soup.prettify())
#1獲取標籤(只能獲取第一條對應的標籤)
print(soup.p) #獲取p標籤
print(soup.a) #獲取a標籤
print(soup.title) #獲取title
#2獲取標籤內容
print(soup.title.string)
print(soup.a.string)
print(soup.body.string) #如果標籤中有多個子標籤返回None
print(soup.head.string) #如果標籤中有一個子標籤返回子標籤裡的文字
#3獲取屬性
print(soup.a.attrs) #返回字典
print(soup.a['id']) #得到指定屬性值
#4操作位元組點
print(soup.p.contents) #得到標籤下所有子節點
print(soup.p.children) #得到標籤下所有子節點的迭代物件
#5操作父節點
print(soup.p.parent) #得到標籤p的父節點其內部的所有內容
print(soup.p.parents) # 得到標籤p的父節點的迭代物件
#6操作兄弟節點(同級的節點)
#next_sibling和previous_sibling分別獲取節點的下一個和上一個兄弟元素
print(soup.a.next_sibling)
print(soup.a.previous_sibling)

#二.搜尋文件數
#1標籤名
#查詢所有a標籤
res1=soup.find_all('a')
print(res1)
#獲取所有a標籤下屬性為class="sister"的標籤（
#使用 class 做引數會導致語法錯誤，這裡也要用class_）
print(soup.find_all('a',class_="sister"))
#2正則表示式
import re
#查詢所有包含d字元的標籤
res2=soup.find_all(re.compile('d+'))
print(res2)
#3列表
#查詢所有的title標籤和a標籤
res3=soup.find_all(['title','a'])
print(res3)
#4關鍵詞
#查詢屬性id='link1'的標籤
res4=soup.find_all(id='link1')
print(res4)
#5內容匹配
res5=soup.find_all(text='Tillie') #文字匹配
res55=soup.find_all(text=re.compile('Dormouse'))
print(res55)
#6巢狀選擇
print(soup.find_all('p'))
#檢視所有p標籤下所有的a標籤
for i in soup.find_all('p'):
 print(i.find_all('a'))

#三.CSS選擇器
#1根據標籤查詢物件
res6=soup.select('a') #返回列表
print(res6) #得到所有的a標籤
#2根據ID屬性查詢標籤物件(id用#)
print(soup.select('#link2'))
#3根據class屬性查詢標籤物件(class用.)
print(soup.select('.sister'))
print(soup.select('.sister')[2].get_text()) #獲取文字內容
#4屬性選擇(獲取a標籤裡=href屬性值的標籤)
print(soup.select('a[href="http://example.com/elsie" rel="external nofollow" rel="external nofollow" ]'))
#5包含選擇(獲取)
print(soup.select('p a#link1'))
#6並列選擇
print(soup.select('a#link1,a#link2'))
#7得到標籤內容
res7=soup.select('p a.sister')
for i in res7:
 print(i.get_text())

#練習：爬取51job主頁12個職位
from bs4 import BeautifulSoup
import requests
url='https://www.51job.com/'
headers={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML,like Gecko) Chrome/58.0.3029.110 Safari/537.36'}
html=requests.get(url,headers=headers)
data=html.content.decode('gbk')
soup=BeautifulSoup(data,'html.parser')
#獲取span標籤，class_="at"屬性
span=soup.find_all('span',class_="at")
# for i in span:
#  print(i.get_text())
#select方法（CSS選擇器）
span1=soup.select('span[class="at"]')
for m in span1:
 print(m.get_text())

四、XPath語法

XPath 是一門在 XML 文件中查詢資訊的語言。
XPath 可用來在 XML 文件中對元素和屬性進行遍歷

from lxml import etree
text='''
 <html>
  <head>
   <title>春晚</title>
  </head>
  <body>
   <h1 name="title">個人簡介</h1>
   <div name="desc">
    <p name="name">姓名：<span>岳雲鵬</span></p>
    <p name="addr">住址：中國 河南</p>
    <p name="info">代表作：五環之歌</p>
   </div>
'''
#初始化
html=etree.HTML(text)
# result=etree.tostring(html) #位元組流
# print(result.decode('utf-8'))
#查詢所有的p標籤
p_x=html.xpath('//p')
print(p_x)
#查詢所有p標籤的文字,用text只能拿到該標籤下的文字，不包括子標籤
for i in p_x:
 print(i.text) #發現<span>沒有拿到
#優化，用string（）拿標籤內部的所有文字
for i in p_x:
 print(i.xpath('string(.)'))
# 查詢所有name屬性的值
attr_name=html.xpath('//@name')
print(attr_name)
#查詢出所有包含name屬性的標籤
attr_name1=html.xpath('//*[@name]')
print(attr_name1)

到此這篇關於一文帶你瞭解Python 四種常見基礎爬蟲方法介紹的文章就介紹到這了,更多相關Python 基礎爬蟲內容請搜尋我們以前的文章或繼續瀏覽下面的相關文章希望大家以後多多支援我們！

一文帶你瞭解Python 四種常見基礎爬蟲方法介紹

一、Urllib方法 Urllib是python內建的HTTP請求庫 import urllib.request #1.定位抓取的url url=\'http://www.baidu.com/\'

一文帶你瞭解Python Socket 程式設計

大家好，我是皮皮。前言 Socket又稱為套接字，它是所有網路通訊的基礎。網路通訊其實就是程序間的通訊，Socket主要是使用IP地址，協議，埠號來標識一個程序。埠號的範圍為0~65535(使用者埠號一般大於1024)，協議有很

一文帶你瞭解兩種Transformer文字識別方法

一文帶你瞭解兩種Transformer文字識別方法由堅強是說給別人聽的謊言提交於2020-11-27 12:47:35

綜述：一文帶你瞭解情感分析的方法有幾種

©原創作者| 雙鴨山學長摘要：文字情感分析是自然語言處理領域的一個重要分支，廣泛應用於輿情分析和內容推薦等方面，是近年來的研究熱點。根據使用的不同方法，將其劃分為基於情感詞典的情感分析方法、基於傳統機

從0到1一文帶你瞭解分析分散式事務

目錄什麼是事務？換個角度看事務 Java 中的事務什麼是分散式事務？分散式事務的幾種實現思路

一文帶你瞭解單例設計模式

1.基本介紹單例模式（Singleton Pattern）是 Java 中最簡單的設計模式之一。這種型別的設計模式屬於建立型模式，它提供了一種建立物件的最佳方式。

一文帶你瞭解什麼是Zuul閘道器

著作權歸作者所有，任何形式的轉載都請聯絡作者獲得授權並註明出處。 Zuul閘道器和基本應用場景

一文帶你瞭解 C# DLR 的世界(DLR 探祕)

在很久之前，我寫了一片文章詳解C# 匿名物件（匿名型別）、var、動態型別 dynamic，可以借鑑。因為那時候是心中想當然的認為只有反射能夠在執行時解析物件的成員資訊並呼叫成員方法。後來也是因為其他的事一直都沒有

做java這麼久了居然還不知道JSON的使用(一文帶你瞭解)

JSON（JavaScript Object Notation,NS物件標記）是一種輕量級的資料交換格式，目前使用特別廣泛。

一文帶你瞭解Sql優化

我們後臺開發人員每天都難免與資料庫打交道，那麼你在寫sql語句的時候有注重到自己sql的效率嗎？當你sql查詢速度很慢的時候你有想過是你的sql語句造成的嗎？看完這篇文章，我相信你會對sql優化有了一定的瞭解！

一文帶你瞭解基於視覺的機器人抓取自學習(Robot Learning)

點選上方“3D視覺工坊”，選擇“星標” 乾貨第一時間送達 “一眼就能學會動作”，或許對人而言，這樣的要求有點過高，然而，在機器人的身上，這個想法正在逐步實現中。馬斯克（Elon Musk）創立的人工智慧

一文帶你瞭解.Net基於Threading.Mutex實現互斥鎖

本文主要講解.Net基於Threading.Mutex實現互斥鎖基礎互斥鎖實現基礎概念：和自旋鎖一樣，作業系統提供的互斥鎖內部有一個數值表示鎖是否已經被獲取，不同的是當獲取鎖失敗的時候，它不會反覆進行重試，而且讓執行

一文帶你瞭解vue3.0響應式

目錄使用案例reactive API相關的流程reactivecreateReactiveObject 建立響應式物件mutableHandlers 處理函式get函式get函式的的呼叫時機track 收集依賴set函式trigger 分發依賴get和副作用渲染函式關聯副作用渲染函式

泡沫股價、外賣小哥要失業了？測試員還要不要進美團？一文帶你瞭解背後真相

你知道美團值多少錢嗎？去年的中國明星股票中，美團以460的單日收盤價位居第二位，整個美團這個時候值2.3萬億，差不多是騰訊阿里的一半市值。前面我們說到過騰訊和阿里他們的業務是多方向的，而作為專注做生活服務

一文帶你瞭解JavaScript垃圾回收機制

目錄1. 概述2. 記憶體管理3. 垃圾回收4. GC演算法介紹5. 引用計數演算法1. 引用計數優缺點6. 標記清除演算法1. 標記清除演算法優缺點7. 標記整理演算法8. 執行時機9. V8引擎1. 垃圾回收策略2. 回收新生代物件3. 回收

一文帶你瞭解JavaScript基礎之深拷貝和淺拷貝

目錄淺拷貝深拷貝補充總結拷貝（又名克隆，複製等），但是又分深拷貝和錢拷貝。

一文帶你瞭解什麼是GitOps

摘要：說起GitOps，可能很多朋友馬上會聯想到DevOps，那麼GitOps和DevOps之間有什麼關係、又有什麼區別呢？

一文帶你瞭解圖和圖分析

1. 什麼是圖近幾年，全球大資料進入了加速發展時期，資料量呈指數級增長。大資料中不同個體間的關聯關係產生的資料以圖的形式呈現。這裡的圖是針對數學中的“圖論”而言，主要是由點和邊組成的資料結構。頂點相當於

一文帶你瞭解知識圖譜融入預訓練模型哪家強？九大模型集中放送

如何保證同事的程式碼不會腐爛？一文帶你瞭解阿里巴巴 COLA 架構

一起養成寫作習慣！這是我參與「掘金日新計劃 · 4 月更文挑戰」的第1天，點選檢視活動詳情。

一文帶你瞭解Python 四種常見基礎爬蟲方法介紹

相關推薦