【Python】 requests 爬取部落格園內容AttributeError: 'NoneType' object has no attribute 'xpath'

阿新 • • 發佈：2020-08-10

本篇文章主要介紹requests獲取網頁內容出現 'NoneType' object has no attribute 'xpath' 異常的解決思路

下面是出錯的程式碼：

import requests
from lxml import etree
response = requests.get('https://blog.csdn.net/it_xf?viewmode=contents')
etree_html = etree.HTML(response.text)
content = etree_html.xpath('//*[@id="mainBox"]/main/div[2]/div[1]/h4/a/text()')

for each in content:
    replace = each.replace('\n', '').replace(' ', '')
    if replace == '\n' or replace == '':
        continue
    else:
        print(replace)

1、錯誤分析

獲取到的html.text 為空字串；所以下面丟擲異常NoneType

原因是請求Get 需要增加 headers來解決反扒；模擬瀏覽器請求來獲取資料；

2、解決辦法

首先找到需要的headers，headers 如何尋找？看下圖的標記：

然後直接把上面的headers複製出來放到程式碼中進行改造；

改造後的程式碼如下：

import requests
from lxml import etree
headers = {
    'user-agent':
        'Mozilla / 5.0(Windows NT 10.0; WOW64) '
        'AppleWebKit / 537.36(KHTML, likeGecko) '
        'Chrome / 53.0.2785.104Safari / 537.36Core / 1.53.4882.400QQBrowser / 9.7.13059.400'
}
response = requests.get('https://blog.csdn.net/it_xf?viewmode=contents', headers = headers)
etree_html = etree.HTML(response.text)
content = etree_html.xpath('//*[@id="mainBox"]/main/div[2]/div[1]/h4/a/text()')

for each in content:
    replace = each.replace('\n', '').replace(' ', '')
    if replace == '\n' or replace == '':
        continue
    else:
        print(replace)

【Python】 requests 爬取部落格園內容AttributeError: 'NoneType' object has no attribute 'xpath'

本篇文章主要介紹requests獲取網頁內容出現 \'NoneType\' object has no attribute \'xpath\' 異常的解決思路

詳解Python爬蟲爬取部落格園問題列表所有的問題

一.準備工作首先，本文使用的技術為 python+requests+bs4，沒有了解過可以先去了解一下。

python爬取部落格園資訊用於歸檔--excel篇

之所以要寫程式碼進行爬取，是因為我太懶了，嗚嗚嗚，如果能天天躺著刷手機誰會打程式碼~~

【Python】小說爬取-1.簡易單個小說內容

小說爬取器，單個章節小說內容爬取講解 1.我們需要用到的 requests，parsel，以及你的目標小說

Python爬蟲爬取部落格實現視覺化過程解析

原始碼： from pyecharts import Bar import re import requests num=0 b=[] for i in range(1,11): link=\'https://www.cnblogs.com/echoDetected/default.html?page=\'+str(i)

Python爬蟲技術-根據【理財】關鍵字爬取“巨潮資訊網”的title

知識要點還是之前的方法： 1. .*? 匹配全部內容的正則 2. selenium中元素定位方法 find_element_by_xpath 絕對路徑的獲取方法

爬蟲抓取部落格園前10頁標題帶有Python關鍵字（不區分大小寫）的文章

寫一個簡易的爬蟲程式，抓取部落格園網站首頁前10頁中所有文章標題帶有Python關鍵字（不區分大小寫）的文章，並把文章連結和文章標題存入硬碟，要求如下：

【Python】requests下載+進度條

#!/usr/bin/env python # -*- coding: utf-8 -*- # @Time: 2020/8/1 13:05 # @Author: Shuranima # @File: Single_thread_download.py

WebMagic入門嘗試 ——爬取部落格的標題

通過這兩天的學習，對WebMagic有了初步的掌握，這裡分享的這個小專案是用於爬取我個人部落格的所有標題，我儘量說的詳細些，希望可以幫到和我一樣的初學者。

【工具推薦】下載你在部落格園的文章原稿

序推薦一下博主自己寫的python程式，以md格式下載自己在部落格園的隨筆原稿，保留分類，標記草稿和非公開的稿件。支援離線圖片

.NET Core 實現定時抓取部落格園首頁文章資訊併發送到郵箱

前言大家好，我是曉晨。許久沒有更新部落格了，今天給大家帶來一篇乾貨型文章，一個每隔5分鐘抓取部落格園首頁文章資訊並在第二天的上午9點發送到你的郵箱的小工具。比如我在2018年2月14日，9點來到公司我就會收到一

python報錯: 'list' object has no attribute 'shape'的解決

numpy.array可使用 shape。list不能使用shape。可以使用np.array(list A)進行轉換。（array轉list：array B B.tolist()即可）

Python執行SSL握手報錯 AttributeError: 'module' object has no attribute 'X509_up_ref'處理

執行requests報錯 ====> Sending Panels to webhook https://qyapi.weixin.qq.com/cgi-bin/webhook/send?key=0b8a94fd-5421-4dfa-bbf8-xxxxxxxxxxxx....

python#AttributeError: ‘NoneType‘ object has no attribute ‘astype‘ 麻煩檢查路徑

技術標籤：Py小Bugpython 測試處理圖片報錯 AttributeError: ‘NoneType’ object has no attribute ‘astype’

python-pip升級報錯- AttributeError: 'NoneType' object has no attribute 'bytes'

easy_install -U pip 　　正常的pip升級命令： python -m pip install --upgrade pip 我之前也一直就用這個命令升級，沒碰到啥問題，但是之前一直是在終端裡敲的

[python][爬蟲]批量爬取【漫畫DB】的漫畫圖片

今天看漫畫的時候感覺用瀏覽器實在不爽，就寫個小程式爬了下來。順便安利一個漫畫軟體MComix，超級好用（Linux限定，Win可以用ComicViewer）

【Python爬蟲】：爬取（谷歌/百度/搜狗）的搜尋結果

步驟如下：1.首先匯入爬蟲的package：requests 2.使用UA偽裝進行反反爬蟲，將爬蟲偽裝成一個瀏覽器進行上網

python部落格園資訊爬取--word篇

按照建民老師要求需要以上一篇部落格爬取出來的excel作為目錄，每一條資訊獨立成一個文件。

python爬取個人部落格園部落格列表

前言昨天和幾個小夥伴小聚了一下，但是由於我的失誤，導致諸事不順（逛公園，到門口閉園了；往回走，公交站不好找，走了好多冤枉路），然後手機沒電了，地鐵還停了，回到家也已經不早了，所以昨天就放鴿子了，但是

部落格園牆裂推薦！從未見過如些清新脫俗的完整Python+requests介面自動化測試框架搭建文章！

前言　　很多小夥伴不知道什麼是框架？框架有哪些東西？　　一步步從需求分析到報告生成告訴你如何搭自動化建框架。

【Python】 requests 爬取部落格園內容AttributeError: 'NoneType' object has no attribute 'xpath'

相關推薦