網頁爬蟲例項（二）-頁面出現意外錯誤

阿新 • • 發佈：2019-01-23

# Copyright (c)2018, 東北大學軟體學院學生
# All rightsreserved
# 檔名稱：justForTest.py
# 作   者：孔雲
#問題描述：訪問亞馬遜網頁，出現意外錯誤，解決辦法是修改網頁http的頭部
# coding:utf-8
import requests
r=requests.get("http://www.amazon.cn/gp/product/B01M8L5Z3Y")
print(r.status_code) #狀態碼檢查是否連結成功，200連結成功，否則失敗
print(r.encoding)
r.encoding=r.apparent_encoding
print(r.text)

執行結果：

由結果知，出現了錯誤。不能訪問網頁。

加入程式碼檢查：

print(r.request.headers)

執行結果：

發現User-Agent值，知道是由python-requests庫一個程式訪問引起的，不支援這樣的訪問，接下來更改http頭部資訊，然後訪問網頁。程式碼如下：

import requests
kv={'User-Agent':'Mozilla/5.0'} #重新定義User-Agent值，這時瀏覽器可能是火狐、谷歌或其他，Mozilla/5.0是一個標準的瀏覽器標識欄位
url="http://www.amazon.cn/gp/product/B01M8L5Z3Y"
r=requests.get(url,headers=kv)
print(r.status_code)
print(r.request.headers)
print(r.text[:1000])

上述程式碼執行結果：

內容如下：

完美！

網頁爬蟲例項（二）-頁面出現意外錯誤

爬蟲基礎（二）——網頁

前言　　爬蟲要爬取的資訊主要來自於網頁載入的內容，有必要了解一些網頁的知識。當我們在瀏覽器網址欄輸入一個網址——URL，經過TCP/IP協議簇的處理，這個網址請求的資訊就被髮送到URL對應的伺服器，接著伺服器處理這個請求，並將請求的內容返回給瀏覽器，瀏覽器便顯示或者下載URL請求相應的資源。這是前

scrapy爬蟲框架簡單入門例項（二）

接著上一篇文章，我們已經可以用爬蟲訪問目標網站爬取頁面了，現在需要自動提交表單查詢資料，並且從頁面中篩選出每期中獎號碼儲存為json檔案匯出。首先建立一個scrapy.Item類（開啟專案資料夾下的items.py檔案）： import scrapy class SsqSpiderIte

Python爬蟲框架Scrapy例項（二）

目標任務：使用Scrapy框架爬取新浪網導航頁所有大類、小類、小類裡的子連結、以及子連結頁面的新聞內容，最後儲存到本地。大類小類如下圖所示：點選國內這個小類，進入頁面後效果如下圖（部分截圖）：檢視頁面元素，得到小類裡的子連結如下圖所示：有子連結

python爬蟲"Hello World"級入門例項（二）,使用json從中國天氣網抓取資料

一、二話不說先上程式碼 python2.7版 #!/usr/bin/python2.7 #-*- coding=UTF-8 -*- import urllib import json def get_dic(url): page = urll

C# HTML解析工具HtmlAgilityPack使用例項（二）--Web頁面

一、使用XPath精確解析指定的Dom節點 XPath字串的簡單獲取方法，是在瀏覽器開發者工具中指定節點右鍵》“Copy XPath” 如圖 //載入Web 的頁面並解析內容 string rowP

Python爬蟲實戰--（二）解析網頁中的元素

使用requests傳送請求首先匯入requests庫和beautifulsoup庫 import requests from bs4 import BeautifulSoup 呼叫requests.get()方法獲得指定url的res

爬蟲系列（二）——網頁解析Jsoup

Jsoup是一款Java的HTML解析器，可直接解析某個URL地址、HTML文字內容。它提供了一套非常省力的API，可通過DOM，CSS以及類似於jQuery的操作方法來取出和操作資料。

Python 爬蟲實戰（二）：使用 requests-html

分享 -html 調用交流 html 技術 python-re find 自己的 Python 爬蟲實戰（一）：使用 requests 和 BeautifulSoup，我們使用了 requests 做網絡請求，拿到網頁數據再用 BeautifulSoup 解析，就在前不久

網路程式設計基礎【day08】：簡單socket例項（二）

本節內容 1、概述 2、socket例項 3、總結一、概述　　之前我們只是介紹了soket的概念和一些邏輯圖表，下面我們來看看，socket的客戶端和服務端到底是怎麼用的？二、socket例項 2.1 客戶端 2.1.1 客戶端程式碼邏輯圖 2.1.2 客戶端程式碼

scrapy爬蟲框架（二）：建立一個scrapy爬蟲

在建立新的scrapy爬蟲之前，我們需要先了解一下建立一個scrapy爬蟲的基本步驟一、確定要爬取的資料以爬取豆瓣電影資料為例：每部電影所要爬取的資訊有：片名:《頭號玩家》導演: 史蒂文·斯皮爾伯格編劇: 扎克·佩恩 / 恩斯特·克萊

企業資料爬蟲專案（二）

企業資料爬蟲專案（豔輝VIP專案）第一天：下載解析網站頁面第二天：多執行緒定時啟動爬蟲第一天：下載解析網站頁面第二天：多執行緒定時啟動爬蟲一個爬蟲專案，會涉及到資料儲存，Queue佇列，快取使用，多執行緒

網頁開發學習（二）：表格

一、表格表格所涉及的標籤有“表格標籤”，“行標籤”和“單元格標籤”。 < table >…< /table >：表格標籤，表示一個表格的開始和結束。 < tr >…< /tr >：行標籤，成對出現，包含在表格標籤之間，有

Flask + Ajax + Mysql 實現網頁非同步載入（二）

Flask + Ajax + Mysql 實現網頁非同步載入（一）二、jquery 和Ajax 實現前端請求 <script src="static/js/jquery.min.js" > </script> <script type="text/java

Python遺傳演算法框架使用例項（二）多目標優化問題Geatpy for Python與Matlab的對比學習

在前面幾篇文章中，我們已經介紹了高效能Python遺傳和進化演算法框架——Geatpy的使用及一些案例。本篇就一個多目標優化例項進行展開講述，並且與使用Matlab工具箱得到相近效果進行一些對比： Geatpy已於2018.09.20更新至1.0.6版本

Python爬蟲開發（二）：整站爬蟲與Web挖掘

0×00 介紹在網際網路這個複雜的環境中，搜尋引擎本身的爬蟲，出於個人目的的爬蟲，商業爬蟲肆意橫行，肆意掠奪網上的或者公共或者私人的資源。顯然資料的收集並不是為所欲為，有一些協議或者原則還是需要每一個人注意。本文主要介紹關於爬蟲的一些理論和約定協議，然後相對完整完成一個爬蟲的基本功能。本

SciKit-learn快速入門教程和例項（二）

一，sklearn的常用屬性和功能繼續上次對波士頓房價預測的討論，瞭解模型的屬性和功能。 #首先匯入庫，使用的是線性迴歸 from sklearn import datasets from sklearn.linear_model import LinearRegr

tensorflow 入門例項（二）

import tensorflow as tf # 建立一個常量 op, 產生一個 1x2 矩陣. 這個 op 被作為一個節點 # 加到預設圖中. # # 構造器的返回值代表該常量 op 的返回值.

flume例項（二）：監控伺服器日誌

1.實現功能：監控日誌增加，並且將日誌資訊儲存到hdfs上 2.flume和hdfs整合將hadoop對應jar包放到flume的lib目錄下 htrace-core-3.1.0-incubating.jar hadoop-hdfs-2.7.3.jar hadoo

python 爬蟲例項（三）

問題描述爬取部落格園的首頁資料URL【https://home.cnblogs.com/blog/page/1/】，之後寫到自己的Excel裡面環境： OS：Window10 python：3.7 程式碼 import requests import os

網頁爬蟲例項（二）-頁面出現意外錯誤

相關推薦