1. 程式人生 > >使用Jsoup爬網頁出現500錯誤

使用Jsoup爬網頁出現500錯誤

Jsoup官方文件中說明爬取網頁的兩種方法:

get

Document doc = Jsoup.connect("http://example.com/").get();

post

Document doc = Jsoup.connect("http://example.com")
  .data("query", "Java")
  .userAgent("Mozilla")
  .cookie("auth", "token")
  .timeout(3000)
  .post();

分別用這兩種方法對好幾個網址進行爬取資料,有的能直接獲取文件,有的則出現500錯誤。但是出錯的網址能夠用瀏覽器正常訪問

搜尋了答案,有網友回答是需要設定userAgent進行偽裝成瀏覽器,實踐發現這個方案可行,網友程式碼如下:

// String url = " http://www.dianping.com/changsha/food";
    Document doc = null;
    Connection conn = Jsoup.connect(url);
    conn.header(
                "User-Agent",
                "Mozilla/5.0 (Macintosh; U; Intel Mac OS X 10.4; en-US; rv:1.9.2.2) Gecko/20100316 Firefox/3.6.2"
); try { doc = conn.timeout(10000).get(); System.out.println(doc.html()); } catch (IOException e) { e.printStackTrace(); }

按照官方文件中使用post方法中修改userAgent仍然不能解析;而在get方法中設定userAgent就可以解析了。

Document doc = null;
try {
    doc = Jsoup.connect(url)
    //.userAgent("Mozilla/5.0 (Macintosh; U; Intel Mac OS X 10.4; en-US; rv:1.9.2.2) Gecko/20100316 Firefox/3.6.2")
.userAgent("Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.31 (KHTML, like Gecko) Chrome/26.0.1410.64 Safari/537.31") .get(); } catch (IOException e) { // TODO Auto-generated catch block e.printStackTrace(); } return doc;

相關推薦

使用Jsoup網頁出現500錯誤

Jsoup官方文件中說明爬取網頁的兩種方法: get Document doc = Jsoup.connect("http://example.com/").get(); post Document doc = Jsoup.connect

php上傳文件出現500錯誤

pos buffer strong 需要 不可訪問 文件的 解決 ron 問題: 問題: 能上傳小於10k的文件,上傳大於10k的文件就會報500錯誤 解決辦法: 首先查看錯誤日誌,看看報錯是什麽 其次查看client_body_temp的權限問題 關於client_bod

PHP 在接收POST大資料(大陣列或大字串)時出現500錯誤

今天伺服器突然出現接收不到資料 ,拿curl寫了個測試指令碼,發現只有小字串可以,收發成功,字串在300K就不行了,伺服器直接報‘500 Internal Server Error。 伺服器是centos6,nginx,php的環境 開始除錯,打開了php的

angular.min.js 在iis服務上 post方法出現 500錯誤解決辦法

原因 請求 Content-Type 不一樣 修改一下就可以了 a.module("login", [], function($httpProvider) { // 修改請求Content-T

php的curl_exec訪問https出現500錯誤

常規curl請求: $url = 'http://www.jb51.net';   $curl = curl_init();   curl_setopt($curl, CURLOPT_URL, $url);   curl_setopt($curl, CURLOPT_HEAD

將本地TP5專案檔案上傳到lamp環境上出現500錯誤

做畢業設計時要android和PHP進行互動,當時沒有用ftp同步發到伺服器上,後來為了同步就重新上傳到伺服器上,一下子,android就訪問不到資料了,因為還是一個小白,所以一開始就在安卓端找問題,安卓端一直報volleryError的錯誤,後來網上查了一下,說是伺服器的問

LNMP架構下訪問php頁面出現500錯誤

在php.ini中的fastcgi.error_header選項允許在這種情況下產生一個HTTP錯誤碼 以使web伺服器可以正確攔截並處理這個錯誤碼,類似直接在php程式碼中呼叫header()返回500狀態碼,如 header("HTTP/1.1 500 Inter

微信小程式學習wx.request 中 post 出現500錯誤的一些成因

      經過兩個星期的研究,對小程式已經有了一定的理解和運用.目前小程式的本身的不足和 bug 還是很多,下面列舉一個我遇到的坑:       1. wx.request這個網路的 API 是用的很廣的一個,不過在傳送資料的時候,可能會出現伺服器500的現象,而伺服器確

TP5項目在lnmp環境上線出現500錯誤

ram pro edi dir error erro perm path all 在windows下沒問題,但是上傳到服務器後訪問接口出現500錯誤用的是lnmp的環境,文件上傳後把所有權限都打開,都顯示HTTP ERROR 500的錯誤,服務器內部錯誤該網頁無法正常運作m

scrapy 取https網頁出現ssl錯誤

                還有好多錯誤程式碼沒有儲存下來,錯誤發生在Openssl/SSL.py中: Attribute

servlet層調用biz業務層出現瀏覽器 500錯誤,解決方法

protected post https string pub 代碼 失敗 uid row package com.swift.jztk.servlet; import java.io.IOException; import javax.servlet.Servlet

IIS出現“HTTP 錯誤 500.0,C:phpphp-cgi.exe - FastCGI 進程意外退出”解決方法

c++ pdo_mysq img str 同學 打開 就是 命令 x64 昨天給大家介紹了在windows+iis的平臺上搭建支持php+mysql平臺的文章,教程步驟都是筆者一步一個操作然後一個記錄介紹給大家的,實機演練,教程絕對切實可用,但是不同的同學在不同的環境下

坑】Python 3.6 在 Socket 程式設計時出現型別錯誤 TypeError: a bytes-like object is required, not 'str'

  1. 問題描述   Python 3.6 在 Socket 程式設計時出現錯誤如下 Traceback (most recent call last): File "F:/share/IdeaProjects/test/mypython/test/test10_tcpcli

使用urllib取圖片時出現錯誤urllib.error.ContentTooShortError

urllib.error.ContentTooShortError: <urlopen error retrieval incomplete 這是因為urlretrieve下載檔案不完整造成的 可以接受這種異常重新寫一個方法處理這個問題,可以在去呼叫這個方法重新去下載,也可以重新用

apache出現 internal server error 500錯誤常見原因

新手使用apache環境開發時,時不時會遇到"internal server error 500",按照翻譯,應該是伺服器內部錯誤,難道apache出錯了,Apache破損了,答案顯然不是這樣的,實際上,就是apache無法正常解析檔案,所以就丟擲這個錯誤。 那麼,產生這

新解win8.1系統IIS出現“HTTP 錯誤 500.0,C:\php\php-cgi.exe

昨天給大家介紹了在windows+iis的平臺上搭建支援php+mysql平臺的文章,教程步驟都是筆者一步一個操作然後一個記錄介紹給大家的,實機演練,教程絕對切實可用,但是不同的同學在不同的環境下按照步驟操作,多多少少還是會出現這樣那樣的問題,比如很多同學經常會遇到的問題

部署 Bonobo Git Server 時,出現 HTTP 錯誤 500.19 解決辦法

解決辦法: 控制面板 -> 程式和功能 -> 啟用或關閉 Windows 功能 -> Internet Infomation Services -> 全球資訊網服務  -> 應用程式開發功能 -> 勾選 ASP.NET 4.X 並確定 參考連結: http://sta

ASP網頁IIS釋出出現HTTP 錯誤 404.3

在搞C#與安卓進行通訊的時候,出現了一個問題,就是:ASP網頁HTTP 錯誤 404.3 - Not Found,明明步驟是不會有錯的,都是按部就班,但是偏偏就是報了錯,心痛,然而這是沒有什麼用的,於

網頁爬蟲例項(二)-頁面出現意外錯誤

# Copyright (c)2018, 東北大學軟體學院學生 # All rightsreserved # 檔名稱:justForTest.py # 作 者:孔雲 #問題描述:訪問亞馬遜網頁,出現意外錯誤,解決辦法是修改網頁http的頭部 # coding:utf-8

在伺服器上處理請求時出現未知錯誤。伺服器返回的狀態碼為500。的處理方法。

首先,狀態碼500是非已知型別伺服器錯誤,今天發現的是動態載入頁面時的頁面驗證錯誤,因為是動態往頁面中寫html元素,html元素的不規範導致頁面驗證失敗,所以中斷處理請求。 接下來是解決方案,前輩們已經給出了不少了,下面就這些方法談談自己的看法: 一、在頁面檔案的Pa