使用Jsoup爬網頁出現500錯誤
Jsoup官方文件中說明爬取網頁的兩種方法:
get
Document doc = Jsoup.connect("http://example.com/").get();
post
Document doc = Jsoup.connect("http://example.com")
.data("query", "Java")
.userAgent("Mozilla")
.cookie("auth", "token")
.timeout(3000)
.post();
分別用這兩種方法對好幾個網址進行爬取資料,有的能直接獲取文件,有的則出現500錯誤。但是出錯的網址能夠用瀏覽器正常訪問
搜尋了答案,有網友回答是需要設定userAgent進行偽裝成瀏覽器,實踐發現這個方案可行,網友程式碼如下:
// String url = " http://www.dianping.com/changsha/food";
Document doc = null;
Connection conn = Jsoup.connect(url);
conn.header(
"User-Agent",
"Mozilla/5.0 (Macintosh; U; Intel Mac OS X 10.4; en-US; rv:1.9.2.2) Gecko/20100316 Firefox/3.6.2" );
try {
doc = conn.timeout(10000).get();
System.out.println(doc.html());
} catch (IOException e) {
e.printStackTrace();
}
按照官方文件中使用post方法中修改userAgent仍然不能解析;而在get方法中設定userAgent就可以解析了。
Document doc = null;
try {
doc = Jsoup.connect(url)
//.userAgent("Mozilla/5.0 (Macintosh; U; Intel Mac OS X 10.4; en-US; rv:1.9.2.2) Gecko/20100316 Firefox/3.6.2")
.userAgent("Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.31 (KHTML, like Gecko) Chrome/26.0.1410.64 Safari/537.31")
.get();
} catch (IOException e) {
// TODO Auto-generated catch block
e.printStackTrace();
}
return doc;
相關推薦
使用Jsoup爬網頁出現500錯誤
Jsoup官方文件中說明爬取網頁的兩種方法: get Document doc = Jsoup.connect("http://example.com/").get(); post Document doc = Jsoup.connect
php上傳文件出現500錯誤
pos buffer strong 需要 不可訪問 文件的 解決 ron 問題: 問題: 能上傳小於10k的文件,上傳大於10k的文件就會報500錯誤 解決辦法: 首先查看錯誤日誌,看看報錯是什麽 其次查看client_body_temp的權限問題 關於client_bod
PHP 在接收POST大資料(大陣列或大字串)時出現500錯誤
今天伺服器突然出現接收不到資料 ,拿curl寫了個測試指令碼,發現只有小字串可以,收發成功,字串在300K就不行了,伺服器直接報‘500 Internal Server Error。 伺服器是centos6,nginx,php的環境 開始除錯,打開了php的
angular.min.js 在iis服務上 post方法出現 500錯誤解決辦法
原因 請求 Content-Type 不一樣 修改一下就可以了 a.module("login", [], function($httpProvider) { // 修改請求Content-T
php的curl_exec訪問https出現500錯誤
常規curl請求: $url = 'http://www.jb51.net'; $curl = curl_init(); curl_setopt($curl, CURLOPT_URL, $url); curl_setopt($curl, CURLOPT_HEAD
將本地TP5專案檔案上傳到lamp環境上出現500錯誤
做畢業設計時要android和PHP進行互動,當時沒有用ftp同步發到伺服器上,後來為了同步就重新上傳到伺服器上,一下子,android就訪問不到資料了,因為還是一個小白,所以一開始就在安卓端找問題,安卓端一直報volleryError的錯誤,後來網上查了一下,說是伺服器的問
LNMP架構下訪問php頁面出現500錯誤
在php.ini中的fastcgi.error_header選項允許在這種情況下產生一個HTTP錯誤碼 以使web伺服器可以正確攔截並處理這個錯誤碼,類似直接在php程式碼中呼叫header()返回500狀態碼,如 header("HTTP/1.1 500 Inter
微信小程式學習wx.request 中 post 出現500錯誤的一些成因
經過兩個星期的研究,對小程式已經有了一定的理解和運用.目前小程式的本身的不足和 bug 還是很多,下面列舉一個我遇到的坑: 1. wx.request這個網路的 API 是用的很廣的一個,不過在傳送資料的時候,可能會出現伺服器500的現象,而伺服器確
TP5項目在lnmp環境上線出現500錯誤
ram pro edi dir error erro perm path all 在windows下沒問題,但是上傳到服務器後訪問接口出現500錯誤用的是lnmp的環境,文件上傳後把所有權限都打開,都顯示HTTP ERROR 500的錯誤,服務器內部錯誤該網頁無法正常運作m
scrapy 爬取https網頁時出現ssl錯誤
還有好多錯誤程式碼沒有儲存下來,錯誤發生在Openssl/SSL.py中: Attribute
servlet層調用biz業務層出現瀏覽器 500錯誤,解決方法
protected post https string pub 代碼 失敗 uid row package com.swift.jztk.servlet; import java.io.IOException; import javax.servlet.Servlet
IIS出現“HTTP 錯誤 500.0,C:phpphp-cgi.exe - FastCGI 進程意外退出”解決方法
c++ pdo_mysq img str 同學 打開 就是 命令 x64 昨天給大家介紹了在windows+iis的平臺上搭建支持php+mysql平臺的文章,教程步驟都是筆者一步一個操作然後一個記錄介紹給大家的,實機演練,教程絕對切實可用,但是不同的同學在不同的環境下
【爬坑】Python 3.6 在 Socket 程式設計時出現型別錯誤 TypeError: a bytes-like object is required, not 'str'
1. 問題描述 Python 3.6 在 Socket 程式設計時出現錯誤如下 Traceback (most recent call last): File "F:/share/IdeaProjects/test/mypython/test/test10_tcpcli
使用urllib爬取圖片時出現的錯誤urllib.error.ContentTooShortError
urllib.error.ContentTooShortError: <urlopen error retrieval incomplete 這是因為urlretrieve下載檔案不完整造成的 可以接受這種異常重新寫一個方法處理這個問題,可以在去呼叫這個方法重新去下載,也可以重新用
apache出現 internal server error 500錯誤常見原因
新手使用apache環境開發時,時不時會遇到"internal server error 500",按照翻譯,應該是伺服器內部錯誤,難道apache出錯了,Apache破損了,答案顯然不是這樣的,實際上,就是apache無法正常解析檔案,所以就丟擲這個錯誤。 那麼,產生這
新解win8.1系統IIS出現“HTTP 錯誤 500.0,C:\php\php-cgi.exe
昨天給大家介紹了在windows+iis的平臺上搭建支援php+mysql平臺的文章,教程步驟都是筆者一步一個操作然後一個記錄介紹給大家的,實機演練,教程絕對切實可用,但是不同的同學在不同的環境下按照步驟操作,多多少少還是會出現這樣那樣的問題,比如很多同學經常會遇到的問題
部署 Bonobo Git Server 時,出現 HTTP 錯誤 500.19 解決辦法
解決辦法: 控制面板 -> 程式和功能 -> 啟用或關閉 Windows 功能 -> Internet Infomation Services -> 全球資訊網服務 -> 應用程式開發功能 -> 勾選 ASP.NET 4.X 並確定 參考連結: http://sta
ASP網頁IIS釋出出現HTTP 錯誤 404.3
在搞C#與安卓進行通訊的時候,出現了一個問題,就是:ASP網頁HTTP 錯誤 404.3 - Not Found,明明步驟是不會有錯的,都是按部就班,但是偏偏就是報了錯,心痛,然而這是沒有什麼用的,於
網頁爬蟲例項(二)-頁面出現意外錯誤
# Copyright (c)2018, 東北大學軟體學院學生 # All rightsreserved # 檔名稱:justForTest.py # 作 者:孔雲 #問題描述:訪問亞馬遜網頁,出現意外錯誤,解決辦法是修改網頁http的頭部 # coding:utf-8
在伺服器上處理請求時出現未知錯誤。伺服器返回的狀態碼為500。的處理方法。
首先,狀態碼500是非已知型別伺服器錯誤,今天發現的是動態載入頁面時的頁面驗證錯誤,因為是動態往頁面中寫html元素,html元素的不規範導致頁面驗證失敗,所以中斷處理請求。 接下來是解決方案,前輩們已經給出了不少了,下面就這些方法談談自己的看法: 一、在頁面檔案的Pa