用HttpClient和用HttpURLConnection做爬蟲發現爬取的程式碼少了的問題

阿新 • • 發佈：2018-11-30

最近在學習用java來做爬蟲但是發現不管用那種方式都是爬取的程式碼比網頁的原始碼少了很多
在網上查了很多都說是inputStream的緩衝區太小而爬取的網頁太大導致讀取出來的網頁程式碼不完整，但是後面發現並不是這個問
這個是用HttoClient所作的
public static String getHtml2(String url) {
          try {
                HttpGet httpRequest = new HttpGet(url);
                HttpClient httpclient = new DefaultHttpClient();
                HttpResponse httpResponse  
= httpclient.execute(httpRequest);
                if (httpResponse.getStatusLine().getStatusCode() == HttpStatus.SC_OK) {
                    InputStream input = httpResponse.getEntity().getContent();
                    byte[] b = new byte[1024];
                    int len = 0;
                    StringBuffer buff  
= new StringBuffer();
                    while ((len = input.read(b)) != -1) {
                        buff.append(new String(b));
                    }
                    return buff.toString();

                    // 使用如下程式碼只返回40K
                    // return EntityUtils.toString(httpResponse.getEntity(),"UTF-8"); 

                }
            }catch (Exception e) {
            // TODO Auto-generated catch block
                e.printStackTrace();
            }
          return null;
    }
這個使用HttpURLConnection做的

//使用HttpURLConnection獲取網頁內容
	public static String getHtml(String url) {//獲取網頁內容
		StringBuffer html=new StringBuffer();
		if(!url.startsWith("http")) {
			url="https://"+url;
		}
		
		InputStreamReader inReader=null;
		BufferedReader bReader=null;
		HttpURLConnection htcon=null;		
		try {
			URL u=new URL(url);
			//設定請求頭為獲取與原始碼一樣的程式碼
			
			htcon=(HttpURLConnection)u.openConnection();
			htcon.setRequestProperty("User-Agent",
					"Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1)");
			htcon.setReadTimeout(2000);//設定讀取超時
			htcon.setRequestMethod("POST");//設定請求方式
			htcon.setConnectTimeout(2000);//設定連線超時
			if(htcon.getResponseCode() == 200) {//如果頁面響應的話
				
				inReader=new InputStreamReader(htcon.getInputStream(),"utf-8");//獲得頁面的輸入流
				
			     
				bReader=new BufferedReader(inReader);
				String line="";
				 
				
				while((line=bReader.readLine())!=null) {
					
					html.append(line);
					html.append("\n");
					
				}
			}
		} catch (Exception e) {
			// TODO Auto-generated catch block
			e.printStackTrace();
		}finally {
			
				try {
					if(inReader!=null) {
						inReader.close();
					}
					if(bReader!=null) {
						bReader.close();
					}
				} catch (IOException e) {
					// TODO Auto-generated catch block
					e.printStackTrace();
				}
			
		}
		return html.toString();
	}

線上等解決方法，或等更新

用HttpClient和用HttpURLConnection做爬蟲發現爬取的程式碼少了的問題

最近在學習用java來做爬蟲但是發現不管用那種方式都是爬取的程式碼比網頁的原始碼少了很多在網上查了很多都說是inputStream的緩衝區太小而爬取的網頁太大導致讀取出來的網頁程式碼不完整，但是後面發現並不是這個問這個是用HttoClient所作的public static String getH

用DCOS和marathon-lb實現服務發現和負載均衡：第一部分

最近在研究使用Mesos，對marathon-lb和mesos-dns等諸多工具，只是停留在知道和會用的階段，特別是對於基於marathon-lb的HAProxy的應用分組和使用更是一頭霧水。現在資料也少，看了官網上的這篇文章覺得講得還算是全面。兄弟英文水平差，

教你用認知和人性來做最棒的程序員

清晰公共函數最重要的財報易懂 one 很好測試的 phone 不久前，在團隊內部和大家做了一次分享，內容就是這次要講的“用認知和人性來提升自己的技術水平”，大家反響不錯，所以這次整理一下也分享給大家。最初我是想用“借優秀的產品經理思維來做最棒程序員”的這個標題，但

【騰訊TMQ】【測試左移專欄】用Powermock和Mockito來做安卓單元測試

作者：ZeusL 團隊：騰訊移動品質中心TMQ 一、單元測試及Android單元測試簡介慣例，先簡單介紹下理論知識，懂得的可以跳過。 1、單元測試定義和特性單測定義：在計算機程式設計中，單元測試（Unit Testing）又稱為模組測試,

用express和socket.io做聊天室遇到的連結錯誤坑/socket.io/?EIO=

遇到的報錯資訊 http://127.0.0.1:3000/socket.io/?EIO=3&transport=polling&t=ME7dXNi 0 ()***.cn/test被nginx轉發到8100埠socket = io.connect('http:

用DCOS和marathon-lb實現服務發現和負載均衡：第二部分

輕鬆入門 | 用 WordPress 和主題模板做網站

本文來自作者achair 在 GitChat 上分享「用 WordPress 和主題模板做網站」，「閱讀原文」檢視交流實錄「文末高能」編輯 | 嘉仔本話題圍繞如何用 WordPres

10、自學——Linux的學習進度與任務【用戶和用戶組相關操作】

sha256 用戶授權 gpasswd upm 登錄 shel 默認不同管理用戶和用戶組相關操作用戶和用戶組定義：　　　　用戶：資源獲取標識符（資源分配），是安全權限模型的可信要素之一　　　　　用戶組：用戶組是指多個用戶的集合，方便對一類需要同樣權限的用戶授權

典型用戶和用戶場景描述

cnblogs png blog com ges .cn 描述 src logs 典型用戶和用戶場景描述

Linux 用戶和用戶組管理

最大修改root密碼用戶模式登錄用戶運行程序用戶界面 -- top fis Linux和其他的類UNIX系統一樣是一個多用戶、多任務的操作系統。多用戶的特性允許多人在Linux中創建獨立的賬戶來確保個人數據的安全性。而多任務機制允許多個用戶同時登陸，同時使用系統的

Shell腳本：推斷用戶和用戶組是否已經存在/創建用戶和用戶組

推斷 lai test 專用 shell腳本統一 track _id -a 通常作為一個應用程序的部署腳本，開始的第一項工作是為當前應用創建一個專用（dedicated）的用戶和用戶組。這個腳本非常easy。這裏貼一個參考樣本：#!/bin/sh user=test_

(轉)Linux的用戶和用戶組管理

刪除 other useradd 系統管理 int 第一個計算哪些 acc 原文 Linux是個多用戶多任務的分時操作系統，所有一個要使用系統資源的用戶都必須先向系統管理員申請一個賬號，然後以這個賬號的身份進入系統。用戶的賬號一方面能幫助系統管理員對使用系統的用戶進行

linux用戶和用戶組

配置文件默認 pmo comm 添加無效我們 ron between --只有root用戶才能夠創建一個新用戶，如下的命令將新建一個登錄名user1的用戶 useradd user1 --這個用戶還不能夠登錄，因為還沒給它設置初始密碼，在默認情況下，將會在/hom

linux學習（十一）用戶和用戶組管理

gin rec uda username type /usr 之前密碼只有一個一、用戶文件文件：/etc/passwd 這個文件記錄了用戶了用戶名，用戶id，所屬組，家目錄，shell信息： [root@iZ25lzba47vZ ~]# tail -n3 /etc

Linux系列教程（十五）——Linux用戶和用戶組管理之用戶管理命令

總結 usr 而且 ron 初始切換密碼規則一個郵箱目錄　　上篇博客我們介紹了用戶管理的相關配置文件，包括用戶信息文件/etc/passwd，用戶密碼文件/etc/shadow；然後介紹了用戶組信息文件/etc/group，用戶組密碼文件/etc/gshadow。

Linxu 用戶和用戶組管理1

shell 什麽實例 groupadd 時間登陸名基本 class 文件的 Linux 系統是一個多用戶任務的分時操作系統，任何一個要使用系統資源的用戶，都必須首先向系統管理員申請一個賬號，然後以這個賬號的身份進入系統。用戶的賬號一方面可以幫助系統管理員對使用系統

Linux系統的用戶和用戶組管理

man controls home director useradd active 特征 crypt 集合一、用戶(user）和用戶組（group）概念 1、用戶（user）的概念 Linux 是典型的多用戶操作系統,我們可以建若幹用戶（user），用於系統服務的運行和權

Linux基礎知識之用戶和用戶組以及 Linux 權限管理

space 屬性並且用戶表相同發行版切換用戶登錄是什麽已經開始接觸Linux用戶管理，用戶組管理，以及權限管理這幾個逼格滿滿的關鍵字。這幾個關鍵字對於前端程序猿的我來說真的是很高大上有木有，以前嘗試學 Linux 的時候看到這些名詞總是下意識的跳過不敢看有木

Python學習記錄——Ubuntu（二）用戶和用戶組

root用戶 -s spa 登陸 gpo 用戶名執行權添加 ubun 1.etc文件作用：（1） /etc/passwd 用戶賬戶信息。（2）/etc/shadow 安全用戶賬戶信息。（3）/etc/group 組賬戶信息。（4）/etc/gshadow 安全組

Linux學習 - 用戶和用戶組管理

sbin 顯示環境刪除用戶 9.png 用戶管理 pan idt 解鎖一、用戶配置文件　　1 用戶信息文件 /etc/passwd 　　　　　　vim /etc/passwd 　　　　　　　　　　　　第一字段：用戶名　　　　　　第二字段：密碼標誌（x表示有密碼

用HttpClient和用HttpURLConnection做爬蟲發現爬取的程式碼少了的問題

相關推薦