使用HttpWebRequest和HtmlAgilityPack抓取網頁(無亂碼)

阿新 • • 發佈：2018-11-28

public string HttpGet(string url)
        {
            string responsestr = "";
            HttpWebRequest req = HttpWebRequest.Create(url) as HttpWebRequest;
            req.Accept = "*/*";
            req.Method = "GET";
            req.UserAgent = "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/21.0.1180.89 Safari/537.1";
            using (HttpWebResponse response = req.GetResponse() as HttpWebResponse)
            {
                Stream stream;
                if (response.ContentEncoding.ToLower().Contains("gzip"))
                {
                    stream = new GZipStream(response.GetResponseStream(), CompressionMode.Decompress);
                }
                else if (response.ContentEncoding.ToLower().Contains("deflate"))
                {
                    stream = new DeflateStream(response.GetResponseStream(), CompressionMode.Decompress);
                }
                else
                {
                    stream = response.GetResponseStream();
                }
                using (StreamReader reader = new StreamReader(stream, GetEncoding(response.CharacterSet)))
                {
                    responsestr = reader.ReadToEnd();
                    stream.Dispose();
                }
            }
            return responsestr;
        }

public Encoding GetEncoding(string CharacterSet)
        {
            switch (CharacterSet)
            {
                case "gb2312": return Encoding.GetEncoding("gb2312");
                case "utf-8": return Encoding.UTF8;
                default: return Encoding.Default;
            }
        }

呼叫HttpGet就可以獲取網址的原始碼了，得到原始碼後，再用HtmlAgility來解析html了。

string html = HttpGet("http://www.cnblogs.com/");
            HtmlDocument doc = new HtmlDocument();
            doc.LoadHtml(html);
            //獲取文章列表
            var artlist = doc.DocumentNode.SelectNodes("//div[@class='post_item']");
            foreach (var item in artlist)
            {
                HtmlDocument adoc = new HtmlDocument();
                adoc.LoadHtml(item.InnerHtml);
                var html_a = adoc.DocumentNode.SelectSingleNode("//a[@class='titlelnk']");
                Response.Write(string.Format("標題為：{0}，連結為：{1}<br>",html_a.InnerText,html_a.Attributes["href"].Value));
            }

使用HttpWebRequest和HtmlAgilityPack抓取網頁(無亂碼)

public string HttpGet(string url) { string responsestr = ""; HttpWebRequest req = HttpWebRequest.Create(url) as HttpWe

使用HttpWebRequest和HtmlAgilityPack抓取網頁（拒絕亂碼，拒絕正則表示式）

廢話不多說，直接說需求。公司的網站需要抓取其他網站的文章，但任務沒到我這，同事搞了一下午沒搞出來。由於剛剛到公司，想證明下自己，就把活攬過來了。因為以前做過，覺得應該很簡單，但當我開始做的時候，我崩潰了，http請求後，得到的是字串竟然是亂碼，然後就各種百度(谷歌一直崩潰中)，最後找到了原因。由於

Python 抓取網頁gb2312亂碼問題

發現 file read earch () spa .com pycharm close python 爬取學校所有人四六級成績時發現爬出網頁中文亂碼遂google 得到一解決方案 # -*- coding:utf8 -*- import urllib2

PHP中使用file_get_contents抓取網頁中文亂碼問題解決方法，GZIP

這篇文章主要介紹了PHP中使用file_get_contents抓取網頁中文亂碼問題解決方法,可以通過使用curl配置gzip選項來解決,具有一定的參考借鑑價值,需要的朋友可以參考下本文例項講述了PHP中使用file_get_contents抓取網頁中文亂碼問題解決方法。分享

[Python]網路爬蟲（一）：抓取網頁的含義和URL基本構成

一、網路爬蟲的定義網路爬蟲，即Web Spider，是一個很形象的名字。把網際網路比喻成一個蜘蛛網，那麼Spider就是在網上爬來爬去的蜘蛛。網路蜘蛛是通過網頁的連結地址來尋找網頁的。從網站某一個頁面（通常是首頁）開始，讀取網頁的內容，找到在網頁中的其它連結地址

爬蟲有多好玩？所見即所爬！抓取網頁、圖片、文章！無所不爬！

一，首先看看Python是如何簡單的爬取網頁的 1，準備工作專案用的BeautifulSoup4和chardet模組屬於三方擴充套件包，如果沒有請自行pip安裝，我是用pycharm來做的安裝，下面簡單講下用pycharm安裝chardet和BeautifulSou

用file_get_contents抓取網頁亂碼的2種解決方式

今天自己在寫一個程式，抓取別人的網頁，之前公司有些功能也會需要，但是今天在抓取網頁的時候發現了一個問題用file_get_contents抓取網頁發現如截圖所示的亂碼情況於是用轉換編碼 $contents = iconv("gb2312", "utf-8//IGNO

Python3 利用requests抓取網頁原始碼中文亂碼問題（由gb2312編碼引起）

核心問題： meta charset = “gb2312” requests 中文亂碼 ×îÐÂÏûÏ¢_¡¶ÃÎ»ÃÎ÷ÓÎ¡·µçÄÔ°æ¹Ù·½ÍøÕ¾ 以夢幻西遊官網為例 <!DOCTYPE html> <hea

Python+Requests安裝及抓取網頁原始碼中文亂碼問題的解決

剛開始自學Python課程，學習到自制單執行緒小爬蟲，利用pip install requests命令安裝Python的Requests庫（自備梯子，注意如果安裝了不同Python版本的話記得先進入對應版本的pip目錄）。安裝完後在IDE中就可以呼叫Requ

C# 正則表示式抓取網頁上某個標籤的內容，並替換連結地址和圖片地址

#region 獲取第三方網站內容 //獲取其他網站網頁內容的關鍵程式碼 WebRequest request = WebRequest.Create(第三方的網站地址); WebResponse response = requ

java學習-GET方式抓取網頁(UrlConnection和HttpClient) 參考

URL:http://www.cnblogs.com/gne-hwz/p/6952312.html 抓取網頁其實就是模擬客戶端（PC端，手機端。。。）傳送請求，獲得響應資料documentation，解析對應資料的過程。---自己理解，錯誤請告知一般常用請求方式有

OTT-TV網絡電視EPG錄制和EPG抓取解決方案

擴展 duration 時長錄像 electric val 存儲分類一段統一 EPG是Electrical Program Guide，也就是電子節目單。這個名詞的出現和OTT-TV或者說IPTV緊密相關。 EPG功能是頻道化電視以“頻道-時間”方式提供一段時間內

curl抓取網頁內容php

dem windows grep 網頁資源網頁爬蟲 url 工具 () 動態獲取 1.cURL curl是客戶端向服務器請求資源的工具 2.cURL使用場景網頁資源：網頁爬蟲 webservice數據接口資源：動態獲取接口數據天氣號碼歸屬地 ftp資源：下載ftp

JAVA使用Gecco爬蟲抓取網頁內容

log pro 指定 get www. error 一個 log4j java類 JAVA 爬蟲工具有挺多的，但是Gecco是一個挺輕量方便的工具。先上項目結構圖。這是一個 JAVASE的 MAVEN 項目，要添加包依賴，其他就四個文件。log4j.propertie

HtmlAgilityPack抓取糗事百科內容

console lag node document 24小時 ner readline collect ldo 本文實例講述了C#使用HtmlAgilityPack抓取糗事百科內容的方法。分享給大家供大家參考。具體實現方法如下： Console.WriteLine("**

Java抓取網頁數據（原網頁+Javascript返回數據）

class mail 搜索引擎網頁數據點擊 ann 技術 while span 轉載請註明出處！原文鏈接：http://blog.csdn.net/zgyulongfei/article/details/7909006 有時候由於種種原因，我們需要采集某個網站的數

爬蟲抓取網頁來下載小說

程序 rip compile pla ons pos 獲取 except res 利用Python3 編寫爬蟲，從筆趣閣抓個小說下載。 import re import urllib.request import time import easygui as g # 輸

Linux 抓取網頁例項（shell+awk）

分享一下我老師大神的人工智慧教程！零基礎，通俗易懂！http://blog.csdn.net/jiangjunshow 也歡迎大家轉載本篇文章。分享知識，造福人民，實現我們中華民族偉大復興！

記錄一次python抓取網頁下載視訊

最近看了電影狂暴巨獸，連結是那種不固定的http連結，有可能隨時就打不開了，然後想下載下來留著，但是網頁不提供下載，所以就自己抓取了相關視訊，然後下載。廢話不多說，直接上乾貨。用fiddle抓取主要的視訊。下圖就是抓取時候產生的相關資訊。逐條進行分析，然後找到電影的包的地址。 http

kettle抓取網頁上的資料儲存到資料表中

今天做一個利用kettle抓取網頁資料儲存到資料表中的demo，如抓取AA市的空氣質量AQI 1.檢視網頁資訊 2.按下開發者工具，檢視虎丘空氣質量日報的請求 3.弄懂了網頁請求，並通過檢視資料格式，可以在資料庫中建表，表格如下 4.接下來就是在kettle中進行操

使用HttpWebRequest和HtmlAgilityPack抓取網頁(無亂碼)

相關推薦