node js 抓取指定網頁內容gb2312亂碼問題解決

阿新 • • 發佈：2019-01-04

開始思路是用crawler。具體地址在Github上。https://github.com/sylvinus/node-crawler

它的好處是可以用jquery選擇器，方便快捷的選擇出想要的內容。而且，說明文件宣稱能把幾乎所有的編碼轉化為UTf-8.我信了它整整一天，gb2312的網頁都轉化不了。

後來，貪圖方便的jquery選擇器，所以，一直在研究轉碼，下載了icon-lite。同樣不可以。。直到。。。。。。。。發現了這篇文章

http://cnodejs.org/topic/5034b141f767cc9a51baf9b0

原來中文和英文大小不同，總之就是會截取出現一半的中文。所以轉碼形成亂碼。用文章介紹的方式，果斷的出現了中文。。此地真的想哭啊。。

ok。文章是中文了，可是內容是整個頁面的原始碼。太龐大了。首先想到了xpath。於是繼續不斷的下載，嘗試，下載，嘗試。錯誤都是那一個。

用的是xpath.js .地址是https://github.com/yaronn/xpath.js

這個工具可以容易的解析xml內容。可是對於一個大型網頁內容來說，會出現很多很多，前後Tag標籤不對稱的情況，所以，還是失敗。。

最後，終於發現，還有一種方法，htmlparse。抱著試一試的態度，下載，安裝。奇蹟發生了，我終於可以抓取自己想要的中文的內容了。。此處哭不停啊

ok。htmlparse的地址是https://github.com/harryf/node-soupselect

初學node。程式碼混亂，見諒

var http = require('http'),

url = require('url').parse('http://psv.tgbus.com/');

var iconv = require('iconv-lite'); //用於轉碼

var BufferHelper = require('bufferhelper');//用於拼接BUffer。防止中文單詞斷裂

var select = require('soupselect').select,//選擇器

htmlparser = require("htmlparser");

http.get(url,function(res){

var bufferHelper = new BufferHelper();

res.on('data', function (chunk) {
bufferHelper.concat(chunk);

});
res.on('end',function(){

var tex=iconv.decode(bufferHelper.toBuffer(),'GBK');

var handler = new htmlparser.DefaultHandler(function(err, dom) {

if (err) {
// sys.debug("Error: " + err);
} else {

// soupselect happening here...
var titles = select(dom, 'title');

// sys.puts("Top stories from reddit");
console.log(JSON.stringify(titles));

}
});

var parser = new htmlparser.Parser(handler);
parser.parseComplete(tex);

});
})

node js 抓取指定網頁內容gb2312亂碼問題解決

開始思路是用crawler。具體地址在Github上。https://github.com/sylvinus/node-crawler 它的好處是可以用jquery選擇器，方便快捷的選擇出想要的內容。而且，說明

node.js抓取網路圖片儲存到本地,node.js抓取防盜鏈網路圖片儲存到本地

node.js抓取網路圖片儲存到本地，node.js抓取防盜鏈網路圖片儲存到本地使用模組request、fs，request模組在npm裡平均月下載量超過3000W次，那是相當的牛逼。 node版本

4、利用Request和Beautiful Soup抓取指定URL內容

　　所謂網頁抓取，就是把URL地址中指定的網路資源從網路流中讀取出來，儲存到本地。　　類似於使用程式模擬IE瀏覽器的功能，把URL作為HTTP請求的內容傳送到伺服器端，然後讀取伺服器端的響應資源。　　在Python3.5中，我們使用Request這個元

node.js學習筆記(3)——使用cheerio處理爬取的網頁內容

一、簡介 node.js本身自帶爬取網站網頁內容的功能。 var http = require('http'); router.get('/test', function(req, res){ var url = 'http://www.baidu.com';

在使用python的selenium庫抓取動態網頁時，瀏覽器內容出現空白的解決方式

轉載請標明出處，謝謝~。我使用的版本: 1、python 3.7 （IDE 用的 pycharm） 2、selenium(通過pip install 安裝的最新版本:3.14 時間：2018.9.6 ) 3、 geckodriver.exe 21.0 4、fi

node.js爬取網頁圖片

var http = require('http') var fs = require('fs') var cheerio = require('cheerio') var url = "http://www.ivsky.com/" function download(u

Python3 urllib抓取指定URL的內容

最近在研究Python，熟悉了一些基本語法和模組的使用；現在打算研究一下Python爬蟲。學習主要是通過別人的部落格和自己下載的一下文件進行的，自己也寫一下部落格作為記錄學習自己過程吧。Python程式碼寫起來和Java的感覺很不一樣。 Python爬蟲主要使用的是urll

抓取指定路徑下所有文檔名

mds 所有 -- 2.6 div ast txt rom char --方法1： EXEC xp_dirtree ‘\\172.6.6.6\D$\TEXT\‘,1,1 --方法2： CREATE TABLE #TXT_Name (NAME VARCHAR( 2000)

Scrapy抓取動態網頁

都是搜索華盛頓 etime 觀察 review llb 得到我們動態網頁指幾種可能： 1）需要用戶交互，如常見的登錄操作； 2）網頁通過JS/ AJAX動態生成，如一個html裏有<div id="test"></div>，通過JS生成&l

js 抓取屏幕寬度設置字體大小 rem

set add 屏幕 list client 屏幕寬度 ted .get tid var doc = window.document var docEl = doc.documentElement var tid function refreshRem () {

Winform實現抓取web頁面內容的方法

ati ins ren bottom parent bdc img ont c# 本文以一個非常簡單的實例講述了Winform實現抓取web頁面內容的方法，代碼簡潔易懂，非常實用！分享給大家供大家參考。具體實現代碼如下：WebRequest request = WebR

Linux使用Node.js建立訪問靜態網頁的服務實例詳解

else r.js list 運行 pos 文件 content head 建立 Linux使用Node.js建立訪問靜態網頁的服務實例詳解一、安裝node.js運行所需要的環境。二、創建node目錄（/node/www），並在目錄下創建node.js服務文件server.

php抓取圖片進行內容提取解析，文字性pdf進行內容文字提取解析

規則服務內容利用網站發布百度 unicode 表格返回 2018年7月7日18:52:17 php是用純算法，自己是提取圖片內容不是不行，可以但是優化起來很麻煩還得設計學習庫，去矯正數據的正確率對於大多數項目來說，如果不是做ocr服務，就不必要做需求工具或者

Fiddler抓取指定域名

文本 style 技術 tro .com 指定切換 info http 有時候我們抓取app軟件的包時，其他很多軟件進程的請求會造成幹擾這時我們就需要過濾只抓取我們需要域名的包切換到Fiddler右側窗口的Filters選項卡，勾選頂部的Use Filters，找

java webmagic 抓取靜態網頁資源,抓取動態網頁資源

webmagicJava爬蟲框架 fastjson 阿里巴巴提供的 json 轉為物件的快捷包，裡面有下載jar包的地址抓取靜態網頁資源。例項：抓取李開復部落格：標題，內容，釋出日期。 public class LiKaiFuBlogReading implements Pag

jenkinsapi抓取jenkins網頁資訊

jenkinsapi抓取jenkins網頁資訊 pip install jenkinsapi vi aa.py #!/usr/bin/python #coding:utf-8 from jenkinsapi.jenkins import Jenkinsfrom jenkinsapi.build im

jenkinsapi抓取jenkins網頁信息

all obs user ref int 抓取 .get sta install jenkinsapi抓取jenkins網頁信息 pip install jenkinsapi vi aa.py #!/usr/bin/python #coding:utf-8 from jen

Node 批量抓取並下載某站點的圖片

批量抓取網站圖片並儲存在本地目標網站：妹子圖（點進去別忘了回來~~）專案功能：批量下載該網站的相簿姊妹專案：批量爬取並下載頭條視訊啟動專案命令 npm i npm start 配置檔案 // 配置相關 module.exports = { ori

Pyhon網路爬蟲學習筆記—抓取本地網頁（一）

如何用Python爬取本地網頁一、寫出一個簡單的靜態網頁，下面是我隨便寫的一個網頁原始碼如下 <!DOCTYPE html> <html lang="en"> <head> <meta charset="UT

fiddler4如何只抓取指定瀏覽器的包

在實際工作中，常常會抓取瀏覽器的資料，其載入的資料較多，不好區分，不知道其是哪個是需要抓取的資料，所以就需抓取指定瀏覽器的資料，這樣就能很清晰知道資料的來源。步驟一：開啟fiddler4，再開啟瀏覽器步驟二：點選下圖中的捕捉按鈕，按鈕處的文案將顯示成"pick target"

node js 抓取指定網頁內容gb2312亂碼問題解決

相關推薦