獲取網頁亂碼

阿新 • • 發佈：2020-07-21

1.是用curl抓取的資料是用類似gzip壓縮後的資料導致的亂碼。

亂碼：curl www.wode007.com |more
亂碼：curl -H "Accept-Encoding: gzip"www.wode007.com | more
不亂碼：curl -H "Accept-Encoding: gzip"www.wode007.com | gunzip | more

不亂碼：curl www.55wd.com |more
亂碼：curl -H "Accept-Encoding: gzip"www.55wd.com | more
不亂碼：curl -H "Accept-Encoding: gzip"www.55wd.com | gunzip | more

下面的a,b解釋的是www.wode007.com，c,d解釋是的www.55wd.com

a.某個url，如果用不加任何選項的curl命令抓取後亂碼，在curl後面加上Accept-Encoding:gzip，後面不加gunzip，則抓取的資料會亂碼。
b.某個url，如果用不加任何選項的curl命令抓取後亂碼，在curl後面加上Accept-Encoding:gzip，後面加上gunzip，則抓取的資料不會亂碼。
c.某個url，如果用不加任何選項的curl命令抓取後不亂碼，在curl後面加上Accept-Encoding:gzip，後面不加gunzip，則抓取的資料會亂碼。
d.某個url，如果用不加任何選項的curl命令抓取後不亂碼，在curl後面加上Accept-Encoding:gzip，後面加上gunzip，則抓取的資料不會亂碼。

小總：

也就是說在curl後面加上Accept-Encoding:gzip，再用gunzip解壓縮，則基本上可以儲存資料不亂碼。

素材公社https://www.wode007.com/sites/73209.html 愛圖網https://www.wode007.com/sites/73208.html

2.GBK或者UTF8漢字之類的亂碼

iconv命令是運行於linux平臺的檔案編碼裝換工具。當我們在linux系統shell下通過curl命令或者wget命令獲取一個網頁的原始碼，當網頁的編碼與當前作業系統壞境的設定的編碼不同時，就會發現網頁中有很多亂碼。如在網頁"meta"標籤"charset"屬性值設定為"gb2312"的http://www.baidu.com百度首頁，在系統壞境變數"$LANG"值為"en_US.UTF-8"的linux系統即會產生中文亂碼現象。這時我們可以嘗試使用iconv命令進行編碼裝換，讓中文不在是亂碼。如下命令是處理百度在系統壞境變數"$LANG"值為"en_US.UTF-8"的linux系統亂碼的問題的解決方案之一：

curl http://www.baidu.com|iconv -fgb2312 -t utf-8

當然，你也通過改變系統壞境變數與百度首頁的"charset"值一致，也可以解決此亂碼問題，如下命令：

set LANG="gb2312"
export LANG
curl http://www.baidu.com

iconv命令的詳細語法:

iconv [選項..] [檔案..]
選項：
-f 輸入編碼
-t 輸出編碼
-l 列出所有已知的編碼
-o 輸出檔案

對比採用phpCURL庫的POST GETHEADER三種方法之間的差異

比較POST GETHEADER這三種方法的區別：

引數	POST	GET	HEADER
CURLOPT_URL	有	有	有
CURLOPT_POST	開啟	關閉	關閉
CURLOPT_HTTPHEADER	如果有$header,則開啟	如果有$header,則開啟	如果有$header,則開啟
CURLOPT_HEADER	False	False	True
CURLOPT_NOBODY	false	False	true
CURLOPT_POSTFILEDS	True	false	false

從上表中可以看出:

POST方法：開啟POST連線，然後傳送POST報文體。關閉HEADER和NOBODY

GET方法：關閉POST相關的選項，關閉NOBODYHEADER，僅僅只是開啟curlopt_httpheader

HEADER方法：開啟HEADER和NOBODY,關閉POST相關的選項。

應該說上述三種方法，一個明顯的區別是，箱採用什麼方法的時候，就開啟對應的CURL選項。CURL_HTTPHEADER與CUROPT_HEADER的區別：

前者是設定HTTP頭部資訊的一個數組
後者是將標頭檔案的資訊以資料流的方式輸出

獲取網頁亂碼

1.是用curl抓取的資料是用類似gzip壓縮後的資料導致的亂碼。

小總：

2.GBK或者UTF8漢字之類的亂碼

獲取網頁亂碼

Jsoup獲取網頁內容（並且解決中文亂碼問題）

.net6環境下RestSharp獲取gbk網頁亂碼的解決方案

Python使用selenium + headless chrome獲取網頁內容的方法示例

Python requests獲取網頁常用方法解析

基於java web獲取網頁訪問次數程式碼例項

Java獲取網頁資料步驟方法詳解

基於python實現獲取網頁圖片過程解析

Js/Jquery獲取網頁螢幕可見區域高度

js獲取網頁螢幕可視區域高度

PHP獲取網頁內容的7種方法

WebBrowser、獲取網頁內容、模擬點選、控制元件操作、常用屬性、事件

python3中編碼獲取網頁的例項方法

獲取網頁視訊的真實地址

【Python學習筆記】爬蟲基礎(獲取網頁資訊)

JavaScript獲取網頁的寬高及如何相容詳解

JavaScript如何獲取網頁的寬高，以及如何相容（各種坑詳解）

Centos獲取網頁截圖

【筆記】9-第1課：POST的基礎知識 1 獲取網頁所有內容 2 點選讀取驗證碼 3取中間文字 4取中間批量

獲取網頁引數

獲取網頁亂碼

1.是用curl抓取的資料是用類似gzip壓縮後的資料導致的亂碼。

小總：

2.GBK或者UTF8漢字之類的亂碼

相關推薦