用file_get_contents抓取網頁亂碼的2種解決方式

阿新 • • 發佈：2019-01-23

今天自己在寫一個程式，抓取別人的網頁，之前公司有些功能也會需要，但是今天在抓取網頁的時候發現了一個問題用file_get_contents抓取網頁發現如截圖所示的亂碼情況

於是用轉換編碼

$contents = iconv("gb2312", "utf-8//IGNORE",$contents);

之前遇到就算亂碼也是網頁編碼的問題，html標籤頁不會有問題，問題還是沒有解決

於是網上找了一下
原因：說是獲取的頭部資訊當中有Content-Encoding: gzip說明內容是GZIP壓縮的
然後我試著抓取了自己的部落格，發現可以正常抓取，頭部資訊中也帶有Content-Encoding: gzip，為什麼會這樣就不清楚了，之後在解決

下面我推薦2種解決方法：

①、伺服器安裝zlib庫

$contents = file_get_contents("compress.zlib://".$url);

②. 使用CURL代替file_get_contents

function curl_get($url, $gzip=false){
　$curl = curl_init($url);
　curl_setopt($curl, CURLOPT_RETURNTRANSFER, 1);
　curl_setopt($curl, CURLOPT_CONNECTTIMEOUT, 10);
　if($gzip) curl_setopt($curl, CURLOPT_ENCODING, "gzip"); // 關鍵在這裡
　$content = curl_exec($curl);
　curl_close($curl);
　return $content;
}

自此問題解決了，繼續下面的程式

QQ交流群：136351212
檢視原文：http://www.phpsong.com/1404.html

用file_get_contents抓取網頁亂碼的2種解決方式

今天自己在寫一個程式，抓取別人的網頁，之前公司有些功能也會需要，但是今天在抓取網頁的時候發現了一個問題用file_get_contents抓取網頁發現如截圖所示的亂碼情況於是用轉換編碼 $contents = iconv("gb2312", "utf-8//IGNO

PHP中使用file_get_contents抓取網頁中文亂碼問題解決方法，GZIP

這篇文章主要介紹了PHP中使用file_get_contents抓取網頁中文亂碼問題解決方法,可以通過使用curl配置gzip選項來解決,具有一定的參考借鑑價值,需要的朋友可以參考下本文例項講述了PHP中使用file_get_contents抓取網頁中文亂碼問題解決方法。分享

(PHP)用cURL抓取網頁資訊並替換部分內容

<?php /** * 用cURL抓取網頁資訊並替換部分內容 * User: Ollydebug * Date: 2015/11/11 * Time: 19:13 */ $curlo

用java抓取網頁圖片

記得是這個月9號來深圳的，找了快20天的工作，結果只有那麼三四家公司打電話要我去面試，真的不知道什麼原因啊。是我投簡歷投簡歷投少了麼？還是這個季節就是招聘冷季節？真的不清楚。前天去一家創業公司面試，公司感覺還好，整體還算滿意，很幸運的被面試上了。談的工資也是我能接受的，就答

python使用urllib2包實現抓取抓取網頁的三種形式

wechat:812716131 ------------------------------------------------------ 技術交流群請聯絡上面wechat ----------------------------------------------

github或者gitlab上fork別人的程式碼後更新的2種解決方式

1.解決方式1 首先要先確定一下是否建立了主repo的遠端源： git remote -v 如果裡面只能看到你自己的兩個源(fetch 和 push)，那就需要新增主repo的源： git remote add upstream URL git remote -v 這裡

Python 抓取網頁gb2312亂碼問題

發現 file read earch () spa .com pycharm close python 爬取學校所有人四六級成績時發現爬出網頁中文亂碼遂google 得到一解決方案 # -*- coding:utf8 -*- import urllib2

使用HttpWebRequest和HtmlAgilityPack抓取網頁(無亂碼)

public string HttpGet(string url) { string responsestr = ""; HttpWebRequest req = HttpWebRequest.Create(url) as HttpWe

用Scrapy抓取的中文字元匯出到csv中出現亂碼

背景按照這篇文章學些Scrapy框架，爬取豆瓣電影Top250的資訊，將資訊匯入到本地csv檔案時，由於電影名稱是中文，儲存時出現了亂碼。解決辦法在setting檔案中加入這樣一行語句： FEED_EXPORT_ENCODING = ‘utf-8-sig’ 儲存se

使用HttpWebRequest和HtmlAgilityPack抓取網頁（拒絕亂碼，拒絕正則表示式）

廢話不多說，直接說需求。公司的網站需要抓取其他網站的文章，但任務沒到我這，同事搞了一下午沒搞出來。由於剛剛到公司，想證明下自己，就把活攬過來了。因為以前做過，覺得應該很簡單，但當我開始做的時候，我崩潰了，http請求後，得到的是字串竟然是亂碼，然後就各種百度(谷歌一直崩潰中)，最後找到了原因。由於

【PHP-網頁內容抓取】抓取網頁內容的兩種常用方法

說到網頁內容的抓取，最常用的兩種方式： 1.利用file_get_contents()函式，簡簡單單； 2.CURL抓取工具。CURL是一個非常強大的開源庫，支援很多協議，包括HTTP、FTP、TEL

Python3 利用requests抓取網頁原始碼中文亂碼問題（由gb2312編碼引起）

核心問題： meta charset = “gb2312” requests 中文亂碼 ×îÐÂÏûÏ¢_¡¶ÃÎ»ÃÎ÷ÓÎ¡·µçÄÔ°æ¹Ù·½ÍøÕ¾ 以夢幻西遊官網為例 <!DOCTYPE html> <hea

Python+Requests安裝及抓取網頁原始碼中文亂碼問題的解決

剛開始自學Python課程，學習到自制單執行緒小爬蟲，利用pip install requests命令安裝Python的Requests庫（自備梯子，注意如果安裝了不同Python版本的話記得先進入對應版本的pip目錄）。安裝完後在IDE中就可以呼叫Requ

node.js 小爬蟲抓取網頁資料（2）

node.js 小爬蟲抓取網頁資料在原來的基礎上，採用了promise的模組，使其可以一次性多頁面的爬取網頁資料。 var http = require('http') var Promise = require('promise') var cheerio = re

一個站點的誕生02--用Scrapy抓取數據

項目 selector 默認安裝找不到 shang foo 術語替換產生假設想抓數據，就須要有爬蟲程序，業內叫crawler或者spider。有各種語言版本號的開源爬蟲。c++, Java, php，在github上搜一下，以"spider c++"為k

curl抓取網頁內容php

dem windows grep 網頁資源網頁爬蟲 url 工具 () 動態獲取 1.cURL curl是客戶端向服務器請求資源的工具 2.cURL使用場景網頁資源：網頁爬蟲 webservice數據接口資源：動態獲取接口數據天氣號碼歸屬地 ftp資源：下載ftp

JAVA使用Gecco爬蟲抓取網頁內容

log pro 指定 get www. error 一個 log4j java類 JAVA 爬蟲工具有挺多的，但是Gecco是一個挺輕量方便的工具。先上項目結構圖。這是一個 JAVASE的 MAVEN 項目，要添加包依賴，其他就四個文件。log4j.propertie

用python 抓取B站視頻評論，制作詞雲

port mil query 雲圖 ges cal 爬取 close hid python 作為爬蟲利器，與其有很多強大的第三方庫是分不開的，今天說的爬取B站的視頻評論，其實重點在分析得到的評論化作嵌套的字典，在其中取出想要的內容。層層嵌套，眼花繚亂，分析時應細致！步驟分為

php抓取頁面的幾種方法詳解

close deb clas win exe _array error: fopen ini 一、 PHP抓取頁面的主要方法：1. file()函數 2. file_get_contents()函數 3. fopen()->fread()->fclose

Java抓取網頁數據（原網頁+Javascript返回數據）

class mail 搜索引擎網頁數據點擊 ann 技術 while span 轉載請註明出處！原文鏈接：http://blog.csdn.net/zgyulongfei/article/details/7909006 有時候由於種種原因，我們需要采集某個網站的數

用file_get_contents抓取網頁亂碼的2種解決方式

下面我推薦2種解決方法：

相關推薦