爬取網頁是發現文字亂碼問題

阿新 • • 發佈：2018-11-16

這兩天開始學習爬蟲，發現爬取網站時，爬下來的原始碼裡面的文字內容亂碼，奇怪的是有的網站沒有亂碼，有的網站亂碼了，查詢資料時發現，這是由於每個網站的編碼方式差異造成的。

這個是爬取內涵段子時的原始碼，當列印網頁原始碼時，發現文字資訊亂碼：

然後我又試了下csdn的網站：

發現文字資訊並沒有亂碼

在網上查詢資料知道，每個網站的編碼方式不一樣，檢視每個網址的編碼方式可以開啟瀏覽器的管理者工具來檢視，以chrome為例，開啟F12管理者工具:

這樣可以看到CSDN網站上的編碼方式為UTF-8

內涵段子的編碼方式為GBK，而我使用的pycharm的編碼方式為UTF-8：

因此我爬取網頁的時候，CSDN上的文字沒有亂碼，而內涵段子的網頁文字發生了亂碼

=========================================================================

解決方法：

因為我的編碼器的編碼格式為UTF-8，但是網頁編碼方式為GBK，因為我要先將原始碼進行GBK解碼，然後再進行UTF編碼：

這樣就大功告成了！！！

爬取網頁是發現文字亂碼問題

這兩天開始學習爬蟲，發現爬取網站時，爬下來的原始碼裡面的文字內容亂碼，奇怪的是有的網站沒有亂碼，有的網站亂碼了，查詢資料時發現，這是由於每個網站的編碼方式差異造成的。這個是爬取內涵段子時的原始碼，當列印網頁原始碼時，發現文字資訊亂碼：然後我又試了下csdn的

★ Python爬蟲 - 爬取網頁文字資訊並儲存（美文的爬取與儲存）

本篇文章所包含的主要內容：使用requests模組實現對網頁以字串的形式儲存使用open()、write()、close()函式實現檔案的開啟與寫入使用if() 條件語句對所需要的文字資訊進行過濾以形成一個專用提取函式 &n

python簡單爬取網頁文字操作體會

自上次成功嘗試爬取了靜態頁面的圖片之後，本白又跟著另一篇博文做了一下爬取網頁文字的嘗試。基本程式碼都是來源於該篇博文，本人只是做了輕微修改。簡單的實現爬蟲爬取網頁文字和圖片以python3為背景，這裡還是先定義一個讀取html頁面資訊的函式： import urllib.

爬取網頁資料出現中文亂碼 UTF-8中文亂碼

在用python爬取網頁資料時，獲取的中文資料出現亂碼情況第一種情況：沒有宣告編碼格式，即沒有進行 encoding = 'utf-8' 編碼宣告例如下圖，在獲取資料中<

python爬取網頁中文亂碼。解決方案。python3

``` r = requests.get('http://www.xxxxxxxxxxxxxxx.html') print(r.text) ``` 初次試寫python爬蟲爬取網頁小說，在第一個網站的時候沒問題第二個網站竟然中文亂碼很是尷尬多方求助

Jsoup爬取網頁亂碼編碼格式gb2312轉utf8

最近做的一個專案需要爬取股票公告並存儲於mongodb中用來顯示，當我在用jsoup爬取新浪財經股票公告的時候，發現了亂碼問題。網頁連結如下http://vip.stock.finance.sina.

使用Requests庫和BeautifulSoup庫來爬取網頁上需要的文字與圖片

Pythone現在已經成為全球最火爆的語言了，它的強大之處想必不需要我多說吧。接下來我就Python網路爬蟲來談一談本渣渣的見解。 -----------------------------------------------------------------------

一個鹹魚的Python爬蟲之路（三）：爬取網頁圖片

you os.path odin 路徑生成存在 parent lose exist 學完Requests庫與Beautifulsoup庫我們今天來實戰一波，爬取網頁圖片。依照現在所學只能爬取圖片在html頁面的而不能爬取由JavaScript生成的圖。所以我找了這個網站

常用正則表達式爬取網頁信息及HTML分析總結

logfile mpi 開始 order 標題 ear 爬取網頁常用 enter Python爬取網頁信息時，經常使用的正則表達式及方法。 1.獲取<tr></tr>標簽之間內容 2.獲取<a href..></a>超鏈接

python+selenium+PhantomJS爬取網頁動態加載內容

use for ive comm 自動化測試 mac os x page 影響 blank 一般我們使用python的第三方庫requests及框架scrapy來爬取網上的資源，但是設計javascript渲染的頁面卻不能抓取，此時，我們使用web自動化測試化工具Selen

python爬取網頁圖片

ima com col list https pytho 表達式 images 5% 在Python中使用正則表達式，一個小小的爬蟲，抓取百科詞條網頁的jpg圖片。下面就是我的代碼，作為參考： #coding=utf-8 # __author__ = ‘Hinfa‘ im

使用Post方法模擬登陸爬取網頁(轉)

source tin -m quest exc agen false buffered void 使用Post方法模擬登陸爬取網頁最近弄爬蟲，遇到的一個問題就是如何使用post方法模擬登陸爬取網頁。下面是極簡版的代碼： import java

簡單的爬取網頁圖片

baidu alt idt ima 修改利用表達輸入 html import reimport urllib.request# ------ 獲取網頁源代碼的方法 ---def getHtml(url): page = urllib.request.urlope

03：requests與BeautifulSoup結合爬取網頁數據應用

fas bsp 2.3 m2e bae DC 信息 type 取數 1.1 爬蟲相關模塊命令回顧　　1、requests模塊 1、 pip install requests 2、 response =

python動態爬取網頁

匹配應用 https select idt beautiful 檢查選擇 path 簡介有時候，我們天真無邪的使用urllib庫或Scrapy下載HTML網頁時會發現，我們要提取的網頁元素並不在我們下載到的HTML之中，盡管它們在瀏覽器裏看起來唾手可得。這說明我們想

使用webdriver+urllib爬取網頁數據

環境都是 mac net www med har turn 當我 urilib是python的標準庫，當我們使用Python爬取網頁數據時，往往用的是urllib模塊，通過調用urllib模塊的urlopen(url)方法返回網頁對象，並使用read()方法獲得url的h

urllib基礎-利用網站結構爬取網頁-百度搜索

ont 獲取網頁不能 style 其中 baidu TP bsp 拼接　　有的時候爬取網頁，可以利用網站額結構特點爬取網頁　　在百度搜索框中輸入搜索內容，單擊搜索，瀏覽器會發送一個帶有參數的url請求。嘗試刪除其中的一些參數，只剩下wd這個參數。發現wd是搜索內容。這

爬取網頁

read ava str ring java 代碼 edr http pri 下面以爬取360瀏覽器網頁為例，代碼具有通用性，改變網頁路徑即可代碼如下 package 爬取網頁; import java.io.BufferedReader;import java.io.B

Python 爬取網頁中JavaScript動態添加的內容（二）

python tab sta exe div int rom ava script 使用 selenium + phantomjs 實現 1、準備環境 selenium（一個用於web應用程測試的工具）安裝：pip install seleniumphantomjs（是

php 爬取網頁列表 QueryList

https 3.0 nbsp link 網頁上進爬取網頁 list tps 主流的方式是 phpQuery 今天使用了 QueryList，是在PHPQuery的基礎上進行了封裝，現在最新的版本是4.0，但是要求PHP>7.0。就用了舊版的3.0 3.0文檔：ht

爬取網頁是發現文字亂碼問題

相關推薦