爬取網頁是發現文字亂碼問題
這兩天開始學習爬蟲,發現爬取網站時,爬下來的原始碼裡面的文字內容亂碼,奇怪的是有的網站沒有亂碼,有的網站亂碼了,查詢資料時發現,這是由於每個網站的編碼方式差異造成的。
這個是爬取內涵段子時的原始碼,當列印網頁原始碼時,發現文字資訊亂碼:
然後我又試了下csdn的網站:
發現文字資訊並沒有亂碼
在網上查詢資料知道,每個網站的編碼方式不一樣,檢視每個網址的編碼方式可以開啟瀏覽器的管理者工具來檢視,以chrome為例,開啟F12管理者工具:
這樣可以看到CSDN網站上的編碼方式為UTF-8
內涵段子的編碼方式為GBK,而我使用的pycharm的編碼方式為UTF-8:
因此我爬取網頁的時候,CSDN上的文字沒有亂碼,而內涵段子的網頁文字發生了亂碼
=========================================================================
解決方法:
因為我的編碼器的編碼格式為UTF-8,但是網頁編碼方式為GBK,因為我要先將原始碼進行GBK解碼,然後再進行UTF編碼:
這樣就大功告成了!!!
相關推薦
爬取網頁是發現文字亂碼問題
這兩天開始學習爬蟲,發現爬取網站時,爬下來的原始碼裡面的文字內容亂碼,奇怪的是有的網站沒有亂碼,有的網站亂碼了,查詢資料時發現,這是由於每個網站的編碼方式差異造成的。 這個是爬取內涵段子時的原始碼,當列印網頁原始碼時,發現文字資訊亂碼: 然後我又試了下csdn的
★ Python爬蟲 - 爬取網頁文字資訊並儲存(美文的爬取與儲存)
本篇文章所包含的主要內容: 使用requests模組實現對網頁以字串的形式儲存 使用open()、write()、close()函式實現檔案的開啟與寫入 使用if() 條件語句對所需要的文字資訊進行過濾以形成一個專用提取函式 &n
python簡單爬取網頁文字操作體會
自上次成功嘗試爬取了靜態頁面的圖片之後,本白又跟著另一篇博文做了一下爬取網頁文字的嘗試。基本程式碼都是來源於該篇博文,本人只是做了輕微修改。 簡單的實現爬蟲爬取網頁文字和圖片 以python3為背景,這裡還是先定義一個讀取html頁面資訊的函式: import urllib.
爬取網頁資料出現中文亂碼 UTF-8中文亂碼
在用python爬取網頁資料時,獲取的中文資料出現亂碼情況 第一種情況: 沒有宣告編碼格式,即沒有進行 encoding = 'utf-8' 編碼宣告 例如下圖,在獲取資料中<
python爬取網頁中文亂碼。解決方案。python3
``` r = requests.get('http://www.xxxxxxxxxxxxxxx.html') print(r.text) ``` 初次試寫python爬蟲爬取網頁小說, 在第一個網站的時候沒問題 第二個網站竟然中文亂碼 很是尷尬 多方求助
Jsoup爬取網頁亂碼編碼格式gb2312轉utf8
最近做的一個專案需要爬取股票公告並存儲於mongodb中用來顯示,當我在用jsoup爬取新浪財經股票公告的時候,發現了亂碼問題。網頁連結如下http://vip.stock.finance.sina.
使用Requests庫和BeautifulSoup庫來爬取網頁上需要的文字與圖片
Pythone現在已經成為全球最火爆的語言了,它的強大之處想必不需要我多說吧。接下來我就Python網路爬蟲來談一談本渣渣的見解。 -----------------------------------------------------------------------
一個鹹魚的Python爬蟲之路(三):爬取網頁圖片
you os.path odin 路徑 生成 存在 parent lose exist 學完Requests庫與Beautifulsoup庫我們今天來實戰一波,爬取網頁圖片。依照現在所學只能爬取圖片在html頁面的而不能爬取由JavaScript生成的圖。所以我找了這個網站
常用正則表達式爬取網頁信息及HTML分析總結
logfile mpi 開始 order 標題 ear 爬取網頁 常用 enter Python爬取網頁信息時,經常使用的正則表達式及方法。 1.獲取<tr></tr>標簽之間內容 2.獲取<a href..></a>超鏈接
python+selenium+PhantomJS爬取網頁動態加載內容
use for ive comm 自動化測試 mac os x page 影響 blank 一般我們使用python的第三方庫requests及框架scrapy來爬取網上的資源,但是設計javascript渲染的頁面卻不能抓取,此時,我們使用web自動化測試化工具Selen
python爬取網頁圖片
ima com col list https pytho 表達式 images 5% 在Python中使用正則表達式,一個小小的爬蟲,抓取百科詞條網頁的jpg圖片。下面就是我的代碼,作為參考: #coding=utf-8 # __author__ = ‘Hinfa‘ im
使用Post方法模擬登陸爬取網頁(轉)
source tin -m quest exc agen false buffered void 使用Post方法模擬登陸爬取網頁 最近弄爬蟲,遇到的一個問題就是如何使用post方法模擬登陸爬取網頁。下面是極簡版的代碼: import java
簡單的爬取網頁圖片
baidu alt idt ima 修改 利用 表達 輸入 html import reimport urllib.request# ------ 獲取網頁源代碼的方法 ---def getHtml(url): page = urllib.request.urlope
03:requests與BeautifulSoup結合爬取網頁數據應用
fas bsp 2.3 m2e bae DC 信息 type 取數 1.1 爬蟲相關模塊命令回顧 1、requests模塊 1、 pip install requests 2、 response =
python動態爬取網頁
匹配 應用 https select idt beautiful 檢查 選擇 path 簡介 有時候,我們天真無邪的使用urllib庫或Scrapy下載HTML網頁時會發現,我們要提取的網頁元素並不在我們下載到的HTML之中,盡管它們在瀏覽器裏看起來唾手可得。 這說明我們想
使用webdriver+urllib爬取網頁數據
環境 都是 mac net www med har turn 當我 urilib是python的標準庫,當我們使用Python爬取網頁數據時,往往用的是urllib模塊,通過調用urllib模塊的urlopen(url)方法返回網頁對象,並使用read()方法獲得url的h
urllib基礎-利用網站結構爬取網頁-百度搜索
ont 獲取網頁 不能 style 其中 baidu TP bsp 拼接 有的時候爬取網頁,可以利用網站額結構特點爬取網頁 在百度搜索框中輸入搜索內容,單擊搜索,瀏覽器會發送一個帶有參數的url請求。嘗試刪除其中的一些參數,只剩下wd這個參數。發現wd是搜索內容。這
爬取網頁
read ava str ring java 代碼 edr http pri 下面以爬取360瀏覽器網頁為例,代碼具有通用性,改變網頁路徑即可 代碼如下 package 爬取網頁; import java.io.BufferedReader;import java.io.B
Python 爬取網頁中JavaScript動態添加的內容(二)
python tab sta exe div int rom ava script 使用 selenium + phantomjs 實現 1、準備環境 selenium(一個用於web應用程測試的工具)安裝:pip install seleniumphantomjs(是
php 爬取網頁列表 QueryList
https 3.0 nbsp link 網頁 上進 爬取網頁 list tps 主流的方式是 phpQuery 今天使用了 QueryList,是在PHPQuery的基礎上進行了封裝,現在最新的版本是4.0,但是要求PHP>7.0。就用了舊版的3.0 3.0文檔:ht