Python+Requests安裝及抓取網頁原始碼中文亂碼問題的解決

阿新 • • 發佈：2019-01-28

剛開始自學Python課程，學習到自制單執行緒小爬蟲，利用pip install requests命令安裝Python的Requests庫（自備梯子，注意如果安裝了不同Python版本的話記得先進入對應版本的pip目錄）。 Windows環境下cmd安裝requests庫
安裝完後在IDE中就可以呼叫Requests了。

import requests

於是開始嘗試自己的第一個小爬蟲，借用Requests庫可以很簡單地抓取原始碼：

# -*- coding:utf-8 -*-
import requests
html=requests.get('自己的網站')
print html.text

但這樣執行發現網頁原始碼的中文部分全部亂碼顯示：

<ul>
    <li><a  href="UpLoadFile/2010719174647.jpg" rel="lightbox[1]" title="���ε���"><img src="UpLoadFile/2010719174647.jpg" width="97" height="86" alt="���ε���"><p>���ε���</p></a></li>
    <li><a  href="UpLoadFile/2010719191259.jpg" rel="lightbox[1]" 
 title="���ε���"><img src="UpLoadFile/2010719191259.jpg" width="97" height="86" alt="���ε���"><p>���ε���</p></a></li>
    <li><a  href="UpLoadFile/201071919051.jpg" rel="lightbox[1]" title="�ְ屨����"><img src="UpLoadFile/201071919051.jpg" width="97" height="86" alt="�ְ屨����" 
><p>�ְ屨����</p></a></li>
    <li><a  href="UpLoadFile/2010719184616.jpg" rel="lightbox[1]" title="���ε���"><img src="UpLoadFile/2010719184616.jpg" width="97" height="86" alt="���ε���"><p>���ε���</p></a></li>
    <li><a  href="UpLoadFile/2010719183418.jpg" rel="lightbox[1]" title="ģ�ߵ���"><img src="UpLoadFile/2010719183418.jpg" width="97" height="86" alt="ģ�ߵ���"><p>ģ�ߵ���</p></a></li>
    <li><a  href="UpLoadFile/201071916438.jpg" rel="lightbox[1]" title="Բ������"><img src="UpLoadFile/201071916438.jpg" width="97" height="86" alt="Բ������"><p>Բ������</p></a></li>
</ul>

在網上查詢解決方案，有發現如下幾種方法：

import sys
reload(sys)
sys.setdefaultencoding('utf-8')   #不推薦

import urllib2            #利用Python的urllib2庫抓取網頁
import sys
content = urllib2.urlopen("http://www.higis.cn").read()   #網站頁面是utf-8編碼的。
type = sys.getfilesystemencoding()   # 關鍵
print content.decode("UTF-8").encode(type)  # 關鍵

content.encode('GBK')

分析了幾種解決方案，看來問題的關鍵是網頁原始碼與預設的utf-8編碼不一致導致。瞭解了這個解決起來就容易多了。可以發現要抓取的網頁原始碼中顯示編碼為gb2312

<meta http-equiv="Content-Type" content="text/html; charset=gb2312" />

所以我們要做的就是在程式碼中新增一句用於指定編碼

html.encoding = 'gb2312'

這樣再次執行就能成功顯示中文了：

<ul>
    <li><a  href="UpLoadFile/2010719174647.jpg" rel="lightbox[1]" title="碟形彈簧"><img src="UpLoadFile/2010719174647.jpg" width="97" height="86" alt="碟形彈簧"><p>碟形彈簧</p></a></li>
    <li><a  href="UpLoadFile/2010719191259.jpg" rel="lightbox[1]" title="波形彈簧"><img src="UpLoadFile/2010719191259.jpg" width="97" height="86" alt="波形彈簧"><p>波形彈簧</p></a></li>
    <li><a  href="UpLoadFile/201071919051.jpg" rel="lightbox[1]" title="鋼板寶塔簧"><img src="UpLoadFile/201071919051.jpg" width="97" height="86" alt="鋼板寶塔簧"><p>鋼板寶塔簧</p></a></li>
    <li><a  href="UpLoadFile/2010719184616.jpg" rel="lightbox[1]" title="環形彈簧"><img src="UpLoadFile/2010719184616.jpg" width="97" height="86" alt="環形彈簧"><p>環形彈簧</p></a></li>
    <li><a  href="UpLoadFile/2010719183418.jpg" rel="lightbox[1]" title="模具彈簧"><img src="UpLoadFile/2010719183418.jpg" width="97" height="86" alt="模具彈簧"><p>模具彈簧</p></a></li>
    <li><a  href="UpLoadFile/201071916438.jpg" rel="lightbox[1]" title="圓柱彈簧"><img src="UpLoadFile/201071916438.jpg" width="97" height="86" alt="圓柱彈簧"><p>圓柱彈簧</p></a></li>
 </ul>

還有一點要說的是，可能有些網站會阻擋爬蟲爬取，因此需要簡單的偽裝下Headers，如：

user_agent={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3112.78 Safari/537.36'}
html=requests.get('http://www.baidu.com',headers=user_agent)

爬取完網頁原始碼，接下來就可以利用正則表示式等篩選出我們想要的內容。
至此，本人第一篇部落格文章到此完成，新手一枚，歡迎大家留言討論。

Python+Requests安裝及抓取網頁原始碼中文亂碼問題的解決

剛開始自學Python課程，學習到自制單執行緒小爬蟲，利用pip install requests命令安裝Python的Requests庫（自備梯子，注意如果安裝了不同Python版本的話記得先進入對應版本的pip目錄）。安裝完後在IDE中就可以呼叫Requ

Python3 利用requests抓取網頁原始碼中文亂碼問題（由gb2312編碼引起）

核心問題： meta charset = “gb2312” requests 中文亂碼 ×îÐÂÏûÏ¢_¡¶ÃÎ»ÃÎ÷ÓÎ¡·µçÄÔ°æ¹Ù·½ÍøÕ¾ 以夢幻西遊官網為例 <!DOCTYPE html> <hea

python多執行緒抓取網頁內容並寫入MYSQL

自己的第一個多執行緒練習，中間踩了不少坑，程式寫的很渣，但是勉強能實現功能需求了，實際上抓取網頁是多執行緒在MYSQL寫入的時候是加了執行緒鎖的，實際上感覺就不是在多執行緒寫入了，不過作為第一個練習程式就這樣吧，後續部落格還會繼續更新優化版本。## htm

python的BeautifulSoup實現抓取網頁資料

1環境：pycharm，python3.4 2.原始碼解析 import requests import re from bs4 import BeautifulSoup #通過requests.get獲取整個網頁的資料 def getHtmlText(url):

C語言實現抓取網頁原始碼

#include <stdio.h> #include <stdlib.h> #include <string.h> #include <sys/types.h> #include <sys/socket.h&

python使用ip代理抓取網頁

在抓取一個網站的資訊時，如果我們進行頻繁的訪問，就很有可能被網站檢測到而被遮蔽，解決這個問題的方法就是使用ip代理。在我們接入因特網進行上網時，我們的電腦都會被分配一個全球唯一地ip地址供我們使用，而當我們頻繁訪問一個網站時，網站也正是因為發現同一個ip地址

Python爬蟲學習，抓取網頁上的天氣資訊

今天學習了使用python編寫爬蟲程式，從中國天氣網爬取杭州的天氣。使用到了urllib庫和bs4。bs4提供了專門針對html的解析功能，比用RE方便許多。 # coding : UTF-8 import sys reload(sys) sys.setdef

使用HttpWebRequest和HtmlAgilityPack抓取網頁（拒絕亂碼，拒絕正則表示式）

廢話不多說，直接說需求。公司的網站需要抓取其他網站的文章，但任務沒到我這，同事搞了一下午沒搞出來。由於剛剛到公司，想證明下自己，就把活攬過來了。因為以前做過，覺得應該很簡單，但當我開始做的時候，我崩潰了，http請求後，得到的是字串竟然是亂碼，然後就各種百度(谷歌一直崩潰中)，最後找到了原因。由於

Python使用lxml模塊和Requests模塊抓取HTML頁面的教程

有時 oms 世界 tel 4.0 取出 itl imp syntax Web抓取Web站點使用HTML描述，這意味著每個web頁面是一個結構化的文檔。有時從中獲取數據同時保持它的結構是有用的。web站點不總是以容易處理的格式，如 csv 或者 json 提供它們的數據

Python 抓取網頁gb2312亂碼問題

發現 file read earch () spa .com pycharm close python 爬取學校所有人四六級成績時發現爬出網頁中文亂碼遂google 得到一解決方案 # -*- coding:utf8 -*- import urllib2

記錄一次python抓取網頁下載視訊

最近看了電影狂暴巨獸，連結是那種不固定的http連結，有可能隨時就打不開了，然後想下載下來留著，但是網頁不提供下載，所以就自己抓取了相關視訊，然後下載。廢話不多說，直接上乾貨。用fiddle抓取主要的視訊。下圖就是抓取時候產生的相關資訊。逐條進行分析，然後找到電影的包的地址。 http

python爬蟲-- 抓取網頁、圖片、文章

零基礎入門Python，給自己找了一個任務，做網站文章的爬蟲小專案，因為實戰是學程式碼的最快方式。所以從今天起開始寫Python實戰入門系列教程，也建議大家學Python時一定要多寫多練。目標 1，學習Python爬蟲 2，爬取新聞網站新聞列表 3，爬取圖片 4，把爬取到的資料存在本地

python抓取網頁資料處理後視覺化

抓取文章的連結，訪問量儲存到本地 1 #coding=utf-8 2 import requests as req 3 import re 4 import urllib 5 from bs4 import BeautifulSoup 6 import sys 7 import code

python 爬蟲如何用selenium抓取網頁內容

使用selenium爬取動態網頁資訊 Python selenium自動控制瀏覽器對網頁的資料進行抓取，其中包含按鈕點選、跳轉頁面、搜尋框的輸入、頁面的價值資料儲存、mongodb自動id標識等等等。首先介紹一下 Python selenium —自動化測試工

[Python]網路爬蟲（一）：抓取網頁的含義和URL基本構成

一、網路爬蟲的定義網路爬蟲，即Web Spider，是一個很形象的名字。把網際網路比喻成一個蜘蛛網，那麼Spider就是在網上爬來爬去的蜘蛛。網路蜘蛛是通過網頁的連結地址來尋找網頁的。從網站某一個頁面（通常是首頁）開始，讀取網頁的內容，找到在網頁中的其它連結地址

[Python]網路爬蟲（二）：利用urllib2通過指定的URL抓取網頁內容

版本號：Python2.7.5，Python3改動較大，各位另尋教程。所謂網頁抓取，就是把URL地址中指定的網路資源從網路流中讀取出來，儲存到本地。類似於使用程式模擬IE瀏覽器的功能，把URL作為HTTP請求的內容傳送到伺服器端，然後讀取伺服器端的響應資源。在

python爬蟲爬取非同步載入網頁資訊（python抓取網頁中無法通過網頁標籤屬性抓取的內容）

1.問題描述最近由於學習內容的要求，需要從網頁上抓取一些資料來做分析報告，在看了python爬蟲的一些基礎知識之後就直接上手去網站上爬資料了。作為新手踩坑是無法避免，最近就遇到了一個比較難的問題：一般情況下，要抓去網頁上某個標籤上的內容，在通過urllib下

Python-爬蟲-基本庫（requests）使用-抓取貓眼電影Too100榜

spa spi fire tools not agen ext get pytho 1 #抓取貓眼電影，https://maoyan.com/board/4 榜單電影列表 2 import requests 3 import re 4 from requests

在使用python的selenium庫抓取動態網頁時，瀏覽器內容出現空白的解決方式

轉載請標明出處，謝謝~。我使用的版本: 1、python 3.7 （IDE 用的 pycharm） 2、selenium(通過pip install 安裝的最新版本:3.14 時間：2018.9.6 ) 3、 geckodriver.exe 21.0 4、fi

Python初學者好玩案例（一）：最短的抓取網頁圖片程式碼，只有10行

這幾天閒來無事，又研究了一下Python的基礎內容，首先研究的是如何抓取網頁資料。發現大神們通常在初級教程裡就要寫很多程式碼，真讓我們這些初學者無所適從。加上Python的各種版本不同，也會讓初學者頭腦，在此提醒初學者，看資料一定要注意軟體版本號。還是按照我的原則，凡

Python+Requests安裝及抓取網頁原始碼中文亂碼問題的解決

相關推薦