Python爬蟲1-獲取指定網頁原始碼

阿新 • • 發佈：2018-12-07

1、任務簡介

前段時間一直在學習Python基礎知識，故未更新部落格，近段時間學習了一些關於爬蟲的知識，我會分為多篇部落格對所學知識進行更新，今天分享的是獲取指定網頁原始碼的方法，只有將網頁原始碼抓取下來才能從中提取我們需要的資料。

2、任務程式碼

Python獲取指定網頁原始碼的方法較為簡單，我在Java中使用了38行程式碼才獲取了網頁原始碼（大概是學藝不精），而Python中只用了6行就達到了效果。

Python中獲取網頁原始碼最簡單的方法就是使用urllib包，具體程式碼如下：

import urllib.request        #匯入urllib.request庫 

b = str(input("請輸入："))   #提示使用者輸入資訊，並強制型別轉換為字串型
a = urllib.request.urlopen(b)#開啟指定網址
html = a.read()              #讀取網頁原始碼
html = html.decode("utf-8") #解碼為unicode碼
print(html)                  #列印網頁原始碼

我輸入的網址是我部落格主頁的網址https://blog.csdn.net/lsylsy726

執行結果如下：
在這裡插入圖片描述

3、總結

這篇部落格介紹的方法較為簡單，其實有的網站會“反爬蟲”，這時就需要我們使用User-Agent或者代理，這些東西都會在後面的部落格中進行更新，我預計在後面部落格中更新“讀取CSDN部落格訪問量的小程式”和“有道翻譯小程式”及其他更難一些的知識，由於剛開始學習爬蟲，水平有限，請大家多多包涵。

Python爬蟲1-獲取指定網頁原始碼

1、任務簡介

2、任務程式碼

3、總結

Python爬蟲1-獲取指定網頁原始碼

python爬蟲如何獲取網頁資訊時，發現所需要的資訊是動態生成的，然後抓包獲取到資訊來源的URL？

Python爬蟲--- 1.5 爬蟲實踐：獲取百度貼吧內容

python 爬蟲1 開始，先拿新浪微博開始

python爬蟲--自動獲取seebug的poc

python爬蟲1.4

[Python] [爬蟲] 1.批量政府網站的招投標、中標資訊爬取和推送的自動化爬蟲概要——脫離Scrapy框架

Python爬蟲爬取網上圖片原始碼，可用來製作深度學習資料集

你以為Python爬蟲只能爬取網頁資料嗎？APP也是可以的呢！

Python 爬蟲爬取指定微信公眾號文章

Python爬蟲--- 1.4 正則表示式：re庫

python爬蟲之BeautifulSoup解析網頁

python 爬蟲（爬取網頁的img並下載）

從零開始寫Python爬蟲 --- 1.1 requests庫的安裝與使用

python爬蟲：獲取標籤內部全部文字

Python爬蟲(1)------爬取網站圖片

冷笑話Python爬蟲1.1

python爬蟲(1)——基本知識和概念

python爬蟲，獲取百度貼吧圖片

python 爬蟲（xpath解析網頁，下載照片）

Python爬蟲1-獲取指定網頁原始碼

1、任務簡介

2、任務程式碼

3、總結

相關推薦