爬蟲小白——利用pycharm爬取網頁內容

阿新 • • 發佈：2019-01-18

概述：

這是一個利用pycharm在phthon環境下做的一個簡單爬蟲分享，主要通過對豆瓣音樂top250的歌名、作者（專輯）的爬取來分析爬蟲原理

什麼是爬蟲？

我們要學會爬蟲，首先要知道什麼是爬蟲。

網路爬蟲（又被稱為網頁蜘蛛，網路機器人，在FOAF社群中間，更經常的稱為網頁追逐者），是一種按照一定的規則，自動地抓取全球資訊網資訊的程式或者指令碼。另外一些不常使用的名字還有螞蟻、自動索引、模擬程式或者蠕蟲。

中文名: 網路爬蟲
外文名: web crawler

別稱: 網路蜘蛛
目的: 按要求獲取全球資訊網資訊

網路爬蟲是一個自動提取網頁的程式，它為搜尋引擎從全球資訊網上下載網頁，是搜尋引擎的重要組成。傳統爬蟲從一個或若干初始網頁的URL開始，獲得初始網頁上的URL，在抓取網頁的過程中，不斷從當前頁面上抽取新的URL放入佇列,直到滿足系統的一定停止條件。聚焦爬蟲的工作流程較為複雜，需要根據一定的網頁分析演算法過濾與主題無關的連結，保留有用的連結並將其放入等待抓取的URL佇列。然後，它將根據一定的搜尋策略從佇列中選擇下一步要抓取的網頁URL，並重覆上述過程，直到達到系統的某一條件時停止。另外，所有被爬蟲抓取的網頁將會被系統存貯，進行一定的分析、過濾，並建立索引，以便之後的查詢和檢索；對於聚焦爬蟲來說，這一過程所得到的分析結果還可能對以後的抓取過程給出反饋和指導。

準備工作：

使用工具：requests ， lxml ，xpath

xpath是一門在xml文件中查詢資訊的語言。xpath可用來在xml文件中對元素和屬性進行遍歷。xpath的使用可以參考他的教程：

話不多說，開始我們的爬蟲之旅

可以看到我們要獲取的歌名、作者（專輯）在頁面中有十頁，每頁十行

於是我們可以利用for迴圈來獲取目標：

然後用requests請求網頁：

import requests

headers = {"User_Agent": "Mozilla/5.0(compatible; MSIE 5.5; Windows 10)"}

data = requests.get(url, headers=headers).text

再用lxml解析網頁：

from lxml import etree

s = etree.HTML(data)

接下來就可以提取我們想要的資料了

最後把獲取到的資料儲存到我們想要放的地方就可以了

到了這裡，我們基本上完成了，完整程式碼如下：

然後來看看我們爬取的成果

總結：

爬蟲流程：

1、發起請求

使用http庫向目標站點發起請求，即傳送一個Request

Request包含：請求頭、請求體等

Request模組缺陷：不能執行JS 和CSS 程式碼

2、獲取響應內容

如果伺服器能正常響應，則會得到一個Response

Response包含：html，json，圖片，視訊等

3、解析內容

解析html資料：正則表示式（RE模組），第三方解析庫如lxml，bs4等

解析json資料：json模組

解析二進位制資料:以wb的方式寫入檔案

4、儲存資料

資料庫（MySQL，Mongdb、Redis）

檔案

總而言之，爬蟲的流程就是爬取——解析——儲存

爬蟲小白——利用pycharm爬取網頁內容

概述：

什麼是爬蟲？

準備工作：

使用工具：requests ， lxml ，xpath

話不多說，開始我們的爬蟲之旅

總結：

爬蟲小白——利用pycharm爬取網頁內容

利用BeautifulSoup爬取網頁內容

Python爬蟲案例：利用Python爬取笑話網

Java爬蟲學習《一、爬取網頁URL》

爬蟲實例利用Ajax爬取微博數據

Python爬蟲：selenium掛shadowsocks代理爬取網頁內容

Selenium學習三——利用Python爬取網頁表格資料並存到excel

利用python爬取網頁圖片

爬蟲之Scrapy遞迴爬取網頁資訊

實戰利用Xpath爬取網頁資料

利用Beautifulsoup爬取網頁圖片

python爬蟲實戰：利用pyquery爬取貓眼電影TOP100榜單內容-2

Selenium學習四——利用Python爬取網頁多個頁面的表格資料並存到已有的excel中

爬蟲-----selenium模塊自動爬取網頁資源

PHP爬取網頁內容

Python之簡單爬取網頁內容

JAVA爬取網頁內容

python3定向爬取網頁內容

PHP加JavaScript爬取網頁內容，超實用簡易教程

使用HTTPURLConnection模擬登陸，爬取網頁內容

爬蟲小白——利用pycharm爬取網頁內容

概述：

什麼是爬蟲？

準備工作：

使用工具：requests ， lxml ，xpath

話不多說，開始我們的爬蟲之旅

總結：

相關推薦