這是簡易資料分析系列的第 16 篇文章。

這期課程我們講一個用的較少的 Web Scraper 功能——抓取屬性資訊。

網頁在展示資訊的時候，除了我們看到的內容，其實還有很多隱藏的資訊。我們拿豆瓣電影250舉個例子：

電影圖片正常顯示的時候是這個樣子：

如果網路異常，圖片載入失敗，就會顯示圖片的預設文案，這個文案其實就是這個圖片的屬性資訊：

我們檢視一下這個結構的 HTML（檢視方法可見 CSS 選擇器的使用的第一節內容），就會發現圖片的預設文案其實就是這個 <img/> 標籤的 alt 屬性：

我們可以看一下 HTML 文件裡對 alt 屬性的描述：

alt 屬性是一個必需的屬性，它規定在影象無法顯示時的替代文字

在 web scraper 裡，我們可以利用 Element attribute 屬性來抓取這種屬性資訊。

因為這次的內容比較簡單，新建 sitemap 這一步我就先省略了，我們直接上來使用 Element attribute 抓取資料。

我們把 Type 選為 Element attribute，然後用 Selector 選中圖片這個元素：

Element attribute 會多一個選項——Attribute name，我們在這個輸入框裡輸入我們要抓取的屬性名字。

觀察一下這個 img 標籤的屬性，有 alt（替換文字）、width（圖片寬度）和 src（圖片連結）3 種：

這裡我先輸入 alt

，表示抓取圖片的替代文字：

還可以輸入 src，表示抓取圖片的連結：

也可以輸入 width，抓取圖片寬度：

通過 Element attribute 這個選擇器，我們就可以抓取一些網頁沒有直接展示出來的資料資訊，非常的方便。

sitemap 分享

{"_id":"douban2","startUrl":["https://movie.douban.com/top250?start=0&filter="],"selectors":[{"id":"ele","type":"SelectorElement","parentSelectors":["_root"],"selector":".grid_view li","multiple":true,"delay":0},{"id":"image_name","type":"SelectorElementAttribute","parentSelectors":["ele"],"selector":"img","multiple":false,"extractAttribute":"alt","delay":0}]}

聯絡我

因為文章發在各大平臺上，賬號較多不能及時回覆評論和私信，有問題可關注公眾號 ——「鹵代烴實驗室」，（或 wx 搜尋 sky_chx）關注上車防失聯。

Web Scraper 高階用法——抓取屬性資訊 | 簡易資料分析 16

這是簡易資料分析系列的第 16 篇文章。這期課程我們講一個用的較少的 Web Scraper 功能——抓取屬性資訊。網頁在展示資訊的時候，除了我們看到的內容，其實還有很多隱藏的資訊。我們拿豆瓣電影250舉個例子：電影圖片正常顯示的時候是這個樣子：如果網路異常，圖片載入失敗，就會顯示圖片的預設文

簡易資料分析 13 | Web Scraper 高階用法——抓取二級頁面

這是簡易資料分析系列的第 13 篇文章。不知不覺，web scraper 系列教程我已經寫了 10 篇了，這 10 篇內容，基本上覆蓋了 Web Scraper 大部分功能。今天的內容算這個系列的最後一篇文章了，下一章節我會開一個新坑，說說如何利用 Excel 對收集到的資料做一些格式化的處理和分析。

Web Scraper 高階用法——利用正則表示式篩選文字資訊 | 簡易資料分析 17

![](https://image-1255652541.cos.ap-shanghai.myqcloud.com/images/20200317225112.png) 這是簡易資料分析系列的**第 17 篇**文章。學習了這麼多課，我想大家已經發現了，web scraper 主要是用來爬取**

簡易資料分析 04 | Web Scraper 初嘗--抓取豆瓣高分電影

這是簡易資料分析系列的第 4 篇文章。今天我們開始資料抓取的第一課，完成我們的第一個爬蟲。因為是剛剛開始，操作我會講的非常詳細，可能會有些囉嗦，希望各位不要嫌棄啊：）有人之前可能學過一些爬蟲知識，總覺得這是個複雜的東西，什麼 HTTP、HTML、IP 池，在這裡我們都不考慮這些東西。一是小的資料量根本

簡易資料分析 09 | Web Scraper 自動控制抓取數量 & Web Scraper 父子選擇器

這是簡易資料分析系列的第 9 篇文章。今天我們說說 Web Scraper 的一些小功能：自動控制 Web Scraper 抓取數量和 Web Scraper 的父子選擇器。如何只抓取前 100 條資料？如果跟著上篇教程一步一步做下來，你會發現這個爬蟲會一直運作，根本停不下來。網頁有 1000 條資

簡易資料分析 10 | Web Scraper 翻頁——抓取「滾動載入」型別網頁

這是簡易資料分析系列的第 10 篇文章。友情提示：這一篇文章的內容較多，資訊量比較大，希望大家學習的時候多看幾遍。我們在刷朋友圈刷微博的時候，總會強調一個『刷』字，因為看動態的時候，當把內容拉到螢幕末尾的時候，APP 就會自動載入下一頁的資料，從體驗上來看，資料會源源不斷的加載出來，永遠沒有盡頭。

簡易資料分析 12 | Web Scraper 翻頁——抓取分頁器翻頁的網頁

這是簡易資料分析系列的第 12 篇文章。前面幾篇文章我們介紹了 Web Scraper 應對各種翻頁的解決方法，比如說修改網頁連結載入資料、點選“更多按鈕“載入資料和下拉自動載入資料。今天我們說說一種更常見的翻頁型別——分頁器。本來想解釋一下啥叫分頁器，翻了一堆定義覺得很繁瑣，大家也不是第一年上網了，

淘寶爬取商品資訊以及資料分析

爬取淘寶商品專案內容案例選擇>>商品類目：沙發數量：共100頁 4400商品篩選條件：天貓、銷量從高到低、價格500元以上專案目的對商品標題進行文字分析，詞雲視覺化不同關鍵詞word對應的sales的統計分析

簡易資料分析 07 | Web Scraper 抓取多條內容

這是簡易資料分析系列的第 7 篇文章。在第 4 篇文章裡，我講解了如何抓取單個網頁裡的單類資訊；在第 5 篇文章裡，我講解了如何抓取多個網頁裡的單類資訊；今天我們要講的是，如何抓取多個網頁裡的多類資訊。這次的抓取是在簡易資料分析 05的基礎上進行的，所以我們一開始就解決了抓取多個網頁的問題，下面全

簡易資料分析 11 | Web Scraper 抓取表格資料

這是簡易資料分析系列的第 11 篇文章。今天我們講講如何抓取網頁表格裡的資料。首先我們分析一下，網頁裡的經典表格是怎麼構成的。 First Name 所在的行比較特殊，是一個表格的表頭，表示資訊分類 2-5 行是表格的主體，展示分類內容經典表格就這些知識點，沒了。下面我們寫個簡單的表格 Web

Python網路爬蟲之抓取訂餐資訊

本文以大眾點評網為例，獲取頁面的餐館資訊，以達到練習使用python的目的。 1.抓取大眾點評網中關村附近的餐館有哪些 import urllib.request import re def fetchFood(url):

用python 通過12306api抓取列車資訊

PS:本文為學習參考例項。程式碼與上述大體相同。首先了解這些查詢介面是怎麼來的 chrome是個好東西，特別是它的控制檯能看到很多細節。 12306網站通過chrome可以看到查詢票的api 其中有log? 和 queryA?兩種開頭的介面

python網路爬蟲--抓取股票資訊到Mysql

1.建表mysql -u root -p 123456create database test default character set utf8;create table stocks --a股( code varchar(10) comment '程式碼', nam

爬蟲框架Scrapy實戰之批量抓取招聘資訊--附原始碼

瞭解更多Python爬蟲內容請微信公眾號關注：Python技術博文所謂網路爬蟲，就是一個在網上到處或定向抓取資料的程式，當然，這種說法不夠專業，更專業的描述就是，抓取特定網站網頁的HTML資料。不過由於一個網站的網頁很多，而我們又不可能事先知道所有網頁的URL地址

爬蟲requests庫簡單抓取頁面資訊功能實現（Python）

import requests import re, json,time,random from requests import RequestException UserAgentList = [ "Mozilla/5.0 (Windows NT 6.1; WO

(PHP)用cURL抓取網頁資訊並替換部分內容

<?php /** * 用cURL抓取網頁資訊並替換部分內容 * User: Ollydebug * Date: 2015/11/11 * Time: 19:13 */ $curlo

Python3抓取頁面資訊，網路程式設計，簡單傳送QQ郵件

資料收集，資料整理，資料描述，資料分析 # coding=utf-8 import sys import urllib.request req = urllib.request.Request(

Scrapy 框架簡介抓取一點資訊

什麼是scrapy ? 1 Scrapy是用純Python實現一個為了爬取網站資料、提取結構性資料而編寫的應用框架，用途非常廣泛 2 Scrapy 使用了 Twisted['twɪstɪd](其主要對手是Tornado)非同步網路框架來處理網路通訊3 Scrapy非常的靈

一個簡單的Jsoup抓取頁面資訊的例子

簡介： jsoup 是一款Java 的HTML解析器，可直接解析某個URL地址、HTML文字內容。它提供了一套非常省力的API，可通過DOM，CSS以及類似於jQuery的操作方法來取出和操作資料。在本文，本人將教大家如何使用jsoup抓取一些簡單的頁面資訊準備：

Perl抓取網頁資訊

demo： #!/usr/bin/perl -w # Perl pragma to restrict unsafe constructs use strict; # use LWP::UserAgent model use LWP::UserAgent; # main

Web Scraper 高階用法——抓取屬性資訊 | 簡易資料分析 16

sitemap 分享

推薦閱讀

聯絡我

相關推薦