十三、原生爬蟲實戰

阿新 • • 發佈：2018-08-03

enc pri 實例 vid 唯一標識 ext 聯盟 info 目標

一、簡單實例

1、需求：爬取熊貓直播某類主播人氣排行

2、了解網站結構

分類——英雄聯盟——"觀看人數"

3、找到有用的信息

技術分享圖片

二、整理爬蟲常規思路

1、使用工具chrome——F12——element——箭頭——定位目標元素

目標元素：主播名字，人氣（觀看人數）

技術分享圖片

2、方法：使用正則表達式提取有用的信息

主播名字，人氣（觀看人數）

總結

爬蟲前奏

1）明確目的

2）找到數據對應的網頁

3）分析網頁的結構找到數據所在的標簽位置

步驟

1）模擬HTTP請求，向服務器發送這個請求，獲取到服務器返回給我們的HTML

2）用正則表達式提取我們要的數據（名字，人氣）

三、HTML結構分析基本原則

1、爬蟲分析，最重要的一步，找到標簽（即左右邊界）

原則：

1）盡量選擇有唯一標識性的標簽

2）盡量選擇離目標信息最近的標簽

不同人選擇的標簽可能不同。

四、數據提取層級及原則

1、找到最近的定位標簽（肉眼可見）

有關聯的信息作為一組，找離這一組最近的定位標簽

如：示例中的“主播姓名”和“人數”是有關聯的，作為一組

2、判斷選擇的標簽是否是唯一的（需代碼驗證）

3、盡量選擇可閉合的定位標簽

可閉合，是指可將目標信息包裹起來的定位標簽。如：<... />

技術分享圖片

4、代碼實戰

 1 # coding=utf-8
 2 import re
 3 from urllib import request
 4 
 5 url = ‘https://www.panda.tv/all‘
 6 r = request.urlopen(url)
 7 htmls = r.read()
 8 
 9 print(type(htmls))  # 打印type，結果是bytes類型
10 htmls = str(htmls, encoding=‘utf-8‘)  # 將bytes轉成utf-8
11 print(htmls)

運行結果

Traceback (most recent call last):
  File "E:/pyClass/thirtheen/spider.py", line 12, in <module>
    print(htmls)
UnicodeEncodeError: ‘gbk‘ codec can‘t encode character ‘\xa0‘ in position 62321: illegal multibyte sequence

原因是使用的print()是win7系統的編碼，但是win7系統的默認編碼是GBK，解決方式，增加如下代碼

1 import io
2 import sys
3 sys.stdout=io.TextIOWrapper(sys.stdout.buffer,encoding=‘gb18030‘)

優化後代碼

# coding=utf-8
import re
from urllib import request
import io
import sys
sys.stdout=io.TextIOWrapper(sys.stdout.buffer,encoding=‘gb18030‘)

class Spider():

    url = ‘https://www.panda.tv/all‘

    def __fetch_content(self):
        r = request.urlopen(Spider.url)
        htmls = r.read()
        htmls = str(htmls, encoding=‘utf-8‘)  # 將bytes轉成utf-8
        print(htmls)
        return htmls


    def go(self):
        self.__fetch_content()



spider=Spider()
spider.go()

五、正則分析HTML

1、獲取root_html

正則表達式匹配<div class="video-info">和</div>之間的所有字符，有哪些方式？

技術分享圖片

匹配所有字符的方式

1）[\s\S]*?

2）[\w\W]*?

* 表示任意次

？表示貪婪

2、代碼實戰

十三、原生爬蟲實戰

enc pri 實例 vid 唯一標識 ext 聯盟 info 目標一、簡單實例 1、需求：爬取熊貓直播某類主播人氣排行 2、了解網站結構分類——英雄聯盟——"觀看人數" 3、找到有用的信息二、整理爬蟲常規思路 1、使用工具chrome——F12——element—

分布式爬蟲系統設計、實現與實戰：爬取京東、蘇寧易購全網手機商品數據+MySQL、HBase存儲

大數據分布式爬蟲 Java Redis [TOC] 1 概述在不用爬蟲框架的情況，經過多方學習，嘗試實現了一個分布式爬蟲系統，並且可以將數據保存到不同地方，類似MySQL、HBase等。基於面向接口的編碼思想來開發，因此這個系統具有一定的擴展性，有興趣的朋友直接看一下代碼，就能理

python實戰之原生爬蟲(爬取熊貓主播排行榜)

ref png ret spider find end mod int tps """ this is a module,多行註釋 """ import re from urllib import request # BeautifulSoup:解析數據結構推薦庫

Python 爬蟲實戰汽車某家(五) 口碑、評分

文章目錄一、專案結構二、核心類程式碼爬取內容 1、使用者口碑明細評分 2、口碑標題、發表日期、口碑推薦級別 3、購車目的 4、購車價格 5、購車經銷商一、專案結構 point.txt 為斷點

三十三、scrapy的crawlspider爬蟲

1.crawlspider是什麼回顧之前的程式碼中，我們有很大一部分時間在尋找下一頁的url地址或者是內容的url地址上面，這個過程能更簡單一些麼？思路：從response中提取所有的滿足規則的url地址自動的構造自己requests請求，

Python爬蟲實戰一：爬取csdn學院所有課程名、價格和課時

import urllib.request import re,xlwt,datetime class csdn_spider(): def __init__(self): self.c = 0 def sava_data(self,name,class_num,price

爬蟲實戰：頁面解析詳細指南（正則表示式、XPath、jsoup、Gson）

爬蟲的第二步，是對原始碼進行解析，提煉出目標內容。本篇我們主要介紹以下 4 種常用的解析技術：正則表示式 XPath jsoup Gson 正則表示式正則表示式（Regular Expression），電腦科學的一個概念。通常被用來檢索、替

python 爬蟲實戰專案--爬取京東商品資訊（價格、優惠、排名、好評率等）

利用splash爬取京東商品資訊一、環境window7python3.5pycharmscrapyscrapy-splashMySQL二、簡介為了體驗scrapy-spla

Python3實戰—原生爬蟲

基本步驟： 1.明確目的 2.找到資料對應的網頁，分析網頁結構找到資料所在的標籤位置 3.模擬HTTP請求，向伺服器傳送這個請求，獲取伺服器返回的HYML

Python文本爬蟲實戰

文本文取出 www close each 取圖爬蟲 edit 正則表達式轉載請註明原文地址：http://www.cnblogs.com/ygj0930/p/7019950.html 一：流程目標：爬取目標網頁的圖片 1：獲取網頁源碼 2：用Python讀取源

python 爬蟲實戰4 爬取淘寶MM照片

寫真換行符 rip 多行 get sts tool -o true 本篇目標抓取淘寶MM的姓名，頭像，年齡抓取每一個MM的資料簡介以及寫真圖片把每一個MM的寫真圖片按照文件夾保存到本地熟悉文件保存的過程 1.URL的格式在這裏我們用到的URL是 http:/

第三百三十節，web爬蟲講解2—urllib庫爬蟲—實戰爬取搜狗微信公眾號

文章 odin data 模塊 webapi 頭信息 hone 微信 android 第三百三十節，web爬蟲講解2—urllib庫爬蟲—實戰爬取搜狗微信公眾號封裝模塊 #!/usr/bin/env python # -*- coding: utf-8 -*- impo

2017.07.28 Python網絡爬蟲之爬蟲實戰今日影視2 獲取JS加載的數據

常見實戰交互影視獲取框架並且 htm 處理 1.動態網頁指幾種可能： 1）需要用戶交互，如常見的登錄操作； 2）網頁通過js / AJAX動態生成，如一個html裏有<div id="test"></div>，通過JS生成<divi

2017.08.04 Python網絡爬蟲之Scrapy爬蟲實戰二天氣預報

font size 項目執行 weather html time art show 1.項目準備：網站地址：http://quanzhou.tianqi.com/ 2.創建編輯Scrapy爬蟲： scrapy startproject weather scrapy

2017.08.04 Python網絡爬蟲之Scrapy爬蟲實戰二天氣預報的數據存儲問題

sql語句 city amd64 ces img href asp encoding primary 1.數據存儲到JSon：程序閱讀一般都是使用更方便的Json或者cvs等待格式，繼續講解Scrapy爬蟲的保存方式，也就是繼續對pipelines.py文件動手腳（1）創

2017.08.10 Python爬蟲實戰之爬蟲攻防

ebs 1-1 間隔 ima pic setting fin 數據 del 1.創建一般的爬蟲：一般來說，小於100次訪問的爬蟲都無須為此擔心（1）以爬取美劇天堂為例，來源網頁：http://www.meijutt.com/new100.html，項目準備： scrapy

2017.08.10 Python爬蟲實戰之爬蟲攻防篇

5.1 inux ice 一個 1.0 ninja 多網站 alt bject 1.封鎖user-agent破解： user-agent是瀏覽器的身份標識，網站就是通過user-agent來確定瀏覽器類型的。有很多網站會拒絕不符合一定標準的user-agent請求網頁，如果

2017.08.11 Python網絡爬蟲實戰之Beautiful Soup爬蟲

文件的華僑定位 spa 文件目錄 lxml odi nco unicode 1.與Scrapy不同的是Beautiful Soup並不是一個框架，而是一個模塊；與Scrapy相比，bs4中間多了一道解析的過程（Scrapy是URL返回什麽數據，程序就接受什麽數據進行過濾

【H.264/AVC視頻編解碼技術具體解釋】十三、熵編碼算法（3）：CAVLC原理

統計視頻編解碼高效 png h264 轉化頻率遊程編碼而且《H.264/AVC視頻編解碼技術具體解釋》視頻教程已經在“CSDN學院”上線。視頻中詳述了H.264的背景、標準協議和實現，並通過一個實戰project的形式對H.264的標準進行解

爬蟲實戰1--抓取糗事百科段子

爬蟲1.提取某一頁的所有段子 # -*- coding:utf-8 -*- import urllib import urllib2 import re page = 1 url = ‘http://www.qiushibaike.com/hot/page/‘ + str(page) user_agen

十三、原生爬蟲實戰

相關推薦