Python3實戰—原生爬蟲

阿新 • • 發佈：2019-02-07

基本步驟：

1.明確目的

2.找到資料對應的網頁，分析網頁結構找到資料所在的標籤位置

3.模擬HTTP請求，向伺服器傳送這個請求，獲取伺服器返回的HYML

4.用正則表示式提取所需資料（主播名、人氣）

5.精煉資料、處理資料、儲存資料

目的：

爬取熊貓直播英雄聯盟主播人氣排行

原理：

對HTML檔案進行文字分析，從而提取出所需資料

分析網頁結構：

資料的獲取與處理

import re
from urllib import request


class Spider():
    url = 'https://www.panda.tv/cate/lol?pdt=1.24.s1.3.7o5937s6suv'
    root_pattern = '<div class="video-info">([\s\S]*?)</div>'
    name_pattern = '</i>([\s\S]*?)</span>'
    number_pattern = '<span class="video-number">([\s\S]*?)</span>'

    # 私有方法，獲取資料
    def __fetch_content(self):
        r = request.urlopen(Spider.url)
        htmls = r.read()
        htmls = str(htmls, encoding='utf-8')
        return htmls

    # 正則分析html
    def __analysis(self,htmls):
        root_html=re.findall(Spider.root_pattern,htmls)
        anchors = []
        for html in root_html:
            name = re.findall(Spider.name_pattern, html)
            number = re.findall(Spider.number_pattern, html)
            anchor = {'name':name, 'number':number}
            anchors.append(anchor)
        return anchors

    # 精煉資料
    def __refine(self,anchors):
        l = lambda anchor:{'name':anchor['name'][0].strip(),'number':anchor['number'][0]}
        return map(l, anchors)

    # 資料排序
    def __sort(self,anchors):
        anchors = sorted(anchors,key = self.__sort_seed,reverse=True)
        return anchors
    def __sort_seed(self,anchor):
        r = re.findall('\d*',anchor['number'])
        number = float(r[0])
        if '萬' in anchor['number']:
            number *=10000
        return number

    # 顯示函式
    def __show(self,anchors):
        for rank in range(0,len(anchors)):
            print('rank'+str(rank+1)+'  :  '+anchors[rank]['name'] + '     '+anchors[rank]['number'])

    # 入口方法（主方法）
    def go(self):
        htmls = self.__fetch_content()
        anchors = self.__analysis(htmls)
        result = list(self.__refine(anchors))
        sorted_result = self.__sort(result)
        self.__show(sorted_result)


spider = Spider()
spider.go()

結果：

Python3實戰—原生爬蟲

基本步驟： 1.明確目的 2.找到資料對應的網頁，分析網頁結構找到資料所在的標籤位置 3.模擬HTTP請求，向伺服器傳送這個請求，獲取伺服器返回的HYML

python3 編寫原生爬蟲 --爬蟲入門

使用 python3 抓取,csdn 謀篇文章的標題,註釋寫的很全就不多廢話了 #coding=utf-8 from urllib import request import re class Spider(): #我要爬取的連結 start_ur

十三、原生爬蟲實戰

enc pri 實例 vid 唯一標識 ext 聯盟 info 目標一、簡單實例 1、需求：爬取熊貓直播某類主播人氣排行 2、了解網站結構分類——英雄聯盟——"觀看人數" 3、找到有用的信息二、整理爬蟲常規思路 1、使用工具chrome——F12——element—

python實戰之原生爬蟲(爬取熊貓主播排行榜)

ref png ret spider find end mod int tps """ this is a module,多行註釋 """ import re from urllib import request # BeautifulSoup:解析數據結構推薦庫

[Python3網絡爬蟲開發實戰] 1.6.2-Tornado的安裝

我們 adsl 完成 red pip ans dsl clas 技術 Tornado是一個支持異步的Web框架，通過使用非阻塞I/O流，它可以支撐成千上萬的開放連接，效率非常高，本節就來介紹一下它的安裝方式。 1. 相關鏈接 GitHub：https://github.c

[Python3網絡爬蟲開發實戰] 1.3.1-lxml的安裝

列表需要 mac devel pre int 相關鏈接 use install lxml是Python的一個解析庫，支持HTML和XML的解析，支持XPath解析方式，而且解析效率非常高。本節中，我們了解一下lxml的安裝方式，這主要從Windows、Linux和Mac三

[Python3網絡爬蟲開發實戰] 1.7.2-mitmproxy的安裝

否則 mit -o homebrew str 官方網站 over stripe docker mitmproxy是一個支持HTTP和HTTPS的抓包程序，類似Fiddler、Charles的功能，只不過它通過控制臺的形式操作。此外，mitmproxy還有兩個關聯組件，一個

[Python3網絡爬蟲開發實戰] 1.2.4-GeckoDriver的安裝

直接 pre wid selenium 都沒有 arm The file 驅動上一節中，我們了解了ChromeDriver的配置方法，配置完成之後便可以用Selenium驅動Chrome瀏覽器來做相應網頁的抓取。那麽對於Firefox來說，也可以使用同樣的方式完成Sel

[Python3網絡爬蟲開發實戰] 1.3.3-pyquery的安裝

鏈接 print 方便 .org 相關 mon 令行 -a min pyquery同樣是一個強大的網頁解析工具，它提供了和jQuery類似的語法來解析HTML文檔，支持CSS選擇器，使用非常方便。本節中，我們就來了解一下它的安裝方式。 1. 相關鏈接 GitHub：htt

[Python3網絡爬蟲開發實戰] 1.5.2-PyMongo的安裝

它的 nim title bsp plain driver .com 版本了解在Python中，如果想要和MongoDB進行交互，就需要借助於PyMongo庫，這裏就來了解一下它的安裝方法。 1. 相關鏈接 GitHub：https://github.com/mong

[Python3網絡爬蟲開發實戰] 1.2.3-ChromeDriver的安裝

strip data- exe mona them 版本不兼容 .profile title 範圍前面我們成功安裝好了Selenium庫，但是它是一個自動化測試工具，需要瀏覽器來配合使用，本節中我們就介紹一下Chrome瀏覽器及ChromeDriver驅動的配置。首先，

[Python3網絡爬蟲開發實戰] 1.8.3-Scrapy-Splash的安裝

original plugin 5.4 ima asc spl python min 8.4 Scrapy-Splash是一個Scrapy中支持JavaScript渲染的工具，本節來介紹它的安裝方式。 Scrapy-Splash的安裝分為兩部分。一個是Splash服務的安裝

[Python3網絡爬蟲開發實戰] 1.2.2-Selenium的安裝

最新版使用 py3 main 如果 tle settings 導入 one Selenium是一個自動化測試工具，利用它我們可以驅動瀏覽器執行特定的動作，如點擊、下拉等操作。對於一些JavaScript渲染的頁面來說，這種抓取方式非常有效。下面我們來看看Selenium的

[Python3網絡爬蟲開發實戰] 1.7.3-Appium的安裝

數據指令又是開發證書官方網站 ali 設置 use 完全 Appium是移動端的自動化測試工具，類似於前面所說的Selenium，利用它可以驅動Android、iOS等設備完成自動化測試，比如模擬點擊、滑動、輸入等操作，其官方網站為：http://appium.io

Python3原生爬蟲獲取熊貓直播某一分類下的主播人氣並儲存到Excel

import re import openpyxl from urllib import request # 斷點除錯 class Spider: url = 'https://www.panda.tv/cate/lol' root_pattern = '<di

《Python3網絡爬蟲實戰案例（崔慶才著）》中文版PDF下載，附源代碼+視頻教程

圖片網絡爬蟲 51cto 視頻教程下載網絡 png image ref 《Python3網絡爬蟲實戰案例（崔慶才著）》中文版PDF下載，附源代碼+視頻教程，帶目錄資料下載：https://pan.baidu.com/s/1OzxyHQMLOzWFMzjdQ8kEqQ《

Python3 大型網路爬蟲實戰 001 --- 搭建開發環境

我使用的電腦： Windows 10 64位前言開發Python爬蟲有很多種方式，從程式的複雜程度的角度來說，可以分為：爬蟲專案和爬蟲檔案。相信有些朋友玩過Python的urllib模組，一般我們可以用該模組寫一些爬蟲檔案，實現起來非常方便，

python3程式設計08-爬蟲實戰：爬取網路圖片

本篇部落格爬取內容如下：爬取校花網的圖片準備工作： 1.安裝python3 2.安裝pycharm 3.安裝Scrapy，參考：Scrapy安裝 cmd命令新建Scrapy工程 1. 在D:\PythonProjects目錄下新建

python3程式設計07-爬蟲實戰：爬取新聞網站資訊3

本篇部落格在爬取新聞網站資訊2的基礎上進行。主要內容如下： 1.定義獲取一頁20條連結內容的函式 2.構造多個分頁連結 3.抓取多個分頁連結新聞內容 4.用pandas整理爬取的資料 5.儲存資料到csv檔案 6.Scrapy的安裝

Python3實戰—原生爬蟲

基本步驟：

目的：

原理：

分析網頁結構：

資料的獲取與處理

結果：

相關推薦