簡單的Python爬蟲抓資料

阿新 • • 發佈：2018-12-30

說實話，大概兩個月之前就打算整理一下近期掌握的知識、技能——C++的socket，sql server結合Dreamweaver以及godaddy的個人建站，stm32結合液晶顯示，Multisim等的模擬……
一想起這麼多東西就覺得頭大，這次先把最近一兩天寫的一個簡單的Python爬蟲記錄一下

承一位朋友之邀，要求統計一下倫敦、里約兩屆奧運會微博來源情況，是從網頁上發微博的多還是用移動客戶端的多呢？

對此，我考慮用Python通過正則表示式來實現。

首先在新浪微博上搜索倫敦奧運會，發現每條訊息下面總會有
這裡寫圖片描述

右鍵檢視元素（順便說一下，不管是寫網頁或者是爬蟲哪怕是黑客等等跟網頁有關的東西，都推薦裝一下firfox隨時檢視程式碼什麼的，非常方便）如下：
<a target="_blank" href="http://app.weibo.com/t/feed/6vtZb0" rel="nofollow">微博 weibo.com</a>

因此決定將pattern寫為patternw = r'weibo.com'

通過
h = urllib.request.urlopen(url) return h.read()
可以實現將頁面內容讀取為字串。這樣查詢整個網頁的字串一一比對，即可找到有多少微博是發自“weibo.com”的。

具體實現程式碼如下：

#coding=utf-8
#從新浪微博中抓取資料判斷新浪客戶端的使用情況
#只簡單示意，找出了發自網頁、iPhone和vivo的數量
#[email protected]穆沛

#<a target="_blank" href="http://app.weibo.com/t/feed/6vtZb0" rel="nofollow">微博 weibo.com</a> 

#<a target="_blank" href="http://weibo.com/" rel="nofollow">晴小編iPhone 6s Plus</a>

import urllib.request
import re

 #將網頁轉為字串
def downloadPage(url):
    h = urllib.request.urlopen(url)
    return h.read()

def getData(content):
    content = content.decode('utf-8')
    i = 0
    w = 0
    e = 0 

    #來自微博網頁的數量
    patternw = r'weibo.com'
    web = re.compile(patternw)
    wurls = re.findall(web, content)
    for url in wurls:
            w += 1
    print("w = %d"%w)

    #來自iPhone的數量
    patterni = r'iPhone'
    iph = re.compile(patterni)
    iurls = re.findall(iph, content)
    for url in iurls:
            i += 1
    print("i = %d"%i)

    #來自vivo的數量
    patterne = r'vivo'
    oth = re.compile(patterne)
    eurls = re.findall(oth, content)
    for url in eurls:
            e += 1
    print("e = %d"%e)


content = downloadPage("http://s.weibo.com/weibo/%E4%BC%A6%E6%95%A6%E5%A5%A5%E8%BF%90%E4%BC%9A")
getData(content)

寫的有點簡單粗暴，我相信有更好的寫法，歡迎與我交流。

簡單的Python爬蟲抓資料

簡單的Python爬蟲抓資料

Python爬蟲抓取大資料崗位招聘資訊（51job為例）

Python爬蟲抓取動態資料

簡單Python爬蟲例項：抓取豆瓣熱映電影資訊

最新python爬蟲抓取新浪微博千萬級資料，scrapy思路+架構+原始碼

Python爬蟲抓取煎蛋(jandan.net)無聊圖

[轉]用python爬蟲抓站的一些技巧總結 zz

Python爬蟲抓取東方財富網股票數據並實現MySQL數據庫存儲

python爬蟲抓取zabbix監控圖，並發郵件

Python爬蟲--抓取單一頁面上的圖片文件學習

Python爬蟲 —— 抓取美女圖片

Python爬蟲 —— 抓取美女圖片（Scrapy篇）

Python爬蟲_資料儲存

python爬蟲-- 抓取網頁、圖片、文章

Python爬蟲抓取純靜態網站及其資源

一個簡單Python爬蟲例項（爬取的是前程無憂網的部分招聘資訊）

Python爬蟲股票資料定向爬蟲

用python爬蟲抓取視訊網站所有電影

Python爬蟲-抓取divnil動漫妹子圖

第一個Python爬蟲-抓取煎蛋網上圖片

簡單的Python爬蟲抓資料

相關推薦