自制爬蟲，爬取分類總閱讀量，總評論量。全部文章閱讀量和，以及評論量和。但是發現數據不對

阿新 • • 發佈：2018-12-31

def tt(a,name):
    global ss
    global cc
    sum = 0
    com = 0
    pages = 10
    x = 1
    nn = []
    mm = []

其中global，很重要。沒有這個global會報錯誤！！
全部程式碼：

import requests
import re
ss = 0
cc = 0
empty = []
def tt(a,name):
    global ss
    global cc
    sum = 0
    com = 0
    pages = 10
    x = 1
    nn = []
    mm = []
    base_url = "https://blog.csdn.net/weixin_42859280/article/category/"
    print('\n-------------------------'+name+'-------------------------')
    print('-------------------------下面是原創的-------------------------\n')
    for x in range(pages):
        w = 0
        r = requests.get(base_url+str(a)+'/'+str(x+1)+'?t=1&orderby=ViewCount')
        titles = re.findall(r'<span class="article-type type-.*?">\n.*?</span>\n(.*?)</a>', r.content.decode(), re.MULTILINE)
        visits = re.findall( r'<span class="read-num">閱讀數：(.*?)</span>', r.content.decode())
        mm = re.findall( r'<span class="read-num">評論數：(.*?)</span>', r.content.decode())
        nn = [int(x) for x in visits] #將閱讀數轉換為數字
        nn = nn[1:]
        mm = mm[1:]
        n = 1
        for x, y, z in zip(titles, nn,mm):
            ff = open(name+'.txt','a')
            if n%10 == 0:
                ff.write(titles[w]+' 閱讀數：'+str(nn[w])+' 評論數：'+mm[w]+' \n\n')
            else:
                ff.write(titles[w]+' 閱讀數：'+str(nn[w])+' 評論數：'+mm[w]+' \n')
            ff.close()
            n += 1
            #if int(nn[w]) > 1000:
            #if int(mm[w]) > 0:
            print(titles[w]+' \t\t閱讀數：'+str(nn[w])+' \t\t評論數：'+mm[w])
            sum += int(nn[w])
            com += int(mm[w])
            w+=1
    print('\n-------------------------下面是轉載的------------------------')

    ff = open(name+'.txt','a')
    ff.write(' \n\n 下面就是轉載的！\n\n')
    ff.close()

    pages = 11
    x = 1
    nn = []
    mm = []
    for x in range(pages):
        w = 0
        r = requests.get(base_url+str(a)+'/'+str(x+1)+'?t=2&orderby=ViewCount')
        titles = re.findall(r'<span class="article-type type-.*?">\n.*?</span>\n(.*?)</a>', r.content.decode(), re.MULTILINE)
        visits = re.findall( r'<span class="read-num">閱讀數：(.*?)</span>', r.content.decode())
        mm = re.findall( r'<span class="read-num">評論數：(.*?)</span>', r.content.decode())
        nn = [int(x) for x in visits] #將閱讀數轉換為數字
        nn = nn[1:]
        mm = mm[1:]
        n = 1
        for x, y, z in zip(titles, nn,mm):
            ff = open(name+'.txt','a')
            if n%10 == 0:
                ff.write(titles[w]+' 閱讀數：'+str(nn[w])+' 評論數：'+mm[w]+' \n\n')
            else:
                ff.write(titles[w]+' 閱讀數：'+str(nn[w])+' 評論數：'+mm[w]+' \n')
            ff.close()
            n += 1
            #if int(nn[w]) > 1000:
            #if int(mm[w]) > 0:
            print(titles[w]+' \t閱讀數：'+str(nn[w])+' \t評論數：'+mm[w])
            sum += int(nn[w])
            com += int(mm[w])
            w+=1
    ss += int(sum)
    cc += int(com)
    print("總閱讀量:"+str(sum)+"  總評論量:"+str(com))
    ww = name+"  總閱讀量:"+str(sum)+"   總評論量:"+str(com)
    empty.append(ww)
    ff = open(name+'.txt','a')
    ff.write(' \n 總閱讀量:'+str(sum))
    ff.write('   總評論量:'+str(com))
    ff.close()

tt(8100910,'基礎啦')
tt(8125178,'轉載啦，方便找！ ')
tt(8128370,'基石一般的東西！')
tt(8128378,' 自己找的一點CMD命令！嘻嘻~ ')
tt(8251895,' Linux CENTOS')
tt(8252351,'網路交換機與路由器 ')
tt(8252355,' Windows ')
tt(8252363,'計算機網路')
tt(8252366,' Linux ')
tt(8276398,' 看起來比較牛X的一些小玩意 ')
tt(8292701,'小米開啟Fn ')
tt(8300944,' python '+'.txt')
tt(8309287,' 網路空間安全學習筆記')
tt(8460562,'Python語言及其應用學習！ ')
tt(8493893,' ACM爭取每日一oj! ')
tt(8518453,'C，C++語言程式設計基礎知識！')
tt(8529012,'演算法問題 ')

print("全部文章總閱讀量:"+str(ss)+"  全部文章總評論量:"+str(cc))
for i in empty:
    print(i)

執行後文件截圖：
在這裡插入圖片描述
程式碼截圖：

最後：

留著以後用·
不過，具體實現過程沒有寫。
想學的話，給我留言。
我教你呀~

自制爬蟲，爬取分類總閱讀量，總評論量。全部文章閱讀量和，以及評論量和。但是發現數據不對

def tt(a,name): global ss global cc sum = 0 com = 0 pages = 10 x = 1 nn = [] mm = [] 其中global，很重要。沒有這個global會

第三百三十節，web爬蟲講解2—urllib庫爬蟲—實戰爬取搜狗微信公眾號

文章 odin data 模塊 webapi 頭信息 hone 微信 android 第三百三十節，web爬蟲講解2—urllib庫爬蟲—實戰爬取搜狗微信公眾號封裝模塊 #!/usr/bin/env python # -*- coding: utf-8 -*- impo

Python爬蟲開源項目代碼，爬取微信、淘寶、豆瓣、知乎、新浪微博、QQ、去哪網等代碼整理

http server 以及 pro 模擬登錄取數存在漏洞搜狗作者：SFLYQ 今天為大家整理了32個Python爬蟲項目。整理的原因是，爬蟲入門簡單快速，也非常適合新入門的小夥伴培養信心。所有鏈接指向GitHub，祝大家玩的愉快~ 1、WechatSogou

Python爬蟲小實踐：尋找失蹤人口，爬取失蹤兒童信息並寫成csv文件，方便存入數據庫

python tor enc mini 執行 gem view 獲取但是前兩天有人私信我，讓我爬這個網站，http://bbs.baobeihuijia.com/forum-191-1.html上的失蹤兒童信息，準備根據失蹤兒童的失蹤時的地理位置來更好的尋找失蹤兒童，這

爬蟲，爬取句子迷《龍族》

chrom ide win true res spa rom request file 踩了很多坑，主要是python2編碼的問題和正則不熟直接上腳本 # -*- coding: gbk -*- import re import urllib2 import time

網絡爬蟲（爬取網站圖片，自動保存本地）

accep RoCE itl mage pytho range @class == title 事先申明一點，這個人品沒有什麽問題，只是朋友發一段python源碼，再這裏分享大家。 1 import requests 2 from lxml import html

我的第一個爬蟲，爬取北京地區短租房信息

爬取 connect except links 效率 chrom cti clas 爬蟲 # 導入程序所需要的庫。import requestsfrom bs4 import BeautifulSoupimport time# 加入請求頭偽裝成瀏覽器headers = {

Golang 簡單爬蟲實現，爬取小說

為什麼要使用Go寫爬蟲呢？對於我而言，這僅僅是練習Golang的一種方式。所以，我沒有使用爬蟲框架，雖然其很高效。為什麼我要寫這篇文章？將我在寫爬蟲時找到資料做一個總結，希望對於想使用Golang寫爬蟲的你能有一些幫助。爬蟲主要需要解決兩個問題：獲取網頁解析網頁如果這

python3 學習 3：python爬蟲之爬取動態載入的圖片，以百度圖片為例

轉： https://blog.csdn.net/qq_32166627/article/details/60882964 前言：前面我們爬取圖片的網站都是靜態的，在頁面中右鍵檢視原始碼就能看到網頁中圖片的位置。這樣我們用requests庫得到頁面原始碼後，再用bs4庫解析標籤即可儲存圖片

python爬蟲設計刷部落格訪問量（刷訪問量，贊，爬取圖片）

分享一下我老師大神的人工智慧教程！零基礎，通俗易懂！http://blog.csdn.net/jiangjunshow 也歡迎大家轉載本篇文章。分享知識，造福人民，實現我們中華民族偉大復興！

java實現爬蟲，爬取網易歌單資訊

之前一直對爬蟲很好奇，覺得它很神祕，而我有個朋友是做爬蟲的，最近有空就向他學習了一下，並試著寫了個小程式。首先是獲得httpclient物件及httpresponse物件，此兩者是用於傳送請求及接受資料。 CloseableHttpClient httpClient

汽車之家網站為例-爬蟲的編寫，爬取圖片

汽車之家圖片的爬取汽車之家有很多汽車的點評、價格、圖片等資訊，那麼怎麼才能編寫一個爬蟲來獲得我們所需要的資訊呢，很簡單，兩個工具便可以了，一個網頁解析工具requests，一個正則匹配工具re

爬蟲入門，爬取酷狗歌單top500，簡單爬蟲案例

import requests from bs4 import BeautifulSoup import time headers = { 'User-Agent': 'Mozilla/5.0

python爬蟲，爬取豆瓣電影《芳華》電影短評，分詞生成雲圖。

專案github地址：https://github.com/kocor01/spider_cloub/ Python版本為3.6 最近突然想玩玩雲圖，動手寫了個簡單的爬蟲，搭建了簡單的爬蟲架構爬蟲爬取最近比較火的電影《芳華》分詞後生成雲圖使用了 jieba分詞，雲圖用word

python爬蟲+網頁點選事件+selenium模擬瀏覽器，爬取選股寶內容

（一）PYTHON的安裝（已安裝，可跳過此步驟） 1、PYTHON下載 PYTHON官網：https://www.python.org/ 按照對應的系統下載，

應對js反爬蟲的嘗試，爬取中國人民銀行

應對js反爬蟲的嘗試，爬取中國人民銀行在 - 簡書-爬蟲資料分析學習交流 - 微信群裡有位朋友Jacky提到爬取中國銀行遇到的問題，一時興起便做了嘗試。首先還原問

python爬蟲建立代理池，爬取5000個代理IP並進行驗證！

前面已經介紹了urllib+正則表示式和BeautifulSoup進行爬取資料的方法，今天再解決一個實際問題——構建自己的代理池。通過爬蟲在網上進行資料的獲取，由於效率很快，換言之，訪問的速度過快，導致一段時間內的流量過大，會使得對方的伺服器壓力過

用一個小小小爬蟲，爬取淘寶寶貝評價內容

作為剁手族的成員、資深吃貨之一的我，在網購各種各樣的零食是非常頻繁的，可是要在浩瀚的商品庫中找到合適的寶貝，大多數情況下只能參考評論！為了解決這個麻煩，就用Python做了個抓取淘寶商品評論的小小爬蟲。今天就把這個爬蟲分享給大家！思路我們就拿“德

python爬蟲，爬取貓眼電影top100

import requests from bs4 import BeautifulSoup url_list = [] all_name = [] all_num = [] all_actor = [] all_score = [] class Product_url():

用JAVA實現一個爬蟲，爬取知乎的上的內容（程式碼已無法使用）

在學習JAVA的過程中寫的一個程式，處理上還是有許多問題，爬簡單的頁面還行，複雜的就要跪. 爬取內容主要使用URLConnection請求獲得頁面內容，使用正則匹配頁面內容獲得所需的資訊存入檔案，使用正則尋找這個頁面中可訪問的URL，使用佇列儲存未訪問的URL

自制爬蟲，爬取分類總閱讀量，總評論量。全部文章閱讀量和，以及評論量和。但是發現數據不對

相關推薦