1. 程式人生 > >python3 [入門基礎實戰] 爬蟲入門之刷部落格瀏覽量

python3 [入門基礎實戰] 爬蟲入門之刷部落格瀏覽量

爬取結果

這裡寫圖片描述

程式碼很簡單:

# encoding=utf8
import requests
import re
import time
from bs4 import BeautifulSoup

firstUrl = 'http://blog.csdn.net/snake_son/article/details/52282490'

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36'
, 'Cookie': '_message_m=23yegwleahbzf4fy5a05grgr; uuid=e7680a5d-2824-45d9-ac7a-06289c3d3cd8; avh=53945000%2c52282490; dc_tos=os5x0v; dc_session_id=1498493448566' } def getHtml(url): text = requests.get(url,headers).text # print('text ',text) return text # txt = getHtml(firstUrl) def
parseHtml(text):
reg_next = r'blog_articles_xiayipian.*?location.href=(.*?);">' regNext = re.compile(reg_next) nextUrl = re.findall(regNext,text) print('當前新頁面: ',nextUrl) str1 = ''.join(nextUrl).rstrip('\'') # htmurl = 'http://blog.csdn.net'+''.join(str1).rstrip('\'') # 將字串前n個字元替換為指定的字元
# strnset(sStr1,ch,n) sStr1 = ''.join(str1) ch = '' n = 1 sStr1 = n * ch + sStr1[1:] htmurl = 'http://blog.csdn.net'+sStr1 print('htmurl '+htmurl) return htmurl for i in range(1,56): text = getHtml(firstUrl) newUrl = parseHtml(text) firstUrl = newUrl print('first2 ',firstUrl,'newUrl ',newUrl)

依然用的是re,覺得用的還是蠻不錯的,一開始學習java 是很拒絕的,因為這個玩意那時候學的一臉懵逼,現在可倒好,很多教程說python3 爬取內容,用beautifulsoup,xpath,能不用re的話,就儘量不用,雖然我用過beautifulsoup,但是現在估計也有些陌生了,現在用的正則確實蠻爽的,越用越熟練。這次爬取刷部落格瀏覽量是為了驗證能

不能真的是進行瀏覽量的增加,

答案是可以的

進行瀏覽量的刷,我是獲取最早的一篇部落格,然後選擇下一頁按鈕進行重新new 一個url再次訪問的。其他就是可能在list 與string方面稍微遇到點問題,進行url部分的去除操

作,有必要的說一點的是,類似python這種後端開發,基礎還是很重要的,更多的是自己動手來解決問題的能力,學會找錯,排bug,這次爬取很簡單,半小時沒用到,主要是鍛鍊回來晚了,

寫到最後: 實現了自己以前對剛開始部落格想讓著瀏覽量劇增的想法,想著有多少人看過我寫過的部落格,現在實現了想想,確實簡單,自己的瀏覽量也就昨晚爬過兩次,進行校驗,so。 每次小小的成就都會讓你越來越喜歡上它的

下次進行xpath的爬取,朝著上萬資料的爬取。更好的深入理解

相關推薦

python3 [入門基礎實戰] 爬蟲入門部落瀏覽

爬取結果 程式碼很簡單: # encoding=utf8 import requests import re import time from bs4 import BeautifulSoup firstUrl = 'http://

Python 自動部落瀏覽(轉載,請尊重原創)

哈哈,今天的話題有點那什麼了哈。咱們應該秉承學習技術的角度來看,那麼就開始今天的話題吧。 思路來源 今天很偶然的一個機會,聽到別人在談論現在的“刷量”行為,於是就激發了我的好奇心。然後看了下requests模組正好對我有用,就寫了一個簡單的測試用例。神奇的發現這一招竟然是管用的。那還等什麼,開刷咯。

Python 自動部落瀏覽

哈哈,今天的話題有點那什麼了哈。咱們應該秉承學習技術的角度來看,那麼就開始今天的話題吧。 思路來源 今天很偶然的一個機會,聽到別人在談論現在的“刷量”行為,於是就激發了我的好奇心。然後看了下requests模組正好對我有用,就寫了一個簡單的測試用例。神奇

python3爬取部落瀏覽

爬取結果 程式碼很簡單: # encoding=utf8 import requests import re import time from bs4 import BeautifulSoup firstUrl = 'http://blog.csdn.

Python模組學習Timer定時任務,函式自調實現定時獲取部落部落瀏覽

Timer定時任務 下面是Timer函式的官方doc介紹資訊 “”” Call a function after a specified number of seconds: t = Timer(30.0, f, args=No

爬蟲基礎python爬蟲入門

#爬蟲 ##1爬蟲基礎知識 爬蟲是什麼?一個自動化的資料收集程式 爬蟲分類?四類 1.通用爬蟲–什麼內容都爬,比如搜尋引擎,百度谷歌 2.聚焦爬蟲–爬取特定內容 3.增量式爬蟲-爬取更新的內容 4.深層網路爬蟲-爬取提交表單後的資料 通用爬蟲弊端: 通用搜索引擎

爬蟲筆記小怪練級:yymp3爬蟲(音樂類爬蟲

lan resp tle 想法 stp 傳遞 header 壓力 idt 一、目標 爬取http://www.yymp3.com網站歌曲相關信息,包括歌曲名字、作者相關信息、歌曲的音頻數據、歌曲的歌詞數據。 二、分析 2.1 歌曲信息、歌曲音頻數據下載地址的獲取 隨

重磅迴歸-SSM整合進階專案實戰個人部落系統

    歷經一個多月的重新設計,需求分析以及前後端開發,終於有了一定的輸出:我自己實現的spring4+springmvc+mybatis3整合的進階專案實戰-個人部落格系統 已然完成了,系統採用mvc三層模式進行整體的開發,涉及到技術一下子很難全部列出,其中不得不提的有:整

python爬蟲設計部落訪問量(訪問量,贊,爬取圖片)

分享一下我老師大神的人工智慧教程!零基礎,通俗易懂!http://blog.csdn.net/jiangjunshow 也歡迎大家轉載本篇文章。分享知識,造福人民,實現我們中華民族偉大復興!        

SpringBoot專案實戰開源部落(一)多模組結構搭建

用springboot開發專案已經有挺長的一段時間了,不得不說boot是一個很好的應用層框架。之前也寫過一些關係Boot的東西,但是講的比較粗略,程式碼也沒有貼出來。最近我自己想做個開源部落格專案,所有就打算記錄點東西下來,把0到1,1到100的過程展現給大家,如有不足之處懇

html+css實戰仿部落網頁

  這幾天學習了一些html+css的知識,於是就動手仿部落格頁面做了一個靜態的頁面。  下面為實現的程式碼: blog.html: <!DOCTYPE html> <html> <head> <meta charset = "u

JAVA爬蟲挖取CSDN部落文章(續)

前言 之前寫過一篇用jsoup爬取csdn部落格的文章JAVA爬蟲挖取CSDN部落格文章 ,當時博主還在上一家公司實習,由於公司辦公網路需要代理才能訪問外網,那一篇的程式碼邏輯與代理密切相關,可能有些不熟悉jsoup怎麼使用的朋友看了會感覺越看越糊塗,且當時以為爬取所有文章需要用到分

python 爬蟲爬去自己部落的訪問量

廢話不多說,我也是剛剛學習小白一個,但是經過我的測試確實是可以用的,只不過大家要把時間設定的要長一點   先上程式碼,使用py3    程式碼的相關解析可以看我的其他部落格,裡面有詳細的介紹   __author__ = 'MrChen' &

django 開發實戰--第四章建立部落設計Model(即設計資料庫表)

1.設計Model(即設計資料庫表) 開啟blog目錄下的models.py檔案,這是定義blog資料結構的地方。 from django.db import models # Create your models here. class BlogsPost(models.Model

“希希敬敬對”團隊--‘百度貼吧小爬蟲’Alpha版本展示部落

“希希敬敬對”團隊成員簡介     龍江騰(隊長)團隊PM 精通C語言,熟悉微控制器開發,嵌入式軟體開發。熟悉軟體專案的一般開發流程,有良好的程式設計風格,程式碼模組化思想。電子基礎紮實,能看懂原理圖,熟悉數位電路和類比電路知識。良好的團隊精神,性格開朗,善於溝通,有強烈的責任感,工作積極主動。

使用scrapy部落訪問量(傻瓜式)

step 1:在cmd中切換到你想把專案建立的磁碟.我是要建立到d盤中. step 2:建立專案,在cmd中輸入:scrapy startproject csdn scrapy startproject 專案名稱 step 3:cd命令切換到你建立的專案下,然後建立爬蟲專案

Elasticsearch學習有用部落

推薦閱讀:1、阿里:https://elasticsearch.cn/article/61712、滴滴:http://t.cn/EUNLkNU3、騰訊:http://t.cn/E4y9ylL4、攜程:https://elasticsearch.cn/article/62055、社群:https://elast

基於python3.7和django2.1的多人部落系統

  基於python3.7和django2.1的多人部落格系統 github地址:https://github.com/opsonly,喜歡的可以給個star~ 簡介:   該部落格前段框架使用了Bootstrap 4

django實戰(一)簡單部落顯示

一直想好好學習一下Python,正好Django是一個很好的網站開發框架,可以用來web程式。接下來,以一個部落格為例。 一、建立基本框架:(django1.0+python3.6+pycharm) (1)建立專案 控制檯輸入以下命令:

Spark調優Cloudera部落(Part 2)

概述 Cloudera關於Spark調優方面的第二篇部落格How-to: Tune Your Apache Spark Jobs (Part 2),主要關注resource tuning(資源使用)、parallelism(並行度)、data represen