python3 [入門基礎實戰] 爬蟲入門之刷部落格瀏覽量
爬取結果
程式碼很簡單:
# encoding=utf8
import requests
import re
import time
from bs4 import BeautifulSoup
firstUrl = 'http://blog.csdn.net/snake_son/article/details/52282490'
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36'
,
'Cookie': '_message_m=23yegwleahbzf4fy5a05grgr; uuid=e7680a5d-2824-45d9-ac7a-06289c3d3cd8; avh=53945000%2c52282490; dc_tos=os5x0v; dc_session_id=1498493448566'
}
def getHtml(url):
text = requests.get(url,headers).text
# print('text ',text)
return text
# txt = getHtml(firstUrl)
def parseHtml(text):
reg_next = r'blog_articles_xiayipian.*?location.href=(.*?);">'
regNext = re.compile(reg_next)
nextUrl = re.findall(regNext,text)
print('當前新頁面: ',nextUrl)
str1 = ''.join(nextUrl).rstrip('\'')
# htmurl = 'http://blog.csdn.net'+''.join(str1).rstrip('\'')
# 將字串前n個字元替換為指定的字元
# strnset(sStr1,ch,n)
sStr1 = ''.join(str1)
ch = ''
n = 1
sStr1 = n * ch + sStr1[1:]
htmurl = 'http://blog.csdn.net'+sStr1
print('htmurl '+htmurl)
return htmurl
for i in range(1,56):
text = getHtml(firstUrl)
newUrl = parseHtml(text)
firstUrl = newUrl
print('first2 ',firstUrl,'newUrl ',newUrl)
依然用的是re,覺得用的還是蠻不錯的,一開始學習java 是很拒絕的,因為這個玩意那時候學的一臉懵逼,現在可倒好,很多教程說python3 爬取內容,用beautifulsoup,xpath,能不用re的話,就儘量不用,雖然我用過beautifulsoup,但是現在估計也有些陌生了,現在用的正則確實蠻爽的,越用越熟練。這次爬取刷部落格瀏覽量是為了驗證能
不能真的是進行瀏覽量的增加,
答案是可以的
進行瀏覽量的刷,我是獲取最早的一篇部落格,然後選擇下一頁按鈕進行重新new 一個url再次訪問的。其他就是可能在list 與string方面稍微遇到點問題,進行url部分的去除操
作,有必要的說一點的是,類似python這種後端開發,基礎還是很重要的,更多的是自己動手來解決問題的能力,學會找錯,排bug,這次爬取很簡單,半小時沒用到,主要是鍛鍊回來晚了,
寫到最後: 實現了自己以前對剛開始部落格想讓著瀏覽量劇增的想法,想著有多少人看過我寫過的部落格,現在實現了想想,確實簡單,自己的瀏覽量也就昨晚爬過兩次,進行校驗,so。 每次小小的成就都會讓你越來越喜歡上它的
下次進行xpath的爬取,朝著上萬資料的爬取。更好的深入理解
相關推薦
python3 [入門基礎實戰] 爬蟲入門之刷部落格瀏覽量
爬取結果 程式碼很簡單: # encoding=utf8 import requests import re import time from bs4 import BeautifulSoup firstUrl = 'http://
Python 自動刷部落格瀏覽量(轉載,請尊重原創)
哈哈,今天的話題有點那什麼了哈。咱們應該秉承學習技術的角度來看,那麼就開始今天的話題吧。 思路來源 今天很偶然的一個機會,聽到別人在談論現在的“刷量”行為,於是就激發了我的好奇心。然後看了下requests模組正好對我有用,就寫了一個簡單的測試用例。神奇的發現這一招竟然是管用的。那還等什麼,開刷咯。
Python 自動刷部落格瀏覽量
哈哈,今天的話題有點那什麼了哈。咱們應該秉承學習技術的角度來看,那麼就開始今天的話題吧。 思路來源 今天很偶然的一個機會,聽到別人在談論現在的“刷量”行為,於是就激發了我的好奇心。然後看了下requests模組正好對我有用,就寫了一個簡單的測試用例。神奇
python3爬取部落格瀏覽量
爬取結果 程式碼很簡單: # encoding=utf8 import requests import re import time from bs4 import BeautifulSoup firstUrl = 'http://blog.csdn.
Python模組學習之Timer定時任務,函式自調實現定時獲取部落格園部落格瀏覽量
Timer定時任務 下面是Timer函式的官方doc介紹資訊 “”” Call a function after a specified number of seconds: t = Timer(30.0, f, args=No
爬蟲基礎python爬蟲入門
#爬蟲 ##1爬蟲基礎知識 爬蟲是什麼?一個自動化的資料收集程式 爬蟲分類?四類 1.通用爬蟲–什麼內容都爬,比如搜尋引擎,百度谷歌 2.聚焦爬蟲–爬取特定內容 3.增量式爬蟲-爬取更新的內容 4.深層網路爬蟲-爬取提交表單後的資料 通用爬蟲弊端: 通用搜索引擎
爬蟲筆記之刷小怪練級:yymp3爬蟲(音樂類爬蟲)
lan resp tle 想法 stp 傳遞 header 壓力 idt 一、目標 爬取http://www.yymp3.com網站歌曲相關信息,包括歌曲名字、作者相關信息、歌曲的音頻數據、歌曲的歌詞數據。 二、分析 2.1 歌曲信息、歌曲音頻數據下載地址的獲取 隨
重磅迴歸-SSM整合進階專案實戰之個人部落格系統
歷經一個多月的重新設計,需求分析以及前後端開發,終於有了一定的輸出:我自己實現的spring4+springmvc+mybatis3整合的進階專案實戰-個人部落格系統 已然完成了,系統採用mvc三層模式進行整體的開發,涉及到技術一下子很難全部列出,其中不得不提的有:整
python爬蟲設計刷部落格訪問量(刷訪問量,贊,爬取圖片)
分享一下我老師大神的人工智慧教程!零基礎,通俗易懂!http://blog.csdn.net/jiangjunshow 也歡迎大家轉載本篇文章。分享知識,造福人民,實現我們中華民族偉大復興!  
SpringBoot專案實戰之開源部落格(一)多模組結構搭建
用springboot開發專案已經有挺長的一段時間了,不得不說boot是一個很好的應用層框架。之前也寫過一些關係Boot的東西,但是講的比較粗略,程式碼也沒有貼出來。最近我自己想做個開源部落格專案,所有就打算記錄點東西下來,把0到1,1到100的過程展現給大家,如有不足之處懇
html+css實戰之仿部落格網頁
這幾天學習了一些html+css的知識,於是就動手仿部落格頁面做了一個靜態的頁面。 下面為實現的程式碼: blog.html: <!DOCTYPE html> <html> <head> <meta charset = "u
JAVA爬蟲挖取CSDN部落格文章(續)
前言 之前寫過一篇用jsoup爬取csdn部落格的文章JAVA爬蟲挖取CSDN部落格文章 ,當時博主還在上一家公司實習,由於公司辦公網路需要代理才能訪問外網,那一篇的程式碼邏輯與代理密切相關,可能有些不熟悉jsoup怎麼使用的朋友看了會感覺越看越糊塗,且當時以為爬取所有文章需要用到分
python 爬蟲爬去自己部落格的訪問量
廢話不多說,我也是剛剛學習小白一個,但是經過我的測試確實是可以用的,只不過大家要把時間設定的要長一點 先上程式碼,使用py3 程式碼的相關解析可以看我的其他部落格,裡面有詳細的介紹 __author__ = 'MrChen' &
django 開發實戰--第四章建立部落格設計Model(即設計資料庫表)
1.設計Model(即設計資料庫表) 開啟blog目錄下的models.py檔案,這是定義blog資料結構的地方。 from django.db import models # Create your models here. class BlogsPost(models.Model
“希希敬敬對”團隊--‘百度貼吧小爬蟲’Alpha版本展示部落格
“希希敬敬對”團隊成員簡介 龍江騰(隊長)團隊PM 精通C語言,熟悉微控制器開發,嵌入式軟體開發。熟悉軟體專案的一般開發流程,有良好的程式設計風格,程式碼模組化思想。電子基礎紮實,能看懂原理圖,熟悉數位電路和類比電路知識。良好的團隊精神,性格開朗,善於溝通,有強烈的責任感,工作積極主動。
使用scrapy刷部落格訪問量(傻瓜式)
step 1:在cmd中切換到你想把專案建立的磁碟.我是要建立到d盤中. step 2:建立專案,在cmd中輸入:scrapy startproject csdn scrapy startproject 專案名稱 step 3:cd命令切換到你建立的專案下,然後建立爬蟲專案
Elasticsearch學習之有用部落格
推薦閱讀:1、阿里:https://elasticsearch.cn/article/61712、滴滴:http://t.cn/EUNLkNU3、騰訊:http://t.cn/E4y9ylL4、攜程:https://elasticsearch.cn/article/62055、社群:https://elast
基於python3.7和django2.1的多人部落格系統
基於python3.7和django2.1的多人部落格系統 github地址:https://github.com/opsonly,喜歡的可以給個star~ 簡介: 該部落格前段框架使用了Bootstrap 4
django實戰(一)簡單部落格顯示
一直想好好學習一下Python,正好Django是一個很好的網站開發框架,可以用來web程式。接下來,以一個部落格為例。 一、建立基本框架:(django1.0+python3.6+pycharm) (1)建立專案 控制檯輸入以下命令:
Spark調優之Cloudera部落格(Part 2)
概述 Cloudera關於Spark調優方面的第二篇部落格How-to: Tune Your Apache Spark Jobs (Part 2),主要關注resource tuning(資源使用)、parallelism(並行度)、data represen