爬取部落格資訊的簡單爬蟲

阿新 • • 發佈：2019-02-06

呼叫 getOneBlogDetails( ) 函式可以獲取目標網頁的博主姓名，個人主頁網址，原創文章、粉絲、喜歡、評論數量，等級、訪問量、積分、排名。

#!/usr/lib/python3.6
#encoding = utf-8
#爬取一個部落格的基本資訊
#本爬蟲僅用於學習，純屬愛好，雖然本爬蟲很簡單，但還是請大家不要濫用

import requests
from bs4 import BeautifulSoup

# 請求頭
headers = {
	'User-Agent': 'Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:59.0) Gecko/20100101 Firefox/59.0'
} 

#部落格網址
url = "https://blog.csdn.net/qq_38737992"

#爬取部落格基本資訊的函式
def getOneBlogDetails(url):

    #獲取網頁的資料
	r = requests.get(url, headers=headers, timeout=100)
        
    #解析網頁，BeautifulSoup的官方文件：https://www.crummy.com/software/BeautifulSoup/bs4/doc/index.zh.html
	soup = BeautifulSoup(r.text, "html.parser")

	Name = soup.find('a', id="uid").text
	My_url = soup.find('a', id="uid").get('href')

	info = soup.find('div', class_="data-info d-flex item-tiling")
	#info_list1: [<dt><a href="https://blog.csdn.net/qq_38737992?t=1">原創</a></dt>, <dt>粉絲</dt>, <dt>喜歡</dt>, <dt>評論</dt>]
	info_list1 = info.find_all('dt')
	# info_list2: [<span class="count">77</span>, <span class="count" id="fan">0</span>, <span class="count">0</span>, <span class="count">1</span>]
	info_list2 = info.find_all('span', class_='count')


	info1 = soup.find('div', class_="grade-box clearfix")
	info1_list = info1.find_all('dl')
	Base = {}
	Base1 = {}
	for i in range(len(info_list2)):
		Base[info_list1[i].text] = info_list2[i].text
    
	for link in info1_list:
		key = link.find('dt').text 
		if link.find('dd').text.strip() == '':
			values = link.find('a').get('title')[0:2] 
		else:
			values = link.find('dd').text.strip()
		Base1[key] = values

	print( "博主姓名: " + Name )
	print( "個人主頁: " + My_url)
	for key in Base.keys():
		print( key + ": " + Base[key])

	for key in Base1.keys():
		print( key  + Base1[key])

# 呼叫函式
getOneBlogDetails(url)

爬取部落格資訊的簡單爬蟲

呼叫 getOneBlogDetails( ) 函式可以獲取目標網頁的博主姓名，個人主頁網址，原創文章、粉絲、喜歡、評論數量，等級、訪問量、積分、排名。 #!/usr/lib/py

Python爬蟲爬取部落格園作業

要求第一部分：請分析作業頁面，爬取已提交作業資訊，並生成已提交作業名單，儲存為英文逗號分隔的csv檔案。檔名為：hwlist.csv 。檔案內容範例如下形式：學號,姓名,作業標題,作業提交時間,作業URL 20194010101,張三,羊車門作業,2018-1

簡單程式碼爬取部落格超連結的文字，並且去除字元“原”和空格

這裡給大家分享一個怎麼用Python爬取超連結的文字，並且能夠去除字元“原“和前後空格、空行等等。這個程式碼不多，而且非常簡單。我這裡用的是Python3，版本不和的可以調整一下，這個程式碼還是很好理解的。接下來我給大家分享爬取我的部落格超連結

Java爬蟲--利用HttpClient和Jsoup爬取部落格資料並存入資料庫

由於今日頭條等頭條類產品的出現，以今日頭條為代表所使用的爬蟲技術正在逐漸火熱，在爬蟲領域具有良好效能和較好效果的Python在最近一年的時間裡逐漸火熱起來，同時因為Python良好的資料分析和機器學習的能力，Python的應用越來越廣泛。不過，今天我們要提到

部落格搬家系列（三）-爬取部落格園部落格

部落格搬家系列（三）-爬取部落格園部落格一.前情回顧部落格搬家系列（一）-簡介：https://blog.csdn.net/rico_zhou/article/details/83619152 部落格搬家系列（二）-爬取CSDN部落格：https://bl

編寫windows服務定時爬取部落格園文章郵件提醒以及入庫

這段時間工作比較忙，每天也沒那麼多的時間逛部落格園看文章，於是就想寫一個工具每天早上9點爬取文章給自己發郵件作為每天的技術早餐。相對而言，爬取部落格園的文章還是比較簡單的，主要思路就是分析部落格園文章列表的分頁，請求方式，頁面渲染方式等，寫篇隨筆簡單share一下。這個小工具主要用到的由nl

使用Tornado和協程爬取部落格園文章

Python3.5後 Tornado官方建議使用async和await的方式實現非同步程式，嘗試了下使用Tornado和協程爬取部落格園的文章並使用peewee_async非同步寫入MySQL資料庫。一. 部落格園文章抓取測試：這裡我以我自己的一篇文章詳情作為測試url，https://www.cnb

python3爬取部落格瀏覽量

爬取結果程式碼很簡單： # encoding=utf8 import requests import re import time from bs4 import BeautifulSoup firstUrl = 'http://blog.csdn.

Scrapy爬取部落格園精華區內容

程式爬取目標獲取部落格園精華區文章的標題、標題連結、作者、作者部落格主頁連結、摘要、釋出時間、評論數、閱讀數和推薦數，並存儲到MongoDB中。程式環境已安裝scrapy 已安裝MongoDB 建立工程 scrapy startproject cnblogs 在命令提示符中執行

詳細教程：crawler4j 爬取京東商品資訊 Java爬蟲入門 crawler4j教程

現今比較流行的爬蟲語言，屬Java、paython和c語言，筆者學習的是Java語言，所以介紹下使用Java如何爬取網頁資訊。我們先從一個最原始的Java爬蟲demo開始，再來看如何使用crawler4j這個框架進行爬蟲。Demo使用Java的Url物件，指向網址並建立連線，

python實現kindle每天推送部落格2----python實現爬取部落格內容

python 批量爬取部落格資料(僅供學習)

#coding:utf-8 import urllib import time import os page=1 while page<=7: url=['']*50

python_爬取部落格文章下載到本地

學習python一段時間了，爬兩個網頁練練手，該原始碼是爬取韓寒部落格的所有文章，並將文章連結下載到本地，關於將部落格純文字下載到本地見博主另外一篇文章： # -*- coding: utf-8 -*

爬取多頁資訊——爬取自己CSDN部落格

在學完莫煩B站的爬蟲視訊的3.3節之後，我完成了這個專案，感覺收穫還是不小的。體會是自己練手感覺進步挺快，能做出一個小專案給了我一些自信心，中間幾個棘手的問題： 1如何獲取下一頁：分析我的主頁的HTML，發現有一個總的文章數、有pagesize（每頁最多顯示幾篇文章），有此兩值就可以得到總

python爬蟲（1）——簡單的爬取網頁的資訊

獲取網上真實的語料資料，本身對Py的掌握不是很好，記錄下自己學習的過程，希望對你有幫助。 #python3 獲得taoeba的語料（不知道從哪翻到的這個網站，有各國語言的句子，訪問速度較慢 # -

使用Python爬取學校學生資訊！（簡單爬蟲）

很久木有來寫博文啦，發現學校的教務系統很多童鞋都木有修改初始密碼，於是博主就想寫試用python寫一個爬蟲小指令碼，將木有修改初始密碼的童鞋資料扒下來，然後嘿嘿嘿~~~通知他們修改！鑑於寫博文時未通知這些受害童鞋們，因此隱去關鍵資訊。首先為初始化方法__

[筆記]python網路爬蟲：一個簡單的定向爬取大學排名資訊示例

爬取的網站資訊 <div class="section"><a id="zhb" name="zhb"></a> <div class="title t2"><h1><img

python 爬蟲 requests+BeautifulSoup 爬取巨潮資訊公司概況代碼實例

pan 字符 selenium 5.0 target 自我 color list tails 第一次寫一個算是比較完整的爬蟲，自我感覺極差啊，代碼low，效率差，也沒有保存到本地文件或者數據庫，強行使用了一波多線程導致數據順序發生了變化。。。貼在這裏，引以為戒吧。 #

★ Python爬蟲 - 爬取網頁文字資訊並儲存（美文的爬取與儲存）

本篇文章所包含的主要內容：使用requests模組實現對網頁以字串的形式儲存使用open()、write()、close()函式實現檔案的開啟與寫入使用if() 條件語句對所需要的文字資訊進行過濾以形成一個專用提取函式 &n

Python練習三:爬蟲練習,從一個提供免費代理的網站中爬取IP地址資訊

西刺代理,http://www.xicidaili.com/,提供免費代理的IP,是爬蟲程式的目標網站. 開始寫程式 import urllib.requestimport re def open_url(url): 　　req = urllib.request.Request(url) 　　req

爬取部落格資訊的簡單爬蟲

相關推薦