用Python看我的2018

阿新 • • 發佈：2018-12-31

用Python看我的2018

前言

2018餘額已不到兩天，2018初的flag完成了幾個？今天我利用Python爬蟲和資料分析技術，分析我的2018年文章分享情況。

Python爬蟲

用Python看我的2018

爬蟲分析

爬取的文章為簡書網2018年的文章，為什麼不選擇公眾號了？

簡書好爬
公眾號有轉載
首先，簡書分頁使用了非同步載入，我們先找下包，發現url很規律，換下page後面的數字就可以了。

用Python看我的2018

現在還需要考慮的是：怎麼確保文章都是2018年的。這裡的處理方法為：首先多爬一些，然後在資料分析中進行篩選，選出2018年的資料即可。

爬蟲程式碼

import requests
from lxml import etree
import csv
import time
headers={
 'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.181 Safari/537.36'
}
f = open('1.csv','w+',encoding='utf-8',newline='')
writer = csv.writer(f)
writer.writerow(['title','view','comment','good','pub_time'])
def get_info(url):
 res = requests.get(url,headers=headers)
 html = etree.HTML(res.text)
 infos = html.xpath('//ul[@class="note-list"]/li')
 for info in infos:
 title = info.xpath('div/a/text()')[0]
 view = info.xpath('div/div/a[1]/text()')[1].strip()
 comment = info.xpath('div/div/a[2]/text()')[1].strip()
 good = info.xpath('div/div/span[1]/text()')[0].strip()
 pub_time = info.xpath('div/div//span[@class="time"]/@data-shared-at')[0]
 print(title,view,comment,good,pub_time)
 writer.writerow([title,view,comment,good,pub_time])
if __name__ == '__main__':
 urls = ['https://www.jianshu.com/u/9104ebf5e177?order_by=shared_at&page={}'.format(str(i)) for i in range(1,6)]
 for url in urls:
 get_info(url)
 time.sleep(2)

2018文章分析

前文提到，我們沒辦法確定保證全是2018年的資料，所以選擇多爬一點，然後篩選，這裡我們通過字串的處理，把time資料切分年的資料。

data['year'] = data['pub_time'].str.split('T').str[0].str.split('-').str[0]

用Python看我的2018

然後用布林選擇，篩選出2018年的資料，重新儲存和讀取。

data[data['year'] == '2018'].to_csv('2.csv',index=False)

總體情況

2018總共寫了42篇文章，相比於2017年，是少了很多的。
平均閱讀量388，這個比公眾號高很多

平均點贊7.5，低低低~
總體來說，並不理想，還是要多輸出呀~

閱讀量最高的五篇文章

通過排序，看看2018我的爆文是哪些？

用Python看我的2018

楊超越一文閱讀量最多，果然是錦鯉
爬蟲+資料分析文（結合熱點）更容易上榜
廣告忽略
機器學習系列也還不錯

2018年文章月份分佈

6月份是高產的一個月，3-5月斷更，9月斷更。

3-5月，在蘇大聯培，9月不記得為什麼不更了~

用Python看我的2018

哪個時間段發文

三個點：9、下午4、8點。

其實有時間我都會屯幾篇文章，早上起來發（公眾號首發），導致早上的最多，其實文章大部分都是晚上寫的。。。

用Python看我的2018

結語

長沙下雪了

你的城市了？

用Python看我的2018

前言 2018餘額已不到兩天，2018初的flag完成了幾個？今天我利用Python爬蟲和資料分析技術，分析我的2018年文章分享情況。 Python爬蟲爬蟲分析爬取的文章為簡書網2018年的文章，為什麼不選擇公眾號了？

室友天偷看我電腦！還帶著紙巾？我決定用Python保護我的祕密了！

Python 3.6版本引入了一個名為secrets的新模組，用於生成強大而安全的隨機數。在本文中，我們將學習如何使用secrets模組來保護你的小祕密。在以往版本的Python中，random模組提供的隨機生成器是偽隨機數生成器，它不具有加密安全性，因此在Python 3.6及更高版本中添加

爬蟲還在用Python？我與Node.js不得不說的故事

深夜閒來無事，默默的開啟github,在搜尋框中填入了”Stars:>1”，本想著依舊可以在第一頁看到Spark的身影，結果第一個映入眼簾的是這個：快速瀏覽完第一頁(Top10)，10個專案裡面7個JS或者具體來說是Node.js的專案！Github歷來代表技術圈發展的風向，那麼這個在Git

用python對我和女票的聊天記錄生成心形詞雲

前言最近看到一些利用python製作詞雲的教程，突然想到用自己和女友的聊天記錄做一個詞雲，看看平時我倆最常說的都是啥，然後用愛心的形狀展示出來，以下是成品: 由於匯出的記錄只有最近兩個星期的，再加上這兩個星期我女票她都在備考，因此聊天內容並不是特別多，

介面測試時遇到 java 程式碼加密請求資料，用 python 的我該怎麼辦？

前言自動化測試應用越來越多了，尤其是介面自動化測試。在介面測試資料傳遞方面，很多公司都會選擇對請求資料進行加密處理。而目前為主，大部分公司的產品都是java語言實現的。所以加密處理也是java實現的。作為用python做測試的我，要做介面自動化時，如何去對請求資料進行加密呢？

誰當年還沒看過幾本小說！我用Python爬取全站的的小說！

nec 打印 b數技術分享 mon 結果鏈接 ons ide 然後再將請求發送出去，定義變量response，用read（）方法觀察，註意將符號解碼成utf-8的形式，省的亂碼：打印一下看結果：看到這麽

《我不是藥神》！小編也看了，用Python分析為何能三天破10億！

房子示例代碼 pro 需要詞雲 comment 二次 -i 移民影片在未上映前，大規模的點映積攢了相當高的人氣和口碑，截止 7 月 9 日淩晨：豆瓣評分：9.0 分，貓眼：9.7 分，淘票票：9.5 分，時光網：8.8 分。藥能治病，命卻

用 Python 帶你看《我不是藥神》

存儲位置 RoCE 文件多個 ffffff url web vpd shadow 我們都是小人物，我們都得了同一種病，我們都窮。——《我不是藥神》我不是程序員我就是想求求你們，別動不動就拿篇10W+的文章來嚇唬人好嗎？說點有用的東西好嗎？我們需要精神糧食不需要腐蝕精

擔心酒店資訊洩露，我用Python寫了段加密演算法，看你怎麼破

前段時間的酒店資訊洩露事情，鬧的沸沸揚揚！確實我們很多的資料在網路上都是裸奔，在資料庫裡面躺著也都是明文資料，連我自己的寫某某程式都被熱情的粉絲攻破！不如，我們用萬能的Python寫段加密資料傳送玩玩，也許就能避免酒店資料洩漏了！簡單的場景: Serve

想在家看VIP電影，我用python做了個破解軟體，她很開心！

執行平臺： Windows Python版本： Python3.x IDE： Sublime text3 一、前言沒有會員，想線上觀看或下載愛奇藝、PPTV、優酷、網易公開課、騰訊視訊、搜狐視訊、樂視、土豆、A站、B站等主流視訊網站的VIP視訊？又不想充會員怎麼辦？博主本次寫的VI

看完此文再不懂區塊鏈算我輸，用Python從零開始建立區塊鏈

如果你還沒有聽說過 3 點鐘區塊鏈群，說明你還不是鏈圈的人；如果你還沒有加入 3 點鐘區塊鏈群，

聽歌音樂還要我付費？看我用Python批量下載

百度VIP音樂爬取網頁分析分析音樂的真實地址 url拼接獲取所有資料批量獲取singid 程式碼編寫獲取所有的songid 根據songid獲取音樂的真實地址儲存音樂檔案無版權音樂稻香的爬取網頁分析目標站點：網頁

人生苦短，我用Python--分分鐘下載知乎美圖給你看

起上次說了要爬知乎的圖片，於是花了一下午的時間去完成這件事，發現暫時接觸到的爬蟲總是逃脫不了一個規律：模擬登陸獲取真實網頁HTML原始碼解析獲取到的網頁原始碼獲取想要的資源(下載到某個資料夾或者輸出到表格中整合起來) 也許和我說的有一些出入，

我用Python爬取網易雲音樂上的Hip-hop歌單，分析rapper如何押韻

line gone 謠言大致 -i 態度大眾其中當前緣起《中國有嘻哈》這個節目在這個夏天吸引了無數的目光，也讓嘻哈走進了大眾的視野。作為我今年看的唯一一個綜藝節目，它對我的影響也蠻大。這個夏天，我基本都在杭州度過，在上下班的taxi上，我幾乎都在刷這個節目，最後

人生苦短，我用Python---Python學習筆記之一

http style ... idt logs .py 程序員 tex 環境 Python基礎語法這一篇文章是寶寶自己寫的哦，哼，不經同意，不準轉載，略略略........ The first 寶寶用的版本是Python2.7，環境配置啥的，網上的教程

用python寫一個九九乘法表-2月19日/2018

九九乘法 while -c pos ont 九九 pytho 九九乘法表 font first = 1 while first<=9: 　　sec=1 　　while sec<=first: 　　　　print(str(sec),"x",str(first),

用python格式化輸出 2.19/2018

div end light -- -i gpo true post pri name=input("Name:") age=input("Age:") job=input("Job:") salary=input("Salary:") msg = ‘‘‘ -------

我用Python爬了4400條淘寶商品數據，竟發現了這些“潛規則”

Python本文記錄了筆者用 Python 爬取淘寶某商品的全過程，並對商品數據進行了挖掘與分析，最終得出結論。項目內容本案例選擇>> 商品類目：沙發；數量：共100頁 4400個商品；篩選條件：天貓、銷量從高到低、價格500元以上。我用Python爬了4400條淘寶商品數據，竟發現了這

人生苦短，我用python

www. 人生苦短 all ins https 找到 src request bsp 　　今天開始自學Python。找到神聖傳說中的Python官網：https://www.python.org/，安裝了Python3.6.5。　　安裝步驟省略。　　安裝

人生苦短，我用python之三

requests tex alt put請求網絡 sts port http png 　　HTTP協議及Requests庫的方法　　requests庫的主要方法：requests.request()構造一個請求　　　　　　　　　　　　　requests.get()獲取

用Python看我的2018

相關推薦