1. 程式人生 > 實用技巧 >pandas + jupyter進行資料處理

pandas + jupyter進行資料處理

前言

上一篇文章已經將python所有職位的資料全部爬取並儲存了下來,接下來我們要進行資料的處理,從所有的python職位中篩選出有測試、開發、運維的關鍵字職位來進行對比分析python在開發、測試、運維中的使用程度,具體的關鍵字大家可以靈活選擇。此文章只提供一種處理方法或思路,並不適用任何場景。

安裝

anaconda安裝

官網地址:https://www.anaconda.com/products/individual

它內部已經整合pandas、jupyter等一系列資料分析的開源庫

資料處理

開啟jupyter,開始編碼

import pandas as pd
work = pd.read_csv('job.csv',encoding='gbk')
pd.read_csv('job.csv',encoding='gbk')

wk = work.sort_index(ascending=True)	#排序
DevOps = wk[wk['zhiwei'].str.contains('運維')]	#部分匹配關鍵字
test = wk[wk['zhiwei'].str.contains('測試')]
dev = wk[wk['zhiwei'].str.contains('開發')]
data = wk[wk['zhiwei'].str.contains('資料')]
data.shape[0] 	#檢視列表的總行數
DevOps.shape[0]
dev.shape[0]
DevOps_to = DevOps['zhiwei']	#匹配zhiwei行的資料
test_to = test['zhiwei']
dev_to = dev['zhiwei']
data_to = data['zhiwei']
DevOps_to.to_csv('devops.csv')	#儲存資料到新的csv
test_to.to_csv('test.csv')
dev_to.to_csv('dev.csv')
data_to.to_csv('data.csv')

從下面的編碼和結果已經看出開發、運維、測試、資料崗位使用python

的數量。(因為進行了地區和學歷以及工作年限的篩選所以總體的資料量不是很大。)資料:43,運維:47,開發:103,測試:54,雖然這些資料不能完全說明整體的情況,但依然也有部分參考的價值。

當然這些資料也都儲存到了csv文本里。