pandas + jupyter進行資料處理
阿新 • • 發佈:2021-01-01
前言
上一篇文章已經將python所有職位的資料全部爬取並儲存了下來,接下來我們要進行資料的處理,從所有的python職位中篩選出有測試、開發、運維的關鍵字職位來進行對比分析python在開發、測試、運維中的使用程度,具體的關鍵字大家可以靈活選擇。此文章只提供一種處理方法或思路,並不適用任何場景。
安裝
anaconda安裝
官網地址:https://www.anaconda.com/products/individual
它內部已經整合pandas、jupyter等一系列資料分析的開源庫
資料處理
開啟jupyter,開始編碼
import pandas as pd work = pd.read_csv('job.csv',encoding='gbk') pd.read_csv('job.csv',encoding='gbk')
wk = work.sort_index(ascending=True) #排序 DevOps = wk[wk['zhiwei'].str.contains('運維')] #部分匹配關鍵字 test = wk[wk['zhiwei'].str.contains('測試')] dev = wk[wk['zhiwei'].str.contains('開發')] data = wk[wk['zhiwei'].str.contains('資料')] data.shape[0] #檢視列表的總行數 DevOps.shape[0] dev.shape[0] DevOps_to = DevOps['zhiwei'] #匹配zhiwei行的資料 test_to = test['zhiwei'] dev_to = dev['zhiwei'] data_to = data['zhiwei'] DevOps_to.to_csv('devops.csv') #儲存資料到新的csv test_to.to_csv('test.csv') dev_to.to_csv('dev.csv') data_to.to_csv('data.csv')
從下面的編碼和結果已經看出開發、運維、測試、資料崗位使用python
的數量。(因為進行了地區和學歷以及工作年限的篩選所以總體的資料量不是很大。)資料:43,運維:47,開發:103,測試:54,雖然這些資料不能完全說明整體的情況,但依然也有部分參考的價值。
當然這些資料也都儲存到了csv文本里。