pandas + jupyter進行資料處理

阿新 • • 發佈：2021-01-01

前言

上一篇文章已經將python所有職位的資料全部爬取並儲存了下來，接下來我們要進行資料的處理，從所有的python職位中篩選出有測試、開發、運維的關鍵字職位來進行對比分析python在開發、測試、運維中的使用程度，具體的關鍵字大家可以靈活選擇。此文章只提供一種處理方法或思路，並不適用任何場景。

安裝

anaconda安裝

官網地址：https://www.anaconda.com/products/individual

它內部已經整合pandas、jupyter等一系列資料分析的開源庫

資料處理

開啟jupyter，開始編碼

import pandas as pd
work = pd.read_csv('job.csv',encoding='gbk')
pd.read_csv('job.csv',encoding='gbk')

wk = work.sort_index(ascending=True)	#排序
DevOps = wk[wk['zhiwei'].str.contains('運維')]	#部分匹配關鍵字
test = wk[wk['zhiwei'].str.contains('測試')]
dev = wk[wk['zhiwei'].str.contains('開發')]
data = wk[wk['zhiwei'].str.contains('資料')]
data.shape[0] 	#檢視列表的總行數
DevOps.shape[0]
dev.shape[0]
DevOps_to = DevOps['zhiwei']	#匹配zhiwei行的資料
test_to = test['zhiwei']
dev_to = dev['zhiwei']
data_to = data['zhiwei']
DevOps_to.to_csv('devops.csv')	#儲存資料到新的csv
test_to.to_csv('test.csv')
dev_to.to_csv('dev.csv')
data_to.to_csv('data.csv')

從下面的編碼和結果已經看出開發、運維、測試、資料崗位使用python

的數量。（因為進行了地區和學歷以及工作年限的篩選所以總體的資料量不是很大。）資料：43，運維：47，開發：103，測試：54，雖然這些資料不能完全說明整體的情況，但依然也有部分參考的價值。

當然這些資料也都儲存到了csv文本里。

pandas + jupyter進行資料處理

前言上一篇文章已經將python所有職位的資料全部爬取並儲存了下來，接下來我們要進行資料的處理，從所有的python職位中篩選出有測試、開發、運維的關鍵字職位來進行對比分析python在開發、測試、運維中的使用程度，具

pandas | 使用pandas進行資料處理——Series篇

本文始發於個人公眾號：TechFlow，原創不易，求個關注上週我們關於Python中科學計算庫Numpy的介紹就結束了，今天我們開始介紹一個新的常用的計算工具庫，它就是大名鼎鼎的Pandas。

pandas | 使用pandas進行資料處理——DataFrame篇

本文始發於個人公眾號：TechFlow，原創不易，求個關注今天是pandas資料處理專題的第二篇文章，我們一起來聊聊pandas當中最重要的資料結構——DataFrame。

pandas切片_資料處理進階pandas入門（二）

技術標籤：pandas切片回顧在資料處理進階pandas入門(一)中，我們介紹了pandas的基本概念、基本資料結構，並且簡單瞭解了pandas中的兩個重要資料結構Series和DataFrame。今天我們來看一下Series常用的幾種建立

Pandas——高效的資料處理Python庫

Pandas教程 pandas是高效的資料讀取、處理與分析的Python庫，下面將學習pandas的基本用法

python資料處理——對pandas進行資料變頻或插值例項

這裡首先要介紹官方文件，對python有了進一步深度的學習的大家們應該會發現，網上不管csdn或者簡書上還是什麼地方，教程來源基本就是官方文件，所以英語只要還過的去，推薦看官方文件，就算不夠好，也可以只看它裡面

使用pandas實現連續資料的離散化處理方式(分箱操作)

Python實現連續資料的離散化處理主要基於兩個函式，pandas.cut和pandas.qcut，前者根據指定分界點對連續資料進行分箱處理，後者則可以根據指定箱子的數量對連續資料進行等寬分箱處理，所謂等寬指的是每個箱子中的資料

pandas 空資料處理方法詳解

這篇文章主要介紹了pandas 空資料處理方法詳解,文中通過示例程式碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下

Pandas 缺失資料處理的實現

資料丟失(缺失)在現實生活中總是一個問題。機器學習和資料探勘等領域由於資料缺失導致的資料質量差，在模型預測的準確性上面臨著嚴重的問題。在這些領域，缺失值處理是使模型更加準確和有效的重點。

pandas資料處理進階詳解

一、pandas的統計分析 1、關於pandas 的數值統計（統計detail 中的單價的相關指標）

Python 中pandas索引切片讀取資料缺失資料處理問題

引入　　numpy已經能夠幫助我們處理資料，能夠結合matplotlib解決我們資料分析的問題，那麼pandas學習的目的在什麼地方呢？ numpy能夠幫我們處理處理數值型資料，但是這還不夠很多時候，我們的資料除了數值之外，還

pandas資料處理之繪圖的實現

Pandas是Python中非常常用的資料處理工具，使用起來非常方便。它建立在NumPy陣列結構之上，所以它的很多操作通過NumPy或者Pandas自帶的擴充套件模組編寫，這些模組用Cython編寫並編譯到C，並且在C上執行，因此也保證

spark | 手把手教你用spark進行資料預處理

本文始發於個人公眾號：TechFlow，原創不易，求個關注今天是spark專題的第七篇文章，我們一起看看spark的資料分析和處理。

對返回的資料進行歸類處理

陣列處理對返回的資料進行歸類處理根據數組裡的一個物件進行分類處理處理完成是這樣的

高階Pandas知識圖譜-《利用Python進行資料分析》

所有內容整理自《利用Python進行資料分析》，使用MindMaster Pro 7.3製作，emmx格式，原始檔已經上傳Github，需要的同學轉左上角自行下載或者右擊儲存圖片。

20-Pandas時序資料處理（日期範圍、頻率及移動）

一、生成日期範圍的時序資料 pd.date_range()可用於生成指定長度的日期索引，預設產生按天計算的時間點（即日期範圍）。其引數可以是：

Vue表格中對某個資料進行簡單處理

Vue表格中對某個資料進行簡單處理在很多的場景中，我們後端從資料庫拿到的資料需要進行一些處理再展示到前端上，比如本文舉例的論文查重系統中的重複率這一列，該列的資料在資料庫是小數形式存在，前端需要展示的是

Pandas資料處理基礎(1)

# To add a new cell, type \'# %%\' # To add a new markdown cell, type \'# %% [markdown]\' # %% import os

資料處理 | pandas入門專題——離散化與one-hot

今天是pandas資料處理專題第7篇文章，可以點選上方專輯檢視往期文章。在上一篇文章當中我們介紹了對dataframe進行排序以及計算排名的一些方法，在今天的文章當中我們來了解一下dataframe兩個非常重要的功能——離散

萬字長文，Python資料分析實戰，使用Pandas進行資料分析

文章目錄很多人學習python，不知道從何學起。很多人學習python，掌握了基本語法過後，不知道在哪裡尋找案例上手。很多已經做案例的人，卻不知道如何去學習更加高深的知識。那麼針對這三類人，我給大家提供一個好的學

pandas + jupyter進行資料處理

前言

安裝

資料處理

相關推薦