pandas處理大資料題目的操作

阿新 • • 發佈：2021-09-07

1、用法：DataFrame.drop(labels=None, axis=0, index=None, columns=None, inplace=False)

2、引數說明：

labels：要刪除的行/列的名字，用列表給出

axis：預設為0，即刪除行，刪除列時指定為1

index：直接指定要刪除的行

columns：直接指定要刪除的列

inplace：預設為False，即刪除操作不改變元資料，而是返回一個執行刪除操作後的新DataFrame，若為True，則會在元資料據上進行刪除操作，刪除後無法返回

3、刪除行列的兩種方式：

1）labels=None, axis=0/1的組合

2）index或columns直接指定要刪除的行或列

1.濾除缺失資料dropna()

import pandas as pd
import numpy as np
df=pd.DataFrame({"record":[np.nan,"亞健康|潘光|45歲","疾病|張思",np.nan],"date":[np.nan,20210102,20210103,20210104]},index=["one","two","three","four"])

1)濾除含有NaN值的所有行
df.dropna()#預設axis=0

2)濾除含有NaN值的所有列
df.dropna(axis=1)

3)濾除元素都是NaN值的行
df.dropna(axis=0,how="all")

5)濾除指定列中含有缺失的行
df.dropna(subset=["record"],axis=0)

以上如果需要在原資料上直接做更改，需設定引數inplace=True

2.刪除重複值 drop_duplicates()
df=pd.DataFrame({'state':[1,1,2,2,1,2,2],'pop':['a','b','c','d','b','c','d']})

語法：drop_duplicates(subset,keep,inplace)，其中引數 keep:{‘first’，‘last’，False}，預設’first’

first：保留第一次出現的重複項，刪除第二次及之後出現的重複項。

last：保留最後一次出現的重複項，刪除之前出現的重複項。

"false"：刪除所有重複項。

1)keep=“first”

df.drop_duplicates(keep="first")

2)keep=“last”

df.drop_duplicates(keep="last")

3)keep=False

df.drop_duplicates(keep=False)

4)刪除指定列中重複項對應的行

df.drop_duplicates(subset=["state"],keep="first")

以上如果需要在原資料上直接做更改，需設定引數inplace=True

3.根據指定條件刪除行列drop()

df=pd.DataFrame(np.arange(16).reshape(4,4),columns=["one","two","three","four"])

1).刪除指定列

df.drop(["one"],axis=1)

>>>df.drop(columns=['B', 'C'])

另外，也可通過del df["one"]來實現刪除指定列，但該方法不推薦，因為這預設直接在源資料上做更改。

2).刪除指定行

df.drop([0],axis=0)

>>> df.drop(index=[0])

以上如果需要在原資料上直接做更改，需設定引數inplace=True

————————————————
版權宣告：本文為CSDN博主「永遠在減肥永遠110的的小潘」的原創文章，遵循CC 4.0 BY-SA版權協議，轉載請附上原文出處連結及本宣告。
原文連結：https://blog.csdn.net/p1306252/article/details/114890550

pandas處理大資料題目的操作

1、用法：DataFrame.drop(labels=None, axis=0, index=None, columns=None, inplace=False) 2、引數說明：

pandas處理日期相關的操作

一、解析出每月的禮拜開始時間 import pandas as pd def foo(start_time, end_time, per): date_list = pd.date_range(start=start_time, end=end_time, freq=per)

基於Docker處理大資料

一、利用docker-compose 見之前華為鯤鵬伺服器安裝docker-compose及運用二、利用Hadoop搭建Docker大資料處理叢集

python之使用pandas處理excel資料007

一、環境安裝 1：pandas依賴處理Excel的xlrd模組，安裝命令是：pip install xlrd 2:安裝pandas模組還需要一定的編碼環境，確保你的電腦有這些環境：Net.4 、VC-Compiler以及winsdk_web

mybatis-plus 處理大資料插入太慢的解決

大批量資料插入方法是Mybatis的foreach拼接SQL 我發現不管改成Mybatis Batch提交或者原生JDBC Batch的方法都不起作用，實際上在插入的時候仍然是一條條記錄的插，速度遠不如原來Mybatis的foreach拼接SQL的方法。

python的5大資料型別操作及比較之字串篇

1、去空格及特殊符號 strip：用來去除頭尾字元、空白符(包括\\n、\\r、\\t、\' \'，即：換行、回車、製表符、空格)

大資料學習操作筆記

linux解壓到指定目錄命令：tar -zxvf [檔名] -C /home centos7檢視所有服務：sudo systemctl list-unit-files

使用 pandas處理股票資料並作分析

文／kamidox（簡書作者）原文：http://www.jianshu.com/p/1f1d4952669c pandas 是資料分析的瑞士軍刀。我們今天使用 pandas 來玩一下股票資料，看看能從資料裡得到哪些有意思的資訊。

使用pandas實現連續資料的離散化處理方式(分箱操作)

Python實現連續資料的離散化處理主要基於兩個函式，pandas.cut和pandas.qcut，前者根據指定分界點對連續資料進行分箱處理，後者則可以根據指定箱子的數量對連續資料進行等寬分箱處理，所謂等寬指的是每個箱子中的資料

python大資料處理模組pandas

引言 Pandas是一個開源的Python庫，使用其強大的資料結構提供高效能的資料處理和分析工具。在Pandas之前，Python主要用於資料管理和準備。它對資料分析的貢獻很小。Pandas解決了這個問題。使用Pandas，無論資料來源

大資料Elasticsearch之Elasticsearch基本操作

文章目錄 1.索引的基本操作 1.1新建 Index 1.2刪除 Index 1.3新增記錄

MySQL-線上處理大表資料 & 線上修改大表的表結構

文章目錄官方文件概述示例大表資料的分批處理修改大表的表結構方案一 : 從表修改，主從切換方案二：pt-online-schema-change

php使用fputcsv實現大資料的匯出操作詳解

本文例項講述了php使用fputcsv實現大資料的匯出操作。分享給大家供大家參考，具體如下：

VBA處理資料與Python Pandas處理資料案例比較分析

需求：現有一個 csv檔案，包含\'CNUM\'和\'COMPANY\'兩列，資料裡包含空行，且有內容重複的行資料。

pandas分批讀取大資料集教程

如果你的電腦記憶體較小那麼想在本地做一些事情是很有侷限性的（哭喪臉），比如想拿一個kaggle上面的競賽來練練手，你會發現多數訓練資料集都是大幾G或者幾十G的，自己那小破電腦根本跑不起來。行，你有8000w條樣本你

java大資料最全課程學習筆記(3)--HDFS 簡介及操作

目前CSDN,部落格園,簡書同步發表中,更多精彩歡迎訪問我的gitee pages 目錄 HDFS 簡介及操作

帶batch_size的迭代器讀取檔案,解決記憶體不足的大資料處理問題!!!!!!!!!!完美解決

https://github.com/zhangbo2008/perfect_batch_generator_for_pyton 核心程式碼如下: def bylineread(fimename,batchsize=1):

13-Pandas資料預處理之資料轉換（applymap()、df.map()、df.replace()）

　　在資料分析中，根據需求，有時候需要將一些資料進行轉換，而在Pandas中，實現資料轉換的常用方法有：

13-Pandas資料預處理之資料轉換（啞變數編碼pd.get_dummies()）

說明：本片博文接上篇博文【 Pandas資料預處理之資料轉換（df.map()、df.replace()）】

大資料Hadoop 學習心得003 （操作篇）

主要對於Hadoop的MapReduce: MapReduce: Map:解析分發資料 Reduce：執行計算邏輯例如：DB--sql語句根據地址來從access運算資料（採用分而治之，並非採用單一的節點進行運算，多節點參與運算）

pandas處理大資料題目的操作

1、用法：DataFrame.drop(labels=None, axis=0, index=None, columns=None, inplace=False)

2、引數說明：

labels：要刪除的行/列的名字，用列表給出

axis：預設為0，即刪除行，刪除列時指定為1

index：直接指定要刪除的行

columns：直接指定要刪除的列

inplace：預設為False，即刪除操作不改變元資料，而是返回一個執行刪除操作後的新DataFrame，若為True，則會在元資料據上進行刪除操作，刪除後無法返回

3、刪除行列的兩種方式：

1）labels=None, axis=0/1的組合

2）index或columns直接指定要刪除的行或列

1.濾除缺失資料dropna()

import pandas as pdimport numpy as npdf=pd.DataFrame({"record":[np.nan,"亞健康|潘光|45歲","疾病|張思",np.nan],"date":[np.nan,20210102,20210103,20210104]},index=["one","two","three","four"])

1)濾除含有NaN值的所有行df.dropna()#預設axis=0

2)濾除含有NaN值的所有列df.dropna(axis=1)

3)濾除元素都是NaN值的行df.dropna(axis=0,how="all")

5)濾除指定列中含有缺失的行df.dropna(subset=["record"],axis=0)

以上如果需要在原資料上直接做更改，需設定引數inplace=True

2.刪除重複值 drop_duplicates()df=pd.DataFrame({'state':[1,1,2,2,1,2,2],'pop':['a','b','c','d','b','c','d']})

語法：drop_duplicates(subset,keep,inplace)，其中引數 keep:{‘first’，‘last’，False}，預設’first’

first：保留第一次出現的重複項，刪除第二次及之後出現的重複項。

last：保留最後一次出現的重複項，刪除之前出現的重複項。

"false"：刪除所有重複項。

1)keep=“first”

df.drop_duplicates(keep="first")

2)keep=“last”

df.drop_duplicates(keep="last")

3)keep=False

df.drop_duplicates(keep=False)

4)刪除指定列中重複項對應的行

df.drop_duplicates(subset=["state"],keep="first")

以上如果需要在原資料上直接做更改，需設定引數inplace=True

3.根據指定條件刪除行列drop()

df=pd.DataFrame(np.arange(16).reshape(4,4),columns=["one","two","three","four"])

1).刪除指定列

df.drop(["one"],axis=1)

另外，也可通過del df["one"]來實現刪除指定列，但該方法不推薦，因為這預設直接在源資料上做更改。

2).刪除指定行

df.drop([0],axis=0)

以上如果需要在原資料上直接做更改，需設定引數inplace=True

————————————————版權宣告：本文為CSDN博主「永遠在減肥永遠110的的小潘」的原創文章，遵循CC 4.0 BY-SA版權協議，轉載請附上原文出處連結及本宣告。原文連結：https://blog.csdn.net/p1306252/article/details/114890550

相關推薦

import pandas as pd
import numpy as np
df=pd.DataFrame({"record":[np.nan,"亞健康|潘光|45歲","疾病|張思",np.nan],"date":[np.nan,20210102,20210103,20210104]},index=["one","two","three","four"])

1)濾除含有NaN值的所有行
df.dropna()#預設axis=0

2)濾除含有NaN值的所有列
df.dropna(axis=1)

3)濾除元素都是NaN值的行
df.dropna(axis=0,how="all")

5)濾除指定列中含有缺失的行
df.dropna(subset=["record"],axis=0)

2.刪除重複值 drop_duplicates()
df=pd.DataFrame({'state':[1,1,2,2,1,2,2],'pop':['a','b','c','d','b','c','d']})

————————————————
版權宣告：本文為CSDN博主「永遠在減肥永遠110的的小潘」的原創文章，遵循CC 4.0 BY-SA版權協議，轉載請附上原文出處連結及本宣告。
原文連結：https://blog.csdn.net/p1306252/article/details/114890550