pandas dataframe 過濾——apply最靈活！！！

阿新 • • 發佈：2018-11-08

afr list lag term use wal mina lse join

按照某特定string字段長度過濾：

import pandas as pd

df = pd.read_csv(‘filex.csv‘)
df[‘A‘] = df[‘A‘].astype(‘str‘)
df[‘B‘] = df[‘B‘].astype(‘str‘)
mask = (df[‘A‘].str.len() == 10) & (df[‘B‘].str.len() == 10)
df = df.loc[mask]
print(df)

Applied to filex.csv:

A,B
123,abc
1234,abcd
1234567890,abcdefghij

the code above prints

            A           B
2  1234567890  abcdefghij

或者是：

data={"names":["Alice","Zac","Anna","O"],"cars":["Civic","BMW","Mitsubishi","Benz"],
     "age":["1","4","2","0"]}

df=pd.DataFrame(data)
"""
df:
  age        cars  names
0   1       Civic  Alice
1   4         BMW    Zac
2   2  Mitsubishi   Anna
3   0        Benz      O
Then:
"""

df[
df[‘names‘].apply(lambda x: len(x)>1) &
df[‘cars‘].apply(lambda x: "i" in x) &
df[‘age‘].apply(lambda x: int(x)<2)
  ]
"""
We will have :
  age   cars  names
0   1  Civic  Alice
"""

最靈活的是用apply：

def load_metadata(dir_name):    
    columns_index_list = [
        MetaIndex.M_METADATA_ID_INDEX,
        MetaIndex.M_SRC_IP_INDEX,
        MetaIndex.M_DST_IP_INDEX,
        MetaIndex.M_SRC_PORT_INDEX,
        MetaIndex.M_DST_PORT_INDEX,
        MetaIndex.M_PROTOCOL_INDEX,
        MetaIndex.M_HEADER_H,
        MetaIndex.M_PAYLOAD_H,
        MetaIndex.M_TCP_FLAG_H,
        MetaIndex.M_FLOW_FIRST_PKT_TIME,
        MetaIndex.M_FLOW_LAST_PKT_TIME,
        MetaIndex.M_OCTET_DELTA_COUNT_FROM_TOTAL_LEN,
    ]
    columns_name_list = [
        "M_METADATA_ID_INDEX",
        "M_SRC_IP_INDEX",
        "M_DST_IP_INDEX",
        "M_SRC_PORT_INDEX",
        "M_DST_PORT_INDEX",
        "M_PROTOCOL_INDEX",
        "M_HEADER_H",
        "M_PAYLOAD_H",
        "M_TCP_FLAG_H",
        "M_FLOW_FIRST_PKT_TIME",
        "M_FLOW_LAST_PKT_TIME",
        "M_OCTET_DELTA_COUNT_FROM_TOTAL_LEN",
    ]

    def metadata_parse_filter(row):
        try:
            if row[‘M_PROTOCOL_INDEX‘] != 6:
                return False
            if len(row[‘M_HEADER_H‘]) < 2 or len(row[‘M_PAYLOAD_H‘]) < 2 or not is_l34_tcp_metadata(row[‘M_METADATA_ID_INDEX‘]):
                return False
            first_time = row[‘M_FLOW_FIRST_PKT_TIME‘].split(‘-‘)
            last_time = row[‘M_FLOW_LAST_PKT_TIME‘].split(‘-‘)

            flow_first_pkt_time = int(first_time[0])
            rev_flow_first_pkt_time = int(first_time[1])

            flow_last_pkt_time = int(last_time[0])
            rev_flow_last_pkt_time = int(last_time[1])
            if flow_first_pkt_time > flow_last_pkt_time or rev_flow_first_pkt_time > rev_flow_last_pkt_time:
                return False
            return True
        except Exception as e:
            return False

    for root, dirs, files in os.walk(dir_name):
        for filename in files:
            file_path = os.path.join(root, filename)
            df = pd.read_csv(file_path, delimiter=‘^‘, usecols=columns_index_list, names=columns_name_list, encoding=‘utf-8‘, error_bad_lines=False, warn_bad_lines=True, header=0, lineterminator="\n")
            filter_df = df.loc[df.apply(metadata_parse_filter, axis=1)]
            yield filter_df

　直接按照row過濾！　

pandas dataframe 過濾——apply最靈活！！！

afr list lag term use wal mina lse join 按照某特定string字段長度過濾： import pandas as pd df = pd.read_csv(‘filex.csv‘) df[‘A‘] = df[‘A‘].astype(‘

最勵誌語句！——沖向阿裏，反正光腳的不怕穿鞋的

size 網絡公司 space 第一天 coo 那種而不是由於 ria 今天非常殘酷,明天更殘酷,後天非常美好,可是絕大多數人死在明天晚上,見不著後天的太陽最大的失敗是放棄。最大的敵人是自己，最大的對手是時間 30%的人永遠不可能相信你。不要讓你的同事為你幹活

預言擇天記最大的坑！陳長生到底是誰！

color 掌握沒有平時渴望我們洋洋意圖正在首先我要說，老貓的書要看很多段子，要把很多看似不經意的段子記起來，最終才能匯成一條線，而此斯內心極為陰暗，經常為自己埋下的高明伏筆得意洋洋，一但被人猜到或者拆穿說不定會推到重來，所以本人就不賭JJ了，以免抱憾終生

Java成員變量與屬性的區別，簡單最易懂的解釋！！！

col 最好 name color poj student oid style 簡單例一：一個Student pojo類： public class Student{ private String name; private int age; public S

震驚，最短路算法！！！！

keyword 信息 dex oom 沒有 true 進行 ted 減少轉載 http://www.61mon.com/index.php/archives/194/ 文章目錄一：背景二：算法過程三：完整代碼四：時間復雜度五：該算法的缺陷

淘寶優惠券最全攻略！省錢攻略！

alt bsp 用戶 ima nload 粘貼 list 成功推廣工具/原料淘寶APP 好券捕手APP 首先我們來說一下淘寶優惠券的由來！淘寶優惠券分兩種一、公開優惠券用戶在淘寶店家店鋪就可以直接看到的優惠券二、賣家用於淘客推廣的優惠券（這種券是不公開的

PHP移除json數據最右側的逗號！

json數據 doctype body 參考 php blog class logs color 具體函數是：PHP rtrim() 函數參考地址： http://www.w3school.com.cn/php/func_string_rtrim.asp 參考： &

你在無意中就打破了用戶體驗設計中最重要的規則！

以下內容由Mockplus（摹客）團隊翻譯整理，僅供學習交流，Mockplus是更快更簡單的原型設計工具。產品設計中最重要的規則，可能是產品的周期管理。每個人都應該遵守一定的重要規則，特別是那些從事產品設計的人。而許多設計師卻日復一日地在設計中違反規則，而這是絕對不利於他們的

Python的高級特效是什麽？有什麽用呢？史上最全的教程！

val decorator itertools 異常最全的運行時 factory tor rfi 本篇文章重點介紹以下內容 Python語言的一些高階用法主要有以下幾個特性： generators生成器用法 collections包常見用法 itertoo

C語言實現粒子運動效果，最美C語言！最炫酷C語言！

eight src tps space hit size fad mar font 效果我有一個微信公眾號，經常會分享一些C語言/C++技術相關的幹貨；如果你喜歡我的分享，可以用微信搜索“C語言學習部落”關註歡迎大家加入千人交流答疑裙：627+012+464C語

pandas DataFrame apply()函數(1)

mes tle 10個 dataframe color dex blog labels 定義函數之前已經寫過pandas DataFrame applymap()函數還有pandas數組(pandas Series)-(5)apply方法自定義函數 pandas Dat

最火爆10大集成開發環境和代碼編輯器！總有一款是最適合你的！

.org 如何工作技術分享你是自帶獲取數據科學家識別文件中什麽是集成開發環境和代碼編輯器進群：125240963 即可獲取數十套PDF或者零基礎入門教程一套哦！保存和重載代碼文件如果一款集成開發環境或者編輯器不允許你保

玩爬蟲封IP是最頭痛的事情！從零搭建異步爬蟲代理池！隨你怎麽封

nic bfc sco nbsp 技術最大值 sta 服務器壓力 p s 如何使用安裝 Redis 項目數據庫使用了 Redis，Redis 是一個開源（BSD 許可）的，內存中的數據結構存儲系統，它可以用作數據庫、緩存和消息中間件。所以請確保運行環境已經正確安裝了

Super Jumping！Jumping！Jumping！（HDU_1087）(dp求最長上升子序列的和)

inf 自己長度 int ans out clas urn class 傳送門：HDU_1087 題意：現在要玩一個跳棋類遊戲，有棋盤和棋子。從棋子st開始，跳到棋子en結束。跳動棋子的規則是下一個落腳的棋子的號碼必須要大於當前棋子的號碼。st的號是所有棋子中最小的，en

蘋果手機如何上YouTube看視頻，怎麽打開YouTube最有效解決方法！

cisco term out ado nag 使用 sha -o .com 現在這個時代還有多少人不知道YouTube這個軟件呢？YouTube已經成為現在年輕人的主流看視頻使用工具的。但是還是有很多人不懂的怎麽去使用如何打開YouTube軟件。可以說這個款軟件是被國.內

pandas.Dataframe復雜條件過濾

lex tar over lte sta afr class ons div https://stackoverflow.com/questions/11418192/pandas-complex-filter-on-rows-of-dataframe mask

Pandas DataFrame 資料選取和過濾

This would allow chaining operations like: pd.read_csv('imdb.txt') .sort(columns='year') .filter(lambda x: x['year']>1990) # <---this is missin

Pandas DataFrame 數據選取和過濾

lam read 1.4 大於 -c stack ati title 1.2 This would allow chaining operations like: pd.read_csv(‘imdb.txt‘) .sort(columns=‘year‘) .fil

Leetcode 127：單詞接龍（最詳細的解法！！！）

給定兩個單詞（beginWord 和 endWord）和一個字典，找到從 beginWord 到 endWord 的最短轉換序列的長度。轉換需遵循如下規則：每次轉換隻能改變一個字母。轉換過程中的中間單詞必須是字典中的單詞。說明: 如果不存在這

2018最牛Python指令碼！！！秒搶紅包不算！還能無視撤回訊息！！！

曾經有一份"份額很足"的大紅包，擺在我面前，我沒有好好珍惜，如果上天再給我一次機會，我會對發紅包的人說三個字：再來個。如果要在這個紅包的金額上面加個上限，我希望是200。（因為微信紅包最大的紅包就是200）我想很多的朋友都遇到過這樣的問題，特別是在親友群裡面，很多時候別人發了紅包自己卻不

pandas dataframe 過濾——apply最靈活！！！

相關推薦