python使用dataframe統計的一個小指令碼：

阿新 • • 發佈：2018-12-15

此指令碼是我讀取JSON檔案，解析為詞典，然後讀取為dataframe，通過列名進行統計，最後統計輸出到結果檔案

_metaclass_=type
import ConfigParser
import os
import pandas as pd
import json
from __future__ import division

#讀取配置檔案獲取輸入路徑，輸出路徑
cf = ConfigParser.ConfigParser()
cf.read("config.conf")#配置檔案路徑
inpath = cf.get("config","inpath")
outpath = cf.get("config","outpath")
print inpath
#遍歷dirname，獲取所有檔案路徑
result = []
for maindir, subdir, file_name_list in os.walk(inpath):
    for filename in file_name_list:
        apath = os.path.join(maindir, filename)
        result.append(apath)
print result
#遍歷檔案路徑，獲取每個檔案的質控結果
results = pd.DataFrame([['表名稱','欄位名稱','總行數','空值行數','空值佔比','去重後行數','樣例資料','樣例資料對應條數']],columns=['tablename','columnName','總行數','無效記錄數','無效佔比','去重行數','樣例資料','樣例資料對應條數'])
df = pd.DataFrame()
for inpath in result:
    if "_SUCCESS" not in inpath:#測試過濾出目標檔案並統計
        f = open(inpath)
        lines = f.readlines()
        for line in lines:
            dic = json.loads(line)
            ps = pd.DataFrame(dic,index=['1'])
            df = df.append(ps)
names = df.columns
tablename = inpath.split('\\')[len(inpath.split('\\'))-1]
sumcounts = len(df)
print sumcounts
for name in names:
    ylsj = df[name].value_counts()[0:5].reset_index()['index'].tolist()
    ylsjcount = df[name].value_counts()[0:5].reset_index()[name].tolist()
    discount = len(df.drop_duplicates([name]))
    nullcounts = len(df[df[name].isin(['','NULL'])])
    ratio = nullcounts/sumcounts*100
    result = pd.DataFrame([[tablename,name,sumcounts,nullcounts,ratio,discount,ylsj,ylsjcount]],columns=['tablename','columnName','總行數','無效記錄數','無效佔比','去重行數','樣例資料','樣例資料對應條數'])
    print result
    results = results.append(result,ignore_index=True)
results.to_csv(outpath, index=False,mode='a', header=False )

python使用dataframe統計的一個小指令碼：

此指令碼是我讀取JSON檔案，解析為詞典，然後讀取為dataframe，通過列名進行統計，最後統計輸出到結果檔案 _metaclass_=type import ConfigParser import os import pandas as pd import json from _

一個小坑： -bash: ./backup.sh: /bin/bash^M: bad interpreter: No such file or directory 由於shell指令碼檔案被我在Windows下編輯過，出現上面錯誤的原因之一是指令碼檔案是DOS格式的, 即每一行的行尾以\r\n來標識

由於shell指令碼檔案被我在Windows下編輯過，出現上面錯誤的原因之一是指令碼檔案是DOS格式的, 即每一行的行尾以\r\n來標識, 使用vim編輯器開啟指令碼, 執行::set ff? 可以看到DOS或UNIX的字樣. 使用se

用shell實現一個小指令碼，用來同來統計自己某個檔案下的程式碼，總的程式碼行數，總的註釋量，總的空行量？支援遍歷查詢，支援軟連結查詢

[[email protected] yunwei]# cat sum_code_row_version1.4.sh #!/bin/bash # File Name: sum_code_row.sh # Author: Liwqiang # mail: [email

每天學習一個小功能：java文件上傳

set 下載 nts null 最大的上傳文件 getname response 完整 ====（1、）第一種、利用普通緩沖流進行文件上傳 ① 前端註意： 1、指定表單類型為文件上傳表單：enctype="multipart/form-data" 2、提交方式必須為

每天學習一個小功能：java文件下載

con map pri 字節流 del mes file request 及其思路： 1、獲取文件上傳到upload文件夾下的文件名 2、將文件名處理成上傳時的文件名並封裝成集合給前端展示 3、前端根據提交的文件名再後臺查找upload文件夾下查找並下載代碼： /*

一個小程式：計算績效的方案

因為強制要求考核績效，為了大家雨露均沾，考慮制定平均的績效方案比較挫的用了窮舉，跑起來很慢啊... # -*- coding:utf-8 -*- ''' 用來計算指定季度，指定績效評分型別，平均績效方案 ''' class check_list: def __init__(se

python一個小程式：猜數字

猜數字遊戲程式執行示例： I am thinking of a number between 1 and 20. Take a guess. 8 Your guess is too low. Take a guess. 10 Your guess is too low. Take

python一個小程序：猜數字

auth put pla think ood python wol inpu tps 猜數字遊戲程序運行示例： I am thinking of a number between 1 and 20. Take a guess. 8 Your guess is too

一個小錯誤： deprecated conversion from string constant to char*錯誤的修改

當我們將一個character pointer variable 初始化成一個string literal的時候，就會出現此類錯誤。在最新的C標準或者C++標準中，使用如下語句，無論使用gcc 或者g++命令，都會報出上面的錯誤，不能通過編譯： ch

入域的機器想保持螢幕不關閉，但是Policy不允許，一個小指令碼可以幫你！

大家都懂得。大公司嘛，肯定有規則不允許這不允許那。那我們運維需要做的就是合理的繞過去，幫助他們得到信任，以後做事就方便了。案情分析。某部門需要演示PPT在電視上，需要保持24小時螢幕不會Lock mon，在此之前，他們一貫用法就是用硬物砸著鍵盤，但是有時候你懂的肯定會掉

python-貼吧圖片爬取的一個小指令碼

學了點python，寫了個爬取貼吧圖片的小指令碼，記錄一下，其中遇到了一個坑，就是下載下來的html，百度不知道怎麼做了特殊處理，加上了註釋，結果一開始怎麼都提取不到圖片地址，最後仔細比較才發現，然後批量把註釋取消了才成功獲得url。真坑！程式碼如下：#!/usr/bin/e

分享java程式設計中一個小程式：獲取當前系統日期和時間在小程式中顯示出來

特別注意月份是從0開始而不是從1開始，所以需要在月份上加1import java.applet.Applet; import java.awt.TextArea; import java.util.C

HQL 發現一個小問題：用foreign連的話在 where裡面既然id需要“Id”,而其他的如username 只要“userName”!

居然碰到這個問題，暈！from PaperItem paperItem where paperItem.PaperId = :PaperId order by paperItem.paperItemName注意：PaperId 大寫開頭，paperItemName小寫，不然

一個小bug：calloc中出現的segment fault

其實也就雞毛蒜皮的小事，本來不想記錄在部落格上的，不過這個bug背後隱藏的東西確實比較有記錄的價值，如果說解bug就像是解初高中數學題，那麼有的bug就像一道出得很漂亮的題，短小精幹但背後隱藏的資訊量卻很大，一下子就讓你記住了背後的那些定理概念。事情是這樣的，segment

Class.getClassLoader()的一個小陷阱：）

jdk中關於getClassLoader（）的描述：/** * Returns the class loader for the class. Some implementations may use * null to represent the bootstrap class loade

Java學習（4）：統計一個文件中的英文，中文，數字，其他字符以及字符總數

port let args str reader 文件路徑要求 cnblogs pub 要求：統計一個文件中的英文，中文，數字，其他字符以及字符總數（此隨筆以txt文件為例） import java.io.BufferedReader; import java.io.F

記dynamic的一個小坑 -- RuntimeBinderException：“object”未包括“xxx”的定義

idt time 集中 names 屬性 trac 匿名 nal library 創建一個控制臺程序和一個類庫, 在控制臺創建一個匿名對象。然後再在類庫中訪問它。代碼例如以下： namespace ConsoleApplication1 { cla

Android小例子：使用反射機制來讀取圖片制作一個圖片瀏覽器

onclick lac protected blank pri tar lec 存儲 current 效果圖：　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　工程文件夾：　　該例子可供於新手參考練習，如果有哪裏不對的地方，望指正>-< 《

Win10 UWP系列：關於錯誤 0x80073CF9及一個小bug的解決

except 導出默認 bug 其他一個實現同時咨詢原文:Win10 UWP系列：關於錯誤 0x80073CF9及一個小bug的解決最近一直在開發XX的uwp版本，也是邊摸索邊做，最近遇到幾個比較奇怪的問題，記錄於此。 1、項目可用部署到PC，但無法部署到手機

【算法】一個小白的算法筆記：堆排序 (>д<)

根節點節點和 -- 樹形 new 示例 () 是否 family 參考資料《算法（第4版）》 — — Robert Sedgewick， Kevin Wayne 什麽是二叉堆在了解堆排序之前，

python使用dataframe統計的一個小指令碼：

相關推薦