Python 清洗數據

阿新 • • 發佈：2018-07-17

drop index pytho code 一行 dataframe cor 進行 rop

import numpy as np
import pandas as pd
from pandas import Series,DataFrame

s=Series([1,2,3],index=[‘a‘,‘b‘,‘c‘])
print(s)
‘‘‘
a    1
b    2
c    3
dtype: int64
‘‘‘
print(np.max(s))#可以進行np運算

s.name=‘rank‘
s.index.name=‘name‘
print(s)

#創建DataFrame
sdata1={‘name‘:[‘a‘,‘b‘,‘c‘],‘rank‘:[1,2,3],‘score 
‘:[98,89,54]}
print(sdata1)#字典
df1=DataFrame(sdata1)
print(df1)
‘‘‘
  name  rank  score
0    a     1     98
1    b     2     89
2    c     3     54
‘‘‘
df2=DataFrame(sdata1,columns=[‘score‘,‘name‘,‘rank‘])
print(df2)
‘‘‘
可以自動對齊，只是位置變化
   score name  rank
0     98    a     1
1     89    b     2
2     54    c     3
 
‘‘‘
df3=DataFrame(sdata1,columns=[‘score‘,‘name‘,‘rank‘,‘class‘],index=[‘1‘,‘2‘,‘3‘])
print(df3)
‘‘‘
class這列是缺失值
   score name  rank class
1     98    a     1   NaN
2     89    b     2   NaN
3     54    c     3   NaN
‘‘‘
df4=df3.reindex([‘1‘,‘2‘,‘3‘,‘4‘])
print(df4)
‘‘‘
重新索引
   score name  rank class
1   98.0    a   1.0   NaN
2   89.0    b   2.0   NaN
3   54.0    c   3.0   NaN
4    NaN  NaN   NaN   NaN
 
‘‘‘

print(df4[‘score‘])
print(df4.ix[‘1‘])
print(df2[df2[‘score‘]>60])#返回df2中score大於60的值
‘‘‘
   score name  rank
0     98    a     1
1     89    b     2
‘‘‘
del df3[‘class‘]
print(df3)#刪除class這列

sdata1={‘name‘:[‘a‘,‘b‘,‘c‘],‘rank‘:[1,2,3],‘score‘:[98,89,54]}
print(sdata1)
df3=DataFrame(sdata1,columns=[‘score‘,‘name‘,‘rank‘,‘class‘],index=[‘1‘,‘2‘,‘3‘])
del df3[‘class‘]
print(df3)
print(df3.reindex([‘1‘,‘2‘,‘3‘,‘4‘]))
print(df3.reindex([‘1‘,‘2‘,‘3‘,‘4‘],fill_value=0))#缺失值賦值為0
‘‘‘
   score name  rank
1     98    a     1
2     89    b     2
3     54    c     3
4      0    0     0
‘‘‘

print(df3.reindex([‘0‘,‘1‘,‘2‘,‘3‘]))
‘‘‘
   score name  rank
0    NaN  NaN   NaN
1   98.0    a   1.0
2   89.0    b   2.0
3   54.0    c   3.0
‘‘‘
print(df3.reindex([‘0‘,‘1‘,‘2‘,‘3‘],method=‘bfill‘))#向後填充
‘‘‘
   score name  rank
0     98    a     1
1     98    a     1
2     89    b     2
3     54    c     3
‘‘‘

print(df3.drop(‘1‘))#刪除第一行
print(df3.drop(‘score‘,axis=1))#刪除指定列，axis是維數，0是行，1是列

print(df3.T)#轉置

Python 清洗數據

drop index pytho code 一行 dataframe cor 進行 rop import numpy as np import pandas as pd from pandas import Series,DataFrame s=Series([1,2,

python實現數據爬取-清洗-持久化存儲-數據平臺可視化

爬蟲 python 數據分析數據清理數據挖掘基於python對淘寶模特個人信息進行篩選爬取，數據清洗，持久化寫入mysql數據庫.使用django對數據庫中的數據信息篩選並生成可視化報表進行分析。數據爬取，篩選，存庫：# -*- coding:utf-8 -*- import

hive 的日誌處理統計網站的 PV 、UV案例與給合 python的數據清洗數據案例

大數據 hadoop hive 數據清洗一：hive 清理日誌處理統計PV、UV 訪問量二： hive 數據python 的數據清洗一：日誌處理統計每個時段網站的訪問量: 1.1 在hive 上面創建表結構：在創建表時不能直接導入問題 create table db_b

Python基本數據類型1

enc 其中格式 open 字節數據類型 2個 brush 放大 1、二進制：硬盤上保存的數據都是以二進制的形式保存的。一個字節占8位，由0和1組成，逢2進1。比如一個漢字“王”，以UTF-8的編碼格式，在硬盤中占3個字節即24位，若是以GBK的編碼格式，則占2個字節，

python基本數據類型及對象方法

expand and sta start dex capi ack abs fcc string 1.strip str_test=‘ Larry ‘ v=str_te

Python基本數據分類方式

python 數據類型一、內存模型依據變量在內存中的組織分類 Python的類型，就象絕大多數其它語言一樣，能容納一個或多個值。一個能保存單個字面對象的類型我們稱它為原子或標量存儲，那些可容納多個對象的類型，我們稱之為容器存儲。（容器對象有時會在文檔中被稱為復合

利用python進行數據分析——histogram

python hist()DataFrame.hist(data, column=None, by=None, grid=True, xlabelsize=None, xrot=None, ylabelsize=None, yrot=None,ax=None, sharex=False, sharey=Fal

Python進行數據分析之一：相關Package的安裝

ans 防止 log matplot 行數據解釋原型簡單下載一、為什麽要使用Python進行數據分析？ python擁有一個巨大的活躍的科學計算社區，擁有不斷改良的庫，能夠輕松的集成C,C++,Fortran代碼（Cython項目），可以同時用於研究和原型的構建以

python訪問數據庫

from commit table 數據庫異常影響可視化查詢 als ted 1. python DB api簡介 python DB api python訪問數據庫的統一接口規範，詳細可參考https://www.python.org/dev/peps/pep-

python基本數據類型——tuple

返回默認復制代碼素數 img 創建以及 iter ssi 一、元組的創建與轉換： ages = (11, 22, 33, 44, 55) ages = tuple((11, 22, 33, 44, 55))ages = tuple([]) # 字符串、列表、字典（

python 寫數據到txt 文件

blog light enc clas cnblogs utf 表示數組 hat # coding=utf-8 import codecs # list = [[1,2],[3,4]] list = [‘{"PN":"34VT123","DUID":"XXXX","

python sqlite3 數據庫操作

成功中文遊標默認 pytho pre 滾動 back 系統 python sqlite3 數據庫操作 SQLite3是python的內置模塊，是一款非常小巧的嵌入式開源數據庫軟件。 1. 導入Python SQLite數據庫模塊 import sqlite3 　

Python 基本數據類型

簡單個數八進制 ans seconds row 另一個 ise dia 目錄1、字符串2、布爾類型3、整數4、浮點數5、數字6、列表7、元組8、字典9、日期 1、字符串1.1、如何在Python中使用字符串a、使用單引號(‘)用單引號括起來表示字符串，例如：str

python操作數據庫-數據表

title 獲取 arch python操作 -- pymysql exe span 轉義數據表：數據類型：幫助的三種形式：在cmd中輸入： help 要幫助的主題詞，或 ? 要幫助的主題詞或 \h 要幫助的主題詞。數據表的創建：

python基本--數據類型

ava 搜索自動搜索字符串 oba 用c語言實現登錄不可見 try 一、ptyhon 介紹 ptyhon語言是指Python的語言風格，和它自己的語法結構等， python解釋器是去解釋並執行的一個軟件， Cpython（最常用的版本） Python的官方

Python之數據結構：集合

ict 轉換成創建可變 discard 重復如果 upper amp 一、set集合 1、集合是一個無序不重復元素集,有去重的作用 set集合類需要的參數必須是叠代器類型的，如：序列、字典等，然後轉換成無序不重復的元素集。由於集合是不重復的，所以可以對字符串、列表、元

python-操作數據庫

span arch logs all 127.0.0.1 ace delet 自增 pan python DB-API介紹 1.python標準數據庫接口為 python DB-API,python DB-API為開發人員提供了數據庫應用標稱接口 2.python數據庫接口

PYTHON學習（三）之利用python進行數據分析(1)---準備工作

-- 下載 rip 安裝包 png 要求 eight code 電腦　　學習一門語言就是不斷實踐，python是目前用於數據分析最流行的語言，我最近買了本書《利用python進行數據分析》（Wes McKinney著），還去圖書館借了本《Python數據分析基礎教程--N

機器學習工作流程第一步：如何用Python做數據準備？

pandas 整數情況意思編程練習人工智能簡單的準備工作標題這篇的內容是一系列針對在Python中從零開始運用機器學習能力工作流的輔導第一部分，覆蓋了從小組開始的算法編程和其他相關工具。最終會成為一套手工制成的機器語言工作包。這次的內容會首先從數據準備開始。

python操作數據庫（MySQL、redis）

absolut lec pen 鏈接 hone key imp iam sql 1、Python3操作MySQL數據庫需要安裝一個第三方模塊(pymysql)：pip install pymysql；操作redis需要安裝redis模塊(redis)：pip install

Python 清洗數據

相關推薦