Datawhale學資料分析第二章第一節

阿新 • • 發佈：2020-08-21

import numpy as np
import pandas as pd
df = pd.read_csv('/Users/mofashipython/test/train.csv')

#缺失值統計
df.info()
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
PassengerId    891 non-null int64
Survived       891 non-null int64
Pclass          
891 non-null int64
Name           891 non-null object
Sex            891 non-null object
Age            714 non-null float64
SibSp          891 non-null int64
Parch          891 non-null int64
Ticket         891 non-null object
Fare           891 non-null float64
Cabin          204 non-null object
Embarked        
889 non-null object
dtypes: float64(2), int64(5), object(5)
memory usage: 83.6+ KB


#缺失值查詢
df[df['Age']==None]=0
df[df['Age'] == np.nan] = 0



#檢視重複值
df[df.duplicated()]


#隱藏（刪除重複值）
df.drop_duplicates()


#分箱
#將連續變數Age平均分箱成5個年齡段，並分別用類別變數12345表示
df['AgeBand'] = pd.cut(df['Age'], 5,labels = ['1','2',' 
3','4','5'])

#將連續變數Age劃分為[0,5) [5,15) [15,30) [30,50) [50,80)五個年齡段，並分別用類別變數12345表示
df['AgeBand'] = pd.cut(df['Age'],[0,5,15,30,50,80],labels = ['1','2','3','4','5'])

df.to_csv('test_cut.csv')
#將連續變數Age按10% 30% 50 70% 90%五個年齡段，並用分類變數12345表示
df['AgeBand'] = pd.qcut(df['Age'],[0,0.1,0.3,0.5,0.7,0.9],labels = ['1','2','3','4','5'])



#文字變數進行轉換
#檢視類別文字變數名及種類
df['Sex'].value_counts()

df['Sex'].unique()

#將類別文字轉換為12345
df['Sex_num'] = df['Sex'].replace(['male','female'],[1,2])

df['Sex_num'] = df['Sex'].map({'male': 1, 'female': 2})


#將類別文字轉換為one-hot編碼
for feat in ["Age", "Embarked"]:
#     x = pd.get_dummies(df["Age"] // 6)
#     x = pd.get_dummies(pd.cut(df['Age'],5))
    x = pd.get_dummies(df[feat], prefix=feat)
    df = pd.concat([df, x], axis=1)
    #df[feat] = pd.get_dummies(df[feat], prefix=feat)

Datawhale學資料分析第二章第一節

import numpy as np import pandas as pd df = pd.read_csv(\'/Users/mofashipython/test/train.csv\') #缺失值統計

對比python學julia（第二章）--（第一節）隔溝算樣—列舉策略

1.1. 問題描述在明代數學家程大位的《演算法統宗》著作中記載了這樣一道數學題：

餘老師帶你學習大資料-Spark快速大資料處理第四章第一節Tez總體介紹

為什麼選擇Tez 為什麼要用Tez 在分散式系統中要儲存海量的資料，因為構建了一個非商務的機器上能夠執行的hdfs分散式儲存空間，而且這個儲存空間是低成本的並且具有良好的擴充套件性。那麼，很多企業都會將海

SpringMVC 學談（第二章）

寫在前面：分享技術，共同進步，有不足請見諒，相關意見可評論告知~ 程式設計路漫之遠兮，運架構式之簡化

《趣學演算法》第二章貪心演算法原始碼

目錄貪心演算法相關程式碼實現1、加勒比海盜船——最優裝載問題2、阿里巴巴與四十大盜——揹包問題3、高階鐘點祕書——會議安排4、一場說走就走的旅行——最短路徑5、神祕電報密碼——哈夫曼編碼6、溝通無限校園網—

第五章第一節-相機與影象-相機模型

相機將三維世界中的點投影到二維影象平面，這一過程可以由針孔模型和畸變模型共同描述，這兩個模型構成了相機的內參數。

DataWhale Pandas資料分析 Task01：預備知識

技術標籤：DataWhale Pandas資料分類python演算法pandas 這裡寫自定義目錄標題練習Ex1：利用列表推導式寫矩陣乘法Ex2：更新矩陣Ex3：卡方統計量Ex4：改進矩陣計算的效能Ex5：連續整數的最大長度

資料結構第二章：線性表的順序表示和實現程式碼

1. 線性表的順序表示和程式碼實現 package lineTable; /** * @author wcc * @description 線性表的順序表示和實現

《Qt MOOC系列教程》第四章第一節：模型檢視框架

技術標籤：Qt MOOC系列教程qtqmlc++gui軟體開發許多應用程式需要向用戶顯示資料，甚至允許使用者操作和建立新資料。Qt模型檢視框架可以使開發人員輕鬆地建立這樣的應用程式。模型與檢視的分離，可以使多個檢視共

DataWhale Pandas資料分析 Task02：pandas基礎

技術標籤：DataWhale Pandas資料分類pythonpandas Ex1：口袋妖怪資料集現有一份口袋妖怪的資料集，下面進行一些背景說明：

《Qt MOOC系列教程》第五章第一節：QML上下文屬性和物件

技術標籤：Qt MOOC系列教程qtc++guiqml軟體開發我們在第五章將學習如何整合C++和QML。大多數情況下，這意味著從QML訪問C++，它是我們要介紹的重點。不過您也可以從C++訪問QML物件，但通常這不是您想要做的，可能

動手學資料分析系列---資料載入及初步觀察

1 第一章：資料載入 1.1 載入資料資料集下載https://www.kaggle.com/c/titanic/overview 1.1.1 任務一：匯入numpy和pandas

動手學資料分析系列---資料重構

複習：在前面我們已經學習了Pandas基礎，第二章我們開始進入資料分析的業務部分，在第二章第一節的內容中，我們學習了資料的清洗，這一部分十分重要，只有資料變得相對乾淨，我們之後對資料的分析才可以更有力。而這

動手學資料分析系列---模型搭建和評估

模型搭建和評估--建模經過前面的兩章的知識點的學習，我們可以對數資料的本身進行處理，比如資料本身的增刪查補，還可以做必要的清洗工作。那麼下面我們就要開始使用我們前面處理好的資料了。這一章我們要做的就

第八章——第一節--檔案漏洞簡介與原理介紹

1、檔案包含漏洞簡介與原理的介紹）01、檔案包含漏洞原理　　在網站後端程式碼開發中、程式為了提高效率，以及讓程式碼看起來更加簡潔，會使用“包含”函式功能，比如把一系列的功能函式、基礎的類，基礎的方法寫

TensorFLow學習隨筆第一章第一節

人工智慧三學派與當前主流方向在學習tensorflow的使用，運用機器學習解決畢設的問題之前，還是得先來認識從哪裡來到哪裡去的原則性問題。

SZU 資料庫系統與設計與分析第二章

@目錄第 2 章：關係資料模型1.模式和狀態(Schema and State)2.空值(Null Value)3.超碼(SuperKey)4.候選碼(Key)5.主碼(Primary Key)6.外來鍵/碼(Foreign Key)

Google軟體工程中文譯文-第11章-第一節

第11章測試概覽 Adam Bender 撰寫 Tom Manshreck 編輯測試工作一直是程式設計工作的一部分。事實上，當第一次寫計算機程式的時候，你幾乎肯定會給程式扔一些資料，看看執行結果是否符合預期。很長時間

動手學資料分析-task01

第一章資料載入第一節資料載入以及初步觀察 1、載入資料資料集下載：Titanic - Machine Learning from Disaster | Kaggle

動手學資料分析 Task1 學習筆記

學習筆記思考1： pd.read_csv()和pd.read_table()有什麼不同 pd.read_csv()直接讀取‘,’為分隔符的文字檔案，pd.read_table()需要設定sep。

Datawhale學資料分析第二章第一節

相關推薦