資料探索性分析案例實現diamonds.csv

阿新 • • 發佈：2021-06-18

《資料探索性分析案例實現（EDA）》

一、資料描述

1.1資料集描述

diamonds資料框包含53940行，有carat、cut、color、clarity、depth、table、price、x、y、z共10列，對應每個鑽石的一些引數值。

carat：克拉，鑽石的重量

cut：代表了鑽石的切工，由低到高依次為Fair, Good, Very Good, Premium, Ideal

color：代表了鑽石的顏色從最低的J到最高的D

clarity：鑽石的純淨度,代表了鑽石的透明程度從低到高依次為I1, SI1, SI2, VS1, VS2, VVS1, VVS2, IF

depth：深度比例

table：代表了鑽石的桌面比例

price：代表了鑽石的價格

x,y,z：分別代表了鑽石的長/寬/高

1.2資料展示

1.3匯入資料

1.4檢視資料集資訊

從統計資訊可以看出數字型的總數、count，資料個數（非空資料），mean，均值，std，標準差，min，最小值，25%，第1四分位數，即第25百分位數，50%，第2四分位數，即第50百分位數，75%，第3四分位數，即第75百分位數，max，最大值等資訊。

二、問題提出

1、每個資料有什麼特徵？

3、價格和什麼成正比？

2、克拉、切割、顏色、鑽石的純淨度對價格的影響？

三、資料清洗和預處理

3.1查詢缺失值

pd.isnull(df).sum()

可以看出，該資料集沒有缺失值。

3.2檢視資料集型別

df.info()

檢視資料集型別，可以看到一個10x3的列表，該資料集有10列，53940條資料。Not-Null記錄該列是否有空值，Dtype描述每列資料的型別。

四、各變數相關性資料分析與視覺化

4.1通過庫，用程式碼實現視覺化

檢視資料描述

df.describe()

對每個特徵繪製柱狀圖

扇形圖

如上繪製clarity列扇形圖。同理繪製color、cut列扇形圖。圖片如下：

可以看到clarity主要分佈在VS2、SI1、SI2、VS1，I1、IF佔比很少。

可以看到，color為G佔比最大，J最小。

可以看出，cut切割理想(Ideal)的佔比最大，失敗的很少。

單個特徵的分佈情況（直方圖）

sns.distplot(df['price'],kde=False)

由直方圖可以看出加出價格的分佈情況。

4.2使用dtale視覺化資料

檢視資料

結果如下：

通過左上角的三角形開啟功能選單（通過language可將語言切換為中文）

描述

以price為例詳細展開說明：

檢視描述，可知價格分佈及頻率，還有最大值、中值、最小值、總和等。通過箱式圖可知道：

最小值：326

1/4分位點：950

中位數：2401

3/4分位點：5324.25

最大值：18823

直方圖：

可以看到價格為1250左右的最多，2000-7000其次，更貴就更少了。

細分

500個數據

5000個數據

50000條資料

從此細分計數圖可以看出，價格為600左右的最多。

price-carat

可以看出price-carat是正比例相關，價格越高，carat越高

以下給出了其他列和price計數圖

圖表功能

以price為x軸，其他列為y軸，可以得到如下結果：

carat by price

隨著鑽石重量的增加鑽石的價格也呈上升的趨勢

depth by price

cut by price

color by price

clarity by price

可以得出，克拉和價格成正相關，質量越重，價格越高，而價格高的鑽石的切工、純淨度不會太差，而顏色沒有太大相關。

ScatterPlot-散點圖

Wordcloud-詞雲圖

五、主要結論

鑽石的重量越高價格越高，鑽石的重量越高其價格受其他因素的影響越大。

顏色、切工、透明度越好的鑽石價格均值越低。

鑽石的價格隨克拉數的升高而升高，透明度越好(IF)的鑽石的單價越高。

鑽石的價格隨克拉數的升高而升高，切工越好(Ideal)的鑽石的單價越高。

鑽石的價格隨克拉數的升高而升高，顏色越好(D)的鑽石的單價越高。

資料探索性分析案例實現diamonds.csv

《資料探索性分析案例實現（EDA）》一、資料描述 1.1資料集描述 diamonds資料框包含53940行，有carat、cut、color、clarity、depth、table、price、x、y、z共10列，對應每個鑽石的一些引數值。

資料探索性分析案例實現

一、資料描述對diamonds資料集進行描述，該資料集總共由8個部分十個欄位組成。

12-機器學習-資料探索性分析EDA應用實踐

資料集背景介紹 2009年的《紐約市基準法律》要求對建築的能源和水的使用資訊進行說明和評分。涵蓋的建築包括具有單個建築物的總建築面積超過50,000平方英尺（平方英尺），和群建築面積超過100,000平方英尺。指

Lending Club 貸款資料 - 探索性分析（附程式碼）

《python風控建模實戰lendingClub》視訊教程：騰訊課堂入口: https://ke.qq.com/course/3063950?tuin=dcbf0ba

mysql 資料分析如何實現日報、週報、月報和年報？

以天為統計週期，是常見需求。週報、月報更是常見需求。長週期專案，甚至有年報需求。我已經掌握了mysql中按天統計，如何實現按年、按月、按周統計呢？

mysql資料備份與恢復實現方法分析

本文例項講述了mysql資料備份與恢復實現方法。分享給大家供大家參考，具體如下：

python 實現讀取csv資料,分類求和再寫進 csv

這兩天在測試過程中，遇到這樣的問題：資料量很大，一份csv檔案的資料與另外一個檔案的資料進行對比，但是csv中的檔案資料量很大，並且進行統計，如果手動單個去對比，會很花時間，吃力不討好，還容易出錯。

使用執行緒池+CountDownLatch 實現多執行緒協同工作結果彙總（適用於資料運算分析，資料庫操作，網頁爬蟲）

多執行緒資料去重使用示例： public void obtainSimilarityRate() { List<FgTestR3> zjFg = list((new QueryWrapper<FgTestR3>())

3-python資料分析-DataFrame級聯與合併操作鞏固之人口分析案例

需求匯入檔案，檢視原始資料將人口資料和各州簡稱資料進行合併將合併的資料中重複的abbreviation列進行刪除

SAP WebClient UI開發工具中attribute資料夾展開的實現原理分析

For project reason I need to figure out the logic how the field list is assembled when folder “Attributes” for a given context node is expanded in CRM WebClient UI workbench:

102 01 Android 零基礎入門 02 Java面向物件 03 綜合案例（學生資訊管理） 02 案例分析及實現 06 通過方法實現學生類與專業類關聯——方案三

102 01 Android 零基礎入門02 Java面向物件 03 綜合案例（學生資訊管理） 02 案例分析及實現 06 通過方法實現學生類與專業類關聯——方案三

整合 ClickHouse資料庫，實現高效能資料查詢分析

Yandex開源的資料分析的資料庫，名字叫做ClickHouse，適合流式或批次入庫的時序資料。ClickHouse不應該被用作通用資料庫，而是作為超高效能的海量資料快速查詢的分散式實時處理平臺，在資料彙總查詢方面(如GROUP BY

資料分析案例 | 資料視覺化 -- 畫圖分析某年旅遊景點資料 | 05

目錄案例需求資料準備功能實現處理缺失值取出河北省的資料分析一: 各個景點的遊客數量和總面積分析二: 分析個景點遊客佔比

資料分析案例之人口分析

案例分析：美國各州人口資料分析 data-csv: https://cloud.189.cn/t/yuA7BjfMFRzm (訪問碼:fw18)

C++實現讀取CSV檔案資料將進行計算。

技術標籤：C++的奇怪知識C++讀取CSV檔案檔案 C++實現讀取CSV檔案資料將進行計算。

資料分析案例-----------分析電影資料

需求現在我們有一組從2006年到2016年1000部最流行的電影資料資料來源：https://www.kaggle.com/damianpanek/sunday-eda/data

Python資料分析案例實戰

Python資料分析案例實戰課程大綱：第一課：電力竊漏電使用者識別系統案例實戰

Python資料分析案例對京東商城口紅的分析與繪圖

接著上一篇文章,這裡對爬取到的資料進行簡單的資料分析開發環境:jupyter 匯入依賴的包

資料探索性分析案例實現diamonds.csv

《資料探索性分析案例實現（EDA） 》

一、資料描述

1.1資料集描述

1.2資料展示

1.3匯入資料

1.4檢視資料集資訊

二、問題提出

三、資料清洗和預處理

3.1查詢缺失值

3.2檢視資料集型別

四、各變數相關性資料分析與視覺化

4.1通過庫，用程式碼實現視覺化

檢視資料描述

對每個特徵繪製柱狀圖

扇形圖

單個特徵的分佈情況（直方圖）

4.2使用dtale視覺化資料

檢視資料

描述

圖表功能

相關性

五、主要結論

相關推薦

《資料探索性分析案例實現（EDA）》