資料分析EDA學習總結

阿新 • • 發佈：2020-08-03

探索性資料分析（Exploratory Data Analysis，EDA）：是一種探索資料的結構和規律的一種資料分析方法。

其主要的工作包含：

1 對資料進行清洗，
2 對資料進行描述（描述統計量，圖表），
3 檢視資料的分佈，
4 比較資料之間的關係，
5 培養對資料的直覺和對資料進行總結

EDA可以幫助我們找到適合的資料模型，本文針對文字資料，將進行具體的資料探索性分析講解

資料：https://tianchi.aliyun.com/competition/entrance/531810/information

資料為新聞文字，並按照字元級別進行匿名處理。

整合劃分出14個候選分類類別：財經、彩票、房產、股票、家居、教育、科技、社會、時尚、時政、體育、星座、遊戲、娛樂的文字資料

資料由以下幾個部分構成：訓練集20w條樣本，測試集A包括5w條樣本，測試集B包括5w條樣本

資料集中標籤的對應的關係如下:

{'科技': 0, '股票': 1, '體育': 2, '娛樂': 3, '時政': 4, '社會': 5, '教育': 6, '財經': 7, '家居': 8, '遊戲': 9, '房產': 10, '時尚': 11, '彩票': 12, '星座': 13}

1.匯入模組

#匯入所需的模組
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.model_selection import 
 train_test_split
import seaborn as sns
import scipy
from collections import Counter

2.匯入資料

#匯入資料

df_train = pd.read_csv('F:\\python\\EDA\\train_set\\train_set.csv', sep='\t')
df_test = pd.read_csv('F:\\python\\EDA\\test_a\\test_a.csv', sep='\t')

3.1簡單檢視資料

#簡單檢視資料
df_train.head(),len(df_train)

看看text裡面的內容是什麼

len(df_train['text'][0])  #5120
type(df_train['text'][0])  #str

3.2長度分佈

3.2.1describ

資料分析EDA學習總結

探索性資料分析（Exploratory Data Analysis，EDA）：是一種探索資料的結構和規律的一種資料分析方法。

"利用python進行資料分析"學習記錄01

"利用python進行資料分析"學習記錄 --day0108/02 與書相關的資料在 http://github.com/wesm/pydata-book

大資料分析為什麼學習R程式語言

　　學習大資料分析技能的人越來越多，這是一個好的現象，現在大資料分析師的市場需求很大，你學習大資料分析那很棒!AAA教育提供大量的大資料分析課程。為什麼大資料分析要專門學習R程式設計?

《利用python進行資料分析》學習筆記（一）

處理usa.gov資料匯入資料 import jsonpath = \'usagov_bitly_data2012-03-16-1331923249.txt\'records = [json.loads(line) for line in open(path)]

動手學資料分析 Task1 學習筆記

學習筆記思考1： pd.read_csv()和pd.read_table()有什麼不同 pd.read_csv()直接讀取‘,’為分隔符的文字檔案，pd.read_table()需要設定sep。

動手學資料分析 Task2 學習筆記

【回顧&引言】前面一章的內容大家可以感覺到我們主要是對基礎知識做一個梳理，讓大家瞭解資料分析的一些操作，主要做了資料的各個角度的觀察。那麼在這裡，我們主要是做資料分析的流程性學習，主要是包括了資料清

動手學資料分析 Task3 學習筆記

複習：在前面我們已經學習了Pandas基礎，第二章我們開始進入資料分析的業務部分，在第二章第一節的內容中，我們學習了資料的清洗，這一部分十分重要，只有資料變得相對乾淨，我們之後對資料的分析才可以更有力。而這

12-機器學習-資料探索性分析EDA應用實踐

資料集背景介紹 2009年的《紐約市基準法律》要求對建築的能源和水的使用資訊進行說明和評分。涵蓋的建築包括具有單個建築物的總建築面積超過50,000平方英尺（平方英尺），和群建築面積超過100,000平方英尺。指

微信小程式學習總結（三）條件、模板、檔案引用例項分析

本文例項講述了微信小程式條件、模板、檔案引用。分享給大家供大家參考，具體如下：

微信小程式學習總結（二）樣式、屬性、模板操作分析

本文例項講述了微信小程式樣式、屬性、模板操作。分享給大家供大家參考，具體如下：

微信小程式學習總結（四）事件與冒泡例項分析

本文例項講述了微信小程式學習總結（四）事件與冒泡。分享給大家供大家參考，具體如下：

微信小程式學習總結（一）專案建立與目錄結構分析

本文例項講述了微信小程式專案建立與目錄結構。分享給大家供大家參考，具體如下：

（資料科學學習手札88）基於geopandas的空間資料分析——空間計算篇（下）

本文示例程式碼及資料已上傳至我的Github倉庫https://github.com/CNFeffery/DataScienceStudyNotes

java解析XML學習總結——SAXReader解析xml檔案資料

第一種方式： 1. 加入jar包注意 1.1 xml檔案解析時編碼要一致（預設UTF-8），出現報錯可以在記事本中另存為來更改編碼格式。

python學習筆記(4)-理論：資料分析工具Pandas

python學習筆記(4)-理論：資料分析工具Pandas /*! * * Twitter Bootstrap * */ /*!

《對比Excel,輕鬆學習Python資料分析》筆記

說明本書還是一本基礎入門的書，裡面關於資料分析的思想對於初學者入門還是很有幫助的。

大資料學習總結13

一、Hadoop-Mapreduce 1. MapReduce 介紹 MapReduce思想在生活中處處可見。或多或少都曾接觸過這種思想。MapReduce的思想核心是“分而治之”，適用於大量複雜的任務處理場景（大規模資料處理場景）。

大資料學習總結14

1、MapReduce 排序和序列化序列化 (Serialization) 是指把結構化物件轉化為位元組流

前端小白的資料結構學習總結——圖

目錄什麼是圖一些概念無向圖和有向圖圖的表示方式鄰接矩陣鄰接表實現一個Graph類圖的遍歷廣度優先搜尋深度優先搜尋兩種演算法的相同點和不同點深度優先搜尋程式碼實現廣度優先搜尋程式碼實現

機器學習系列-資料分析-平行座標圖

機器學習系列-資料分析-平行座標圖目錄機器學習系列-資料分析-平行座標圖平行座標圖簡介平行座標圖的繪製iris鳶尾花資料集iris平行座標圖影象繪製結語

資料分析EDA學習總結

相關推薦