1. 程式人生 > 實用技巧 >資料分析EDA學習總結

資料分析EDA學習總結

探索性資料分析(Exploratory Data Analysis,EDA):是一種探索資料的結構和規律的一種資料分析方法。

其主要的工作包含:

1 對資料進行清洗,
2 對資料進行描述(描述統計量,圖表),
3 檢視資料的分佈,
4 比較資料之間的關係,
5 培養對資料的直覺和對資料進行總結

EDA可以幫助我們找到適合的資料模型,本文針對文字資料,將進行具體的資料探索性分析講解

資料:https://tianchi.aliyun.com/competition/entrance/531810/information

資料為新聞文字,並按照字元級別進行匿名處理。

整合劃分出14個候選分類類別:財經、彩票、房產、股票、家居、教育、科技、社會、時尚、時政、體育、星座、遊戲、娛樂的文字資料

資料由以下幾個部分構成:訓練集20w條樣本,測試集A包括5w條樣本,測試集B包括5w條樣本

資料集中標籤的對應的關係如下:

{'科技': 0, '股票': 1, '體育': 2, '娛樂': 3, '時政': 4, '社會': 5, '教育': 6, '財經': 7, '家居': 8, '遊戲': 9, '房產': 10, '時尚': 11, '彩票': 12, '星座': 13}

1.匯入模組

#匯入所需的模組
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.model_selection import
train_test_split import seaborn as sns import scipy from collections import Counter

2.匯入資料

#匯入資料

df_train = pd.read_csv('F:\\python\\EDA\\train_set\\train_set.csv', sep='\t')
df_test = pd.read_csv('F:\\python\\EDA\\test_a\\test_a.csv', sep='\t')

3.1簡單檢視資料

#簡單檢視資料
df_train.head(),len(df_train)

看看text裡面的內容是什麼

len(df_train['text'][0])  #5120
type(df_train['text'][0])  #str

3.2長度分佈

3.2.1describ