資料分析EDA學習總結
阿新 • • 發佈:2020-08-03
探索性資料分析(Exploratory Data Analysis,EDA):是一種探索資料的結構和規律的一種資料分析方法。
其主要的工作包含:
1 對資料進行清洗, 2 對資料進行描述(描述統計量,圖表), 3 檢視資料的分佈, 4 比較資料之間的關係, 5 培養對資料的直覺和對資料進行總結
EDA可以幫助我們找到適合的資料模型,本文針對文字資料,將進行具體的資料探索性分析講解
資料:https://tianchi.aliyun.com/competition/entrance/531810/information
資料為新聞文字,並按照字元級別進行匿名處理。
整合劃分出14個候選分類類別:財經、彩票、房產、股票、家居、教育、科技、社會、時尚、時政、體育、星座、遊戲、娛樂的文字資料
資料由以下幾個部分構成:訓練集20w條樣本,測試集A包括5w條樣本,測試集B包括5w條樣本
資料集中標籤的對應的關係如下:
{'科技': 0, '股票': 1, '體育': 2, '娛樂': 3, '時政': 4, '社會': 5, '教育': 6, '財經': 7, '家居': 8, '遊戲': 9, '房產': 10, '時尚': 11, '彩票': 12, '星座': 13}
1.匯入模組
#匯入所需的模組 import numpy as np import pandas as pd import matplotlib.pyplot as plt from sklearn.model_selection importtrain_test_split import seaborn as sns import scipy from collections import Counter
2.匯入資料
#匯入資料 df_train = pd.read_csv('F:\\python\\EDA\\train_set\\train_set.csv', sep='\t') df_test = pd.read_csv('F:\\python\\EDA\\test_a\\test_a.csv', sep='\t')
3.1簡單檢視資料
#簡單檢視資料 df_train.head(),len(df_train)
看看text裡面的內容是什麼
len(df_train['text'][0]) #5120 type(df_train['text'][0]) #str
3.2長度分佈
3.2.1describ