資料讀取與資料分析

阿新 • • 發佈：2020-07-23

一、資料讀取

import pandas as pd
train_df = pd.read_csv('../input/train_set.csv', sep='\t', nrows=100)

　　

二、資料分析

1、長度分析

%pylab inline
train_df['text_len'] = train_df['text'].apply(lambda x: len(x.split(' ')))
print(train_df['text_len'].describe())

result：

2、字元分佈統計

from collections import Counter
all_lines = ' '.join(list(train_df['text']))
word_count = Counter(all_lines.split(" "))
word_count = sorted(word_count.items(), key=lambda d:d[1], reverse = True)

print(len(word_count))
# 6869

print(word_count[0])
# ('3750', 7482224)

print(word_count[-1])
# ('3133', 1)

train_df['text_unique'] = train_df['text'].apply(lambda x: ' '.join(list(set(x.split(' ')))))
all_lines = ' '.join(list(train_df['text_unique']))
word_count = Counter(all_lines.split(" "))
word_count = sorted(word_count.items(), key=lambda d:int(d[1]), reverse = True)

print(word_count[0])
# ('3750', 197997)

print(word_count[1])
# ('900', 197653)

print(word_count[2])
# ('648', 191975)

　三、資料分析的結論

　　通過上述分析我們可以得出以下結論：

賽題中每個新聞包含的字元個數平均為1000個，還有一些新聞字元較長；
賽題中新聞類別分佈不均勻，科技類新聞樣本量接近4w，星座類新聞樣本量不到1k；
賽題總共包括7000-8000個字元；

　　通過資料分析，我們還可以得出以下結論：

每個新聞平均字元個數較多，可能需要截斷；
由於類別不均衡，會嚴重影響模型的精度；

四、結論

待更新。。。

　

資料讀取與資料分析

一、資料讀取 import pandas as pd train_df = pd.read_csv(\'../input/train_set.csv\', sep=\'\\t\', nrows=100)

NLP-資料讀取與資料分析

Task2 資料讀取與資料分析一、資料讀取 1 import pandas as pd 2 train_df = pd.read_csv(\'./train_set.csv\', sep=\'\\t\')

讀書筆記：《資料結構與演算法分析Java語言描述》

目錄第 3 章表、棧和佇列3.2 表 ADT3.2.1 表的簡單陣列實現3.2.2 簡單鏈表3.3 Java Collections API 中的表3.3.1 Collection 介面3.3.2 Iterator 介面3.3.3 List介面、ArrayList 類和 LinkedList 類3.3.5 關於 List

貪心演算法之哈夫曼編碼（基於榮政版資料結構與演算法分析）

特別注意一下哈夫曼編碼≠哈夫曼樹，相反，哈夫曼編碼裡面的不等長編碼的構造使用的就是哈夫曼樹

《資料結構與演算法分析》之氣泡排序

技術標籤：演算法談跟風工作中有壓力很正常，應對壓力的辦法也有很多。有的人選擇積極應對，有的人選擇良木而棲，都很正常。

python資料結構與演算法分析【筆記】week1&2

技術標籤：資料結構與演算法python版筆記資料結構演算法python 目錄說明第一章定義類

資料治理與資料分析的關係

分析與治理雙管齊下大資料就像一座漂浮在海洋中的冰山，第一眼只能看到冰山的一角，絕大部分都隱藏在表面之下。分析是讓大家明確冰山裸露在外的外殼、根據漂流走向預測未來的軌跡路線，而治理就是將隱藏在冰山之下東

深入核心：DUMP Block的資料讀取與髒資料寫入影響

張樂奕雲和恩墨副總經理 Oracle ACE 總監 ITPUB Oracle資料庫管理版版主、Oracle高可用版版主、ACOUG聯合創始人

Python信貸資料處理與初步分析（ZIP解壓）

#!/usr/bin/python # coding=utf-8 \'\'\' @author: lenovo @software: 3.6 PyCharm @file: 8W信貸資料處理.py

一、資料結構與演算法分析（Java）

1.1 什麼是資料結構官方解釋：資料結構是一門研究非數值計算的程式設計問題中的操作物件，以及他們之間的關係和操作等相關問題的學科。

Pytorch 資料載入與資料預處理方式

資料載入分為載入torchvision.datasets中的資料集以及載入自己使用的資料集兩種情況。

Scrapy之資料解析與資料持久化儲存

JS反混淆：將js混淆的密文以原文的形式展示。推薦的解密網址：http://www.bm8.com.cn/jsConfusion/需要通過python呼叫js的相關程式碼：

elasticsearch 資料認識與資料表\文件的增刪改查

【Elasticsearch 7.8.1】當前版本新建 mingduhui 的資料庫 \\ 檢索庫向其中新增表操作如下

[C#.NET 拾遺補漏]09：資料標註與資料校驗

資料標註（Data Annotation）是類或類成員新增上下文資訊的一種方式，在 C# 通常用特性（Attribute）類來描述。它的用途主要可以分為下面這三類：

c# 資料標註與資料校驗

資料標註（Data Annotation）是類或類成員新增上下文資訊的一種方式，在 C# 通常用特性（Attribute）類來描述。它的用途主要可以分為下面這三類：

Redis基礎（一）資料結構與資料型別

Redis資料結構 Redis一共有六種資料結構，分別是簡單動態字串、連結串列、字典、跳錶、整數集合、壓縮列表。

C++面向物件總結——資料抽象與資料封裝

引言從抽象起就算是正式接觸模組化程式設計了。抽象的定義抽象是指在程式中只向外界提供關鍵資訊，而隱藏後臺的實現細節，即只表現必要的資訊而不呈現細節。

一文帶你走進js-資料型別與資料結構的世界

目錄1. 什麼叫動態型別2. 資料型別2.1 原始型別（6 種原始型別，使用 typeof 運算子檢查）2.2 null 與 Object3. 原始值3.1 原始值基本概念3.2 各型別說明1. 什麼叫動態型別

【資料科學】什麼是資料科學家與資料科學

僅僅在幾年前，資料科學家還不是一個正式確定的職業，然而一眨眼的工夫，這個職業就已經被譽為“今後十年IT行業最重要的人才”了。

[轉載]資料湖與資料倉庫的新未來：阿里提出湖倉一體架構

作者：關濤、李睿博、孫莉莉、張良模、賈揚清（from 阿里雲智慧計算平臺) 黃波、金玉梅、於茜、劉子正（from 新浪微博機器學習研發部)