機器學習第二天---資料預處理和清洗

阿新 • • 發佈：2020-10-08

1.numpy.genfromtxt用於處理資料矩陣

numpy.genfromtxt(fname, dtype=<type 'float'>, comments='#', delimiter=None, skip_header=0, skip_footer=0, converters=None, missing_values=None, filling_values=None, usecols=None, names=None, excludelist=None, deletechars=None, replace_space='_', autostrip=False, case_sensitive=True, defaultfmt='f%i', unpack=None, usemask=False, loose=True, invalid_raise=True, max_rows=None)[source]¶

fname:待處理資料的檔名
delimiter:資料處理的分割方式
dtype:資料更改的型別

import numpy as np
import scipy as sp
import matplotlib.pyplot as plt
'''對網路請求資料的處理'''

#資料獲取處理操作
data=np.genfromtxt("F:\SOFT DOWNLOAD\\1400OS_Code\\1400OS_01_Codes\data\web_traffic.tsv",delimiter="\t")
print(data.shape)

(743, 2)

其結果表明此資料中包含有743個二維資料點

2.對無效值的處理

對無效值的檢測使用 numpy.isnan()

# coding:utf-8

import numpy as np
import scipy as sp
import matplotlib.pyplot as plt
'''對網路請求資料的處理'''

#資料獲取處理操作
data=np.genfromtxt("F:\SOFT DOWNLOAD\\1400OS_Code\\1400OS_01_Codes\data\web_traffic.tsv",delimiter="\t")
#採用特殊索引將獲取的二維資料進行分割
x=data[:,0]
y=data[:,1]
b=np.sum(np.isnan(x))
a 
=np.sum(np.isnan(y))
print(b,a)

其結果為0,8，表明在網頁的瀏覽資料中出現無效值

對無效值的小處理，使用的方法是在邏輯上對陣列取反，使得我們只選擇有效的網頁瀏覽資料

x=x[~np.isnan(y)]
x=y[~np.isnan(y)]

機器學習第二天---資料預處理和清洗

1.numpy.genfromtxt用於處理資料矩陣 numpy.genfromtxt(fname, dtype=<type \'float\'>, comments=\'#\', delimiter=None, skip_header=0, skip_footer=0, converters=None, missing_values=None, filling_va

動手學機器學習v2-05-資料預處理

資料預處理 1 讀取資料集判斷路徑下是否有data命名的資料夾，沒有的話，建立檔案house_tiny.csv，開啟檔案並進行寫操作

pytorch 影象中的資料預處理和批標準化例項

目前資料預處理最常見的方法就是中心化和標準化。中心化相當於修正資料的中心位置，實現方法非常簡單，就是在每個特徵維度上減去對應的均值，最後得到 0 均值的特徵。

資料預處理和特徵工程

目錄資料探勘的五大流程資料預處理(preprocessing)資料歸一化資料標準化缺失值處理處理離散型特徵和非數值型標籤處理連續型特徵二值化分箱特徵選擇(feature selection)特徵提取(feature extraction)Filter過濾法方差

機器學習：探索資料和資料預處理

機器學習之預測房價系列：機器學習之：探索資料和資料預處理探索資料是指研究資料，發現數據的結構。資料集由資料物件構成，一個數據物件代表一個實體，實體由屬性構成，屬性是一個數據欄位，表示資料物件的一個

機器學習：資料預處理之獨熱編碼（One-Hot）

前言在機器學習演算法中，我們經常會遇到分類特徵，例如：人的性別有男女，祖國有中國，美國，法國等。這些特徵值並不是連續的，而是離散的，無序的。通常我們需要對其進行特徵數字化。

08-05 細分構建機器學習應用程式的流程-資料預處理

目錄細分構建機器學習應用程式的流程-資料預處理一、1.1 缺失值處理1.1 1.1.1 刪除缺失值1.1.14.6.1.2 填充缺失值二、1.2 異常值處理三、1.3 自定義資料型別編碼四、1.4 通過sklearn對資料型別編碼五、1.5 獨熱編碼

機器學習第2篇：資料預處理（缺失值）

在真實的世界中，缺失資料是經常出現的，並可能對分析的結果造成影響。一，資料缺失的原因

Flutter學習第二天：Dart常用資料型別以及方法大總結，滿滿的乾貨，對於學過Python和java的太友好了？

技術標籤：Flutterflutterandroidandroid studio程式語言dart Dart的資料型別 Dart的常用資料型別1.num2.int、double型別3.String型別4.bool型別5.List型別1.List型別`新增資料的兩種方式`2.其他方法：3.List型

python機器學習-特徵工程與資料預處理

#字典特徵提取 def dict_dome(): data=[{\"city\":\"北京\",\"temperature\":100},{\"city\":\"上海\",\"temperature\":100},{\"city\":\"深圳\",\"temperature\":100}]

機器學習入門 04 資料探索+資料預處理

資料探索 1.統計量分析： 1.集中趨勢的度量： 1.均值、中位數、眾數 2.離散趨勢的度量：

[機器學習]-[資料預處理]-中心化縮放 KNN（二）

上次我們使用精度評估得到的成績是 61%，成績並不理想，再使 recall 和 f1 看下成績如何？

資料預處理 | 機器學習之特徵工程

作者：蘇小保（jacksu）華為工程師擅長分散式系統、大資料、機器學習。github地址：https://github.com/jacksu

python資料預處理 :樣本分佈不均的解決(過取樣和欠取樣)

何為樣本分佈不均：樣本分佈不均衡就是指樣本差異非常大，例如共1000條資料樣本的資料集中，其中佔有10條樣本分類，其特徵無論如何你和也無法實現完整特徵值的覆蓋，此時屬於嚴重的樣本分佈不均衡。

天池nlp新人賽_task2：資料預處理改進和一些思路

今天想解決下面幾個問題。 1.lightgbm cpu太慢了，我裝了gpu的版本，對比了之後發現訓練速度從10min縮短到8min。感覺很少，不知道是不是我姿勢錯誤。

[PyTorch 學習筆記] 2.3 二十二種 transforms 圖片資料預處理方法

本章程式碼：https://github.com/zhangxiann/PyTorch_Practice/blob/master/lesson2/transforms/ 這篇主要分為幾個部分介紹 transforms:

PHP中的PDO操作學習（三）預處理類及繫結資料

要說 PDO 中最強大的功能，除了為不同的資料庫提供了統一的介面之外，更重要的就是它的預處理能力，也就是 PDOStatement 所提供的功能。因為它的存在，才讓我們可以安心地去使用而不用操心 SQL 語句的拼接不好所帶來

資料預處理--缺失值判斷和處理（刪除發、插補法（均值插補、熱平臺插補））

資料預處理 1 資料集載入這裡使用mice軟體包下的nhanes2資料集進行演示，這是一個含有缺失值的小規模資料集。

判別分析--資料預處理（劃分訓練集和測試集）

資料集我們選用kknn軟體包中的miete資料集進行演算法演示，該資料集記錄了1994年慕尼黑的住房租金標準中的一些有趣變數，比如房子的面積、是否有浴室、是否有中央供暖、是否供應熱水等，這些都影響並決定著租金的高

動手學深度學習 | 資料操作+資料預處理 | 02

目錄資料操作資料操作實現資料預處理實現QA 資料操作圖片是三維的： w*h*channel

機器學習第二天---資料預處理和清洗

相關推薦