機器學習中的軟體測試

阿新 • • 發佈：2018-11-27

摘要

機器學習的實現需要使用軟體程式碼，從這一角度來說，機器學習也是軟體工程的一部分。針對軟體就會引入對軟體是否正確的檢驗，那麼在機器學習中如何進行軟體測試？相關原始碼

什麼是軟體測試

TDD-測試驅動開發
是指開發功能程式碼之前，先編寫測試程式碼，然後只編寫使測試通過的功能程式碼，從而以測試來驅動整個開發過程的進行。這有助於編寫簡潔可用和高質量的程式碼，有很高的靈活性和健壯性，能快速響應變化，並加速開發過程。
安照測試覆蓋面分白盒黑盒
安照測試階段分單元整合和整合測試

為什麼要進行軟體測試

編寫程式碼時因為個人習慣、手誤或分心等產生的問題

如===寫成==，for迴圈邊界問題
對程式語言、呼叫庫的特性不能足夠深入的瞭解
矩陣的例子

import numpy as np
arr = np.ones(12)
print(arr)
print(arr.transpose())

對演算法本身沒有足夠深入的瞭解

梯度的例子

機器學習中軟體測試的特點

總體來看，大部分機器學習模型本質上就是低穩定性和高隨機性的。主要原因在於資料計算部分（精度、溢位、計算本身的穩定性）
一般來說很難對整個測試集保證其正確或者錯誤，所以一般機器學習的測試集是用來測試根據訓練集得到的模型是否在測試集上執行良好，既符合期望。

如何進行機器學習軟體測試

白盒測試

tensorflow測試

黑盒測試

一般機器學習的測試集是用來測試根據訓練集得到的模型是否在測試集上執行良好，既符合期望。

機器學習中的測試重點

程式碼邏輯驗證

特別是自己實現的條件和分支較多的程式碼。如tensorflow程式碼測試

演算法驗證

具體演算法具體分析。基本原則是通過另一條途徑，而非原始程式碼的實現路徑來進行驗證。

結論——如何防止機器學習編碼中產生bug

編碼模組最小化

這是軟體工程中對程式碼的要求。分模組，各個模組儘量單一，簡單。儘可能的將穩定性的程式碼從總體非穩定性程式碼中分離出來

儘量使用現有成熟庫和方法，而不要自己寫程式碼

現有成熟庫和方法針對專項功能進行了深度優化，遠比重新造輪子要快得多，也穩定得多。這樣在編碼效率、演算法開銷上都會提升

進行單元測試

使用現有機器學習框架所提供的測試功能，如TensorFlow的test_util.TensorFlowTestCase類

針對具體演算法做相應的演算法驗證

梯度檢驗程式碼實現

在程式碼中使用導數公式來實現反向傳播，驗證時就根據極限法則來驗證導數公式的正確性

參考資料
- 斯坦福教程-梯度檢驗
- UFLDL教程
- 梯度檢驗
- 計算梯度的三種方法：數值法，解析法，反向傳播法
- 大規模Tensorflow網路的一些技巧
- Testing guide.
- 測試驅動開發

機器學習中的軟體測試

摘要機器學習的實現需要使用軟體程式碼，從這一角度來說，機器學習也是軟體工程的一部分。針對軟體就會引入對軟體是否正確的檢驗，那麼在機器學習中如何進行軟體測試？相關原始碼什麼是軟體測試 TDD-測試驅動開發是指開發功能程式碼之前，先編寫測試程式

機器學習中，從樣本集合分得訓練集、測試集的三種方法

一、為什麼要分開訓練集與測試集在機器學習中，我們是依靠對學習器的泛化誤差進行評估的方法來選擇學習器。具體方法如下：我們需要從訓練集資料中產出學習器，再用測試集來測試所得學習器對新樣本的判別能力，以測試集上的測試誤差作為泛化誤差的近似，來選取學習器。通常我

機器學習中訓練資料集，交叉驗證資料集，測試資料集的作用

#1. 簡介在Andrew Ng的機器學習教程裡，會將給定的資料集分為三部分：訓練資料集（training set）、交叉驗證資料集（cross validation set）、測試資料集（test set）。三者分別佔總資料集的60%、20%、20%。那麼

機器學習中資料訓練集，測試集劃分與交叉驗證的聯絡與區別（含程式）

因為一個模型僅僅重複了剛剛訓練過的樣本的標籤，這種情況下得分會很高，但是遇到沒有訓練過的樣本就無法預測了。這種情況叫做過擬合。為了避免過擬合，一個常見的做法就是在進行一個（有監督的）機器學習實驗時，保留

機器學習中訓練集和測試集歸一化-matlab

本文不是介紹如何使用matlab對資料集進行歸一化，而是通過matlab來介紹一下資料歸一化的概念。以下內容是自己的血淚史，因為歸一化的錯誤，自己的實驗過程至少走了兩個星期的彎路。由此可見機器學習中一些基礎知識和概念還是應該紮實掌握。背景介紹：

機器學習中的回歸理解

機器學習中的線性模型理解機器學習中的類別均衡問題？分為類別平衡問題和類別不平衡問題類別平衡問題：可以采用回歸類別不平衡問題：可以采用在縮放針對類別的回歸問題有線性回歸：非線性回本文出自 “簡答生活” 博客，謝絕轉載！機器學習中的回歸理解

機器學習中的範數規則化之（一）L0、L1與L2範數

[0 證明基本上復雜度所有 img 方法風險機器學習機器學習中的範數規則化之（一）L0、L1與L2範數 [email protected]/* */ http://blog.csdn.net/zouxy09 轉自：http://blog.csdn.n

專家坐堂：機器學習中對核函數的理解

wechat size 學習 blank weixin itl cti title redirect 專家坐堂：機器學習中對核函數的理解專家坐堂：機器學習中對核函數的理解

機器學習中防止過擬合方法

從數據 tro 輸出效果沒有 imagenet neu 效率公式過擬合 ??在進行數據挖掘或者機器學習模型建立的時候，因為在統計學習中，假設數據滿足獨立同分布，即當前已產生的數據可以對未來的數據進行推測與模擬，因此都是使用歷史數據建立模型，即使用已經產生的數據去訓練

關於機器學習中一般線性回歸的補充

機器學習線性回歸嶺回歸在之前的文章中，筆者給出了關於最小二乘法相關公式的整體推導過程，最小二乘法本身除了可以利用數據進行相關參數的擬合（主要是系數和偏置），而且作為分類問題中最為簡單的模型也有著重要作用，我們也可以將其稱作最為簡單的線性回歸模型（以後需要涉及到支持向量機的問題，即Supp

關於機器學習中數據降維的相關方法

機器學習降維 svd 字典學習前言在之前一些文章的討論中，通過一些例子我們可以發現（主要是關於決策樹或隨機森林的相關內容）其實並不是樣本的所有屬性可能都是那麽得重要，只要不是同等重要，特別是在分類問題上可能可以去除一些屬性或特征（一般決策樹需要進行剪枝，其實剪枝的原因就在於此）依然能夠得到較好的結果（盡

關於機器學習中LASSO回歸的相關補充

lasso回歸軟閾收縮算子 fist算法在之前的相關文章中筆者給出了一般回歸的補充，即嶺回歸和LASSO回歸，它們都是為了解決在回歸過程中的過擬合問題，其具體解決方案就分別是在目標函數後增加2範數和1範數以限定參數的表現，對於嶺回歸而言，由於2使用範數的原因，這個目標函數仍是可導的，但對於LASSO回

關於機器學習中支持向量機相關問題

機器學習支持向量機 svm 線性感知機核方法前言在機器學習中，分類問題占了很大一部分，而對於分類問題的處理有很多方法，比如決策樹、隨機森林、樸素貝葉斯、前饋神經網絡等等；而最為常見的分類需求一般是二分類問題，即將樣本分為兩個集合，然後通過學習某些參數，對新的輸入進行識別並劃分到正確的類別中。在

機器學習中的正則化

道理 lazy 算法 htbox 而且有趣的文章很難直接作者：陶輕松鏈接：https://www.zhihu.com/question/20924039/answer/131421690來源：知乎著作權歸作者所有。商業轉載請聯系作者獲得授權，非商業轉載請註明出處。

關於機器學習中的一些常用方法的補充

機器學習 k近鄰 apriori pagerank前言機器學習相關算法數量龐大，很難一一窮盡，網上有好事之人也評選了相關所謂十大算法（可能排名不分先後），它們分別是： 1. 決策樹2. 隨機森林算法3. 邏輯回歸4. 支持向量機5. 樸素貝葉斯6

Spark機器學習中ml和mllib中矩陣、向量

int reg index mac matrix 對比判斷 bsp ive 1：Spark ML與Spark MLLIB區別？ Spark MLlib是面向RDD數據抽象的編程工具類庫，現在已經逐漸不再被Spark團隊支持，逐漸轉向Spark ML庫，Spark ML是面

機器學習中如何用篩選器檢測冗余？

images 什麽 log 前三最大兩個學習方法篩選器 size 篩選器試圖在特征叢林中進行清洗，它獨立於後續使用的任何機器學習方法。它基於統計方法找出冗余或無關特征。一般來講，篩選器的工作流所圖：通過使用相關性，很容易看到特征之間的線性關系。這種關系可以用一條直

特征選取2-機器學習中，有哪些特征選擇的工程方法？

fit fun actual 原理歸一化 jpg arr 差異 highlight https://www.zhihu.com/question/28641663 作者：城東鏈接：https://www.zhihu.com/question/28641663/answer

來自仙守博友記錄的hinton教授的本科生課程CSC321-機器學習中的神經網的筆記

into dbn file int 坐標系應用 mini 以及 tle 最近一直在看仙守博友所記錄的筆記 Hinton的CSC321課程（完結，待文字潤色）： 1、lecture1-NN的簡介 2、lecture2-NN結構的主要類型的概述和感知機 3、lecture3

機器學習中特征的處理及選擇

info 連續馬氏距離屬性歐氏距離 src 缺失值最小值 IE 基礎概念特征工程是通過對原始數據的處理和加工，將原始數據屬性通過處理轉換為數據特征的過程，屬性是數據本身具有的維度，特征是數據中所呈現出來的某一種重要的特性，通常是通過屬性的計算，組合或轉換得到的。

機器學習中的軟體測試

摘要

什麼是軟體測試

為什麼要進行軟體測試

機器學習中軟體測試的特點

如何進行機器學習軟體測試

白盒測試

黑盒測試

機器學習中的測試重點

程式碼邏輯驗證

演算法驗證

結論——如何防止機器學習編碼中產生bug

編碼模組最小化

儘量使用現有成熟庫和方法，而不要自己寫程式碼

進行單元測試

針對具體演算法做相應的演算法驗證

相關推薦