大資料測試資料構造工具

阿新 • • 發佈：2019-01-15

在效能測試中，我們經常會涉及到測試資料，對於測試資料我們可以為兩種：一種是執行測試用例中使用的測試資料；另一種是在大資料量下測試時需要的測試基礎資料。兩者的主要區別是在於是否會在測試中直接用於測試執行。測試基礎資料可以轉化為測試資料。在這裡主要說明測試基礎資料。

一個系統經常會規劃多年的業務規模，並對其效能提出要求。在測試設計時就需要測試在系統運行了多年時的效能，此時資料庫中會有大量的歷史資料，我們在測試時需要首先構造這些歷史資料，我們稱之為基礎資料，這種情況的測試稱為大資料量測試。由於構造資料的量級不同，我們會考慮採用不同的構造資料的方法。

常用構造基礎資料的方法有：

1、使用自動化測試工具；

2、使用專用的測試資料產生工具；

3、使用資料庫指令碼語言直編寫儲存過程等產生；

4、使用其他的輔助工具產生；

下面講解一下各種資料產生方法的優缺點。

1、使用自動化測試工具；

使用自動化測試工具如QTP、WinRunner、Robot等錄製指令碼，引數化需要構造的業務資料，然後執行指令碼，通過反覆執行業務場景在後臺數據庫中產生業務資料。
該方法的使用場合：不熟悉後臺資料庫結構，業務資料量需求不是很大。
優點：測試指令碼錄製一遍，可以反覆執行。
缺點：引數化資料，需要對業務規則或資料庫表有一定了解，否則會導致執行失敗。

2、使用專用的測試資料產生工具；

常用的資料構造資料有Quest公司的DataFactory、開源DBMonster。

DataFactory是一種快速的、易於產生測試資料工具，它能建模複雜資料關係，且有帶有GUI介面。DataFactory是一個功能強大的資料產生器，它允許測試人員毫不費力地產生百萬行有意義的測試資料。在使用中首先讀取資料庫中表的schema，即表的定義之類的內容，以列表的形式顯示；然後由使用者定製要產生資料的具體內容，如數字範圍、字串長度、要產生資料記錄的個數等等，最後執行工程，生成資料。

DBMonster ( http://dbmonster.kernelpanic.pl)是一個Java的開源專案，通過JDBC方式連線資料庫，因此可以在任何支援Java和JDBC的平臺上執行。DBMonster開發的原意是為資料庫開發者服務，可以協助產生大量的規則或不規則資料，便於資料庫開發者基於這些資料進行資料庫的調優。DBMonster通過兩個XML檔案（配置檔案和schema檔案）控制資料產生的行為，配置檔案指明需要連線的資料庫、連線使用的使用者名稱和口令、需要操作的sheme、重試次數等全域性設定，而scheme檔案則指明針對每張資料表的每個欄位產生資料的規則。

3、使用資料庫指令碼語言直編寫儲存過程等產生；

要利用該方法構造基礎資料，需要對後臺資料庫的表結構有一定的瞭解，例如表之間的關聯關係、表的自增長主鍵如何實現的、表中的特殊欄位的程式碼如何產生等。在熟悉表結構的基礎上編寫儲存過程。對於複雜業務系統其資料庫結構往往也相當複雜，可編寫多個儲存過程去分別產生各個表中的資料，然後由一個總的儲存過程控制產生資料的規則和數量等。
該方法的適用場合：對資料庫表結構非常熟悉，並且熟悉相應的儲存過程編寫。
優點：在資料庫後臺執行，效率非常高。
缺點：需要花大量的時間熟悉表結構和儲存過程的除錯。

4、使用其他輔助工具

使用PowerDesigner工具。

首先從資料庫中ReverseEngineering出來資料庫的Schema，然後設定測試資料所需要的Profile，以及各個表所需要的測試資料量，再生成Insert指令碼，最後通過資料庫的命令列程式執行這個SQL指令碼將資料Insert到資料庫中。對於不同的資料庫命令列程式不同，比如對MSSQL Server是osql,對Sybase ASE是isql，對Oracle是sqlplus等。

該方法的使用場合：對資料庫結構不熟悉，同時需要產生大量業務資料（如千萬級）。
優點是：做了相應設定之後，Insert指令碼自動生成，產生資料時不需要有業務資料。
缺點是：對於千萬級的測試資料可能要分成若干個SQL指令碼，分別產生，並行執行。對Oracle之類的資料庫尤其要考慮時間日期以及時間戳型別的欄位的值得處理問題。

使用PL/SQL Developer工具

在該工具中【Tools】選單欄下有【DataGenerator】選單，利用該工具可以針對具體的表構造利用其構造規則，設定需要產生的資料。

TOAD工具：

TOAD工具與PL/SQLDeveloper工具類似，也是資料庫客戶端管理工具。TOAD套件中集成了資料生成測試工具和壓力測試工具。資料生成測試工具有助於開發人員快速生成大量有實際意義且引用關係正確的測試資料，簡化應用的測試過程。

使用Informatica工具：

Informatica是資料探勘工具。可利用該工具構造海量資料。在現有的業務資料的基礎上，使用Informatica工具，將現有的業務資料（平面檔案資料或資料庫表中的資料）多次重複裝載到資料庫中，可以快速構造出千萬級的大資料量資料，且生成的大資料量資料在質量和可用性方面有保障。

優點：生成速度很快。

缺點：使用這種方法資料庫相應的表中必須有相應的資料，且資料重複利用時也要考慮欄位值重複問題。

大資料測試資料構造工具

大資料測試資料構造工具

多組測試資料求最大值

5個常用的大資料視覺化分析工具，你知道嗎？

ASP.NET MVC + EF 利用儲存過程讀取大資料，1億資料測試很OK

55 個實用的大資料視覺化分析工具

測試技能：在oracle中自用儲存過程進行測試資料構造

大資料視覺化應用工具，主要有哪幾種？

大資料測試（開源優測）

spark 大資料搜狗測試資料SogouQ1.txt檔案格式問題說明

7.開發和測試資料集多大合適翻譯自吳恩達新書-Machine Learning Yearning

大資料平臺常見開源工具集錦(強烈推薦收藏)

大資料領域兩大最主流叢集管理工具Ambari和Cloudera Manger

大資料探勘分析工具集

使用Logstash + Elasticsearch作為大資料索引、分析工具

海量資料測試，利用資料庫查詢拷貝快速構造測試資料

大資料分析處理必備工具

大資料分析常用的工具有哪些（二）

大資料分析常用的工具有哪些（一）

大資料測試考題

大資料常用的軟體工具有哪些？

大資料測試資料構造工具

相關推薦