1. 程式人生 > >常用的資料格式彙總

常用的資料格式彙總

1、libsvm資料格式

 [label] [index1]:[value1] [index2]:[value2] … [label] [index1]:[value1] [index2]:[value2] …
意:訓練和測試資料的格式必須相同,都如上所示。測試資料中的目標值是為了計算誤差用。

1.1、libsvm資料格式製作

b.然後將以上資料貼上到FormatDataLibsvm.xls中的最上角單元格,接著工具->巨集->執行FormatDataToLibsvm巨集。就可以得到libsvm要求的資料格式。
libsvm使用的訓練資料和檢驗資料檔案格式如下:
label  目標值,就是說class(屬於哪一類),就是你要分類的種類,通常是一些整數。
index 是有順序的索引,通常是連續的整數。就是指特徵編號,必須按照升序排列
value 就是特徵值,用來train的資料,通常是一堆實陣列成。
即:
目標值   第一維特徵編號:第一維特徵值   第二維特徵編號:第二維特徵值 …目標值   第一維特徵編號:第一維特徵值   第二維特徵編號:第二維特徵值 …
例如:5 1:0.6875 2:0.1875 3:0.015625 4:0.109375
表示訓練用的特徵有4維,第一維是0.6875,第二維是0.1875,第三維是0.015625,第四維是0.109375  目標值是5
該過程可以自己使用excel或者編寫程式來完成,也可以使用網路上FormatDataLibsvm.xls來完成。FormatDataLibsvm.xls使用說明:a.先將資料按照下列格式存放(注意label放最後面):
value1 value2 … labelvalue1 value2 … label
c當然有可以寫程式碼進行轉換,下面有連結,可以看下具體怎麼轉換,但是目前各種語言基本都有封裝好的函式,可以直接採用。

2.列表:list

序列是Python中最基本的資料結構。序列中的每個元素都分配一個數字 - 它的位置,或索引,第一個索引是0,第二個索引是1,依此類推。
Python有6個序列的內建型別,但最常見的是列表和元組。
序列都可以進行的操作包括索引,切片,加,乘,檢查成員。
此外,Python已經內建確定序列的長度以及確定最大和最小的元素的方法。
列表是最常用的Python資料型別,它可以作為一個方括號內的逗號分隔值出現。
列表的資料項不需要具有相同的型別

2.1建立一個列表

只要把逗號分隔的不同的資料項使用方括號括起來即可。如下所示:

list1 = ['physics', 'chemistry', 1997, 2000]
list2 = [1, 2, 3, 4, 5 ]
list3 = ["a", "b", "c", "d"]

與字串的索引一樣,列表索引從0開始。列表可以進行擷取、組合等。

2.2訪問列表中的值

使用下標索引來訪問列表中的值,同樣你也可以使用方括號的形式擷取字元,如下所示:
list1 = ['physics', 'chemistry', 1997, 2000]
list2 = [1, 2, 3, 4, 5, 6, 7 ]
print "list1[0]: ", list1[0]
print "list2[1:5]: ", list2[1:5]
結果:
list1[0]:  physics

list2[1:5]:  [2, 3, 4, 5]

3.Json格式

data =[{'a':1,'b':2,'c':3,'d':4,'e':5}]
待續ing

參考連結:
1.https://www.cnblogs.com/codingmengmeng/p/6254325.html