1. 程式人生 > >CRF++模型檔案格式分析

CRF++模型檔案格式分析

        CRF++一種用c++實現條件隨機場模型的開源工具,效能好,被廣泛用於在自然語言處理中。由於其實現複雜,很難理解,下面用文字方式來表述其模型檔案的結構,希望加深對其實現方式的理解。

下面是對其模型檔案的分析:

原始訓練語料:中共中央/總書記/、/國家/主席/江澤民

訓練語料資料格式

中 B

共 M

中 M

央 E

總 B

書 M

記 E

、 S

國 B

家 E

主 B

席 E

江 S

澤 B

民 E

模型標頭檔案資訊

version: 100

cost-factor: 1

maxid: 604

xsize: 1

B

E

M

S

U00:%x[-2,0]

U01:%x[-1,0]

U02:%x[0,0]

U03:%x[1,0]

U04:%x[2,0]

U05:%x[-2,0]/%x[-1,0]

U06:%x[-1,0]/%x[0,0]

U07:%x[0,0]/%x[1,0]

U08:%x[1,0]/%x[2,0]

U09:%x[-1,0]/%x[1,0]

B

抽取出來的特徵

U00

U01

U02

U03

U04

U05

U06

U07

U08

U09

40 U00:_B-1

0 U00:_B-2

348 U00:

116 U00:

388 U00:

308 U00:

428 U00:

548 U00:

268 U00:

508 U00:

188 U00:

80 U00:

468 U00:

228 U00:

4 U01:_B-1

312 U01:

84 U01:

352 U01:

272 U01:

392 U01:

512 U01:

232 U01:

472 U01:

152 U01:

552 U01:

44 U01:

432 U01:

192 U01:

276 U02:

48 U02:

316 U02:

236 U02:

356 U02:

476 U02:

556 U02:

196 U02:

436 U02:

120 U02:

516 U02:

8 U02:

396 U02:

156 U02:

560 U03:_B+1

240 U03:

12 U03:

280 U03:

200 U03:

320 U03:

440 U03:

520 U03:

160 U03:

400 U03:

88 U03:

480 U03:

52 U03:

360 U03:

124 U03:

524 U04:_B+1

564 U04:_B+2

204 U04:

244 U04:

164 U04:

284 U04:

404 U04:

484 U04:

128 U04:

364 U04:

56 U04:

444 U04:

16 U04:

324 U04:

92 U04:

60 U05:_B-1/

20 U05:_B-2/_B-1

368 U05:/

132 U05:/

408 U05:/

328 U05:/

448 U05:/

568 U05:/

288 U05:/

528 U05:/

208 U05:/

96 U05:/

168 U05:/

488 U05:/

248 U05:/

24 U06:_B-1/

332 U06:/

100 U06:/

372 U06:/

292 U06:/

412 U06:/

532 U06:/

252 U06:/

492 U06:/

172 U06:/

572 U06:/

64 U06:/

136 U06:/

452 U06:/

212 U06:/

296 U07:/

68 U07:/

336 U07:/

256 U07:/

376 U07:/

496 U07:/

576 U07:/_B+1

216 U07:/

456 U07:/

140 U07:/

536 U07:/

28 U07:/

104 U07:/

416 U07:/

176 U07:/

580 U08:_B+1/_B+2

260 U08:/

32 U08:/

300 U08:/

220 U08:/

340 U08:/

460 U08:/

540 U08:/_B+1

180 U08:/

420 U08:/

108 U08:/

500 U08:/

72 U08:/

380 U08:/

144 U08:/

36 U09:_B-1/

344 U09:/

112 U09:/

384 U09:/

304 U09:/

424 U09:/

544 U09:/

264 U09:/

504 U09:/

184 U09:/

584 U09:/_B+1

76 U09:/

148 U09:/

464 U09:/

224 U09:/

           從上述的抽取出來的特徵來看,抽取的特徵跟最大熵工具包的模型檔案很類似,只是最大熵工具包需要手動抽取特徵。

概率檔案

0.1781349639479855
-0.0532539981230133
-0.0708847888213166
-0.0539961770036535
0.1781349639479855
-0.0532539981230133
-0.0708847888213166
-0.0539961770036535
0.0948219953898075
-0.1121206524367462
0.1148967505813277
-0.0975980935343863
0.1781349639479855
-0.0532539981230133
-0.0708847888213166
-0.0539961770036535
0.1781349639479855
-0.0532539981230133
-0.0708847888213166
-0.0539961770036535
0.1781349639479855
-0.0532539981230133
-0.0708847888213166
-0.0539961770036535
0.1781349639479855
-0.0532539981230133
-0.0708847888213166
-0.0539961770036535

               .......

          最後是很多數字,很難看懂。但是有個特徵,我們用了四字標記集,下面的概率檔案差不多按照4個數字的規律重複。


相關推薦

CRF++模型檔案格式分析

        CRF++一種用c++實現條件隨機場模型的開源工具,效能好,被廣泛用於在自然語言處理中。由於其實現複雜,很難理解,下面用文字方式來表述其模型檔案的結構,希望加深對其實現方式的理解。 下面是對其模型檔案的分析: 原始訓練語料:中共中央/總書記/、/國家/主席/

ArcGIS 切片快取緊湊檔案格式分析與使用

一、分析 在ArcGIS 10中出現了一種新的切片快取檔案格式:緊湊型儲存(Compact)。與之前的鬆散型儲存(Exploded)相比,它有遷移方便、建立更快、減少儲存空間等諸多優點,已經成為了建立切片快取的預設格式。對於本身ArcGIS的產品而言,訪問緊湊型儲存與訪問鬆

Linux ELF檔案格式分析---objcopy命令的使用

本文轉自:https://blog.csdn.net/xj178926426/article/details/73777611  Linux ELF檔案格式分析—objcopy命令的使用 最近在看《程式設計師的自我修養—連結、裝載與庫》一書,對書中提到的一個小問題,自己做了

mp4(H264容器)的詳細檔案格式分析

十六進位制碼流分析:ftyp Box00 00 00 1C:  size ,28,表示此BOX有28個位元組,表示長度的四個位元組也計算在內。以下同66 74 79 70:  type,表示BOX TYPE,此處為ftyp6D 70 34 32:  可能是相容的格式資訊,/////mp4200 00 00 0

hadoop 1.0.4 fsimage 檔案格式分析

2013-01-08 周海漢 2013.1.8 http://abloz.com/2013/01/08/hadoop-1-0-4-fsimage-file-format.html fsimage檔案存放在NameNode中,

趣探 Mach-O:檔案格式分析

本文所讀的原始碼,可以從這裡找到,這是 Mach-O 系列的第一篇 我們的程式想要跑起來,肯定它的可執行檔案格式要被作業系統所理解,比如 ELF 是 Linux下可執行檔案的格式,PE32/PE32+是windows的可執行檔案的格式,那麼對於OS X和iOS 來說 Mach-

入門級 PDF 檔案格式分析

一、概述:     結構化的文件格式PDF(Portable Document Format)是由美國排版與影象處理軟體公司Adobe於1993年首次提出的。Adobe Reader這款pdf閱讀器軟體相信大家並不陌生,人們熟知它的原因是因為它的應用相當普及,可能接觸過計

C#BMP檔案格式分析並讀取

原文地址:https://blog.csdn.net/guanchanghui/article/details/1172092 主要是方便自己用,複製了一下,建議大家看原文 簡介 BMP(Bitmap-File)圖形檔案是Windows採用的圖形檔案格式,在Windows環

Tensorflow 模型檔案格式轉換

Tensorflow模型的graph結構可以儲存為.pb檔案或者.pbtxt檔案,或者.meta檔案,其中只有.pbtxt檔案是可讀的 網上大牛們訓練好的網路,往往會利用我上篇部落格講的方法,將模型儲存為一個統一的.pb檔案,這個檔案中不止儲存著模型網路的結構和變數名, 還

UNIX/LINUX 平臺可執行檔案格式分析

    本文討論了 UNIX/LINUX 平臺下三種主要的可執行檔案格式:a.out(assembler and link editor output 彙編器和連結編輯器的輸出)、COFF(Common Object File Format 通用物件檔案格式)、ELF(Executable and Linki

wav檔案格式分析(程式碼 C++ )

下面就來分析一下wav波形檔案的格式。   我們先隨便找一個wav檔案,檢視其屬性,就能得到下面的結果。            上面主要注意檔案大小,聲音長度與位元率。   檔案佔用空間就不用關心了,如果有人想知道為什麼檔案佔用空間比檔案大小要大,我在這裡也解釋一下。這和

AMR音訊編碼器概述及檔案格式分析

全稱Adaptive Multi-Rate,自適應多速率編碼,主要用於移動裝置的音訊,壓縮比比較大,但相對其他的壓縮格式質量比較差,由於多用於人聲,通話,效果還是很不錯的。AMR-WB應用於EDGE、3G可充分體現其優勢。足夠的傳輸頻寬保證AMR-WB可採用從6.6kb/s到23.85kb/s共九種編 網

PE檔案格式分析

最近需要對檔案加殼,看到這篇文章挺好的轉載一下,原文地址http://blog.csdn.net/shitdbg/article/details/49734495 一、PE的基本概念     PE(Portable Execute)檔案是Windows下可

(轉載)bin檔案格式分析

xip 的 bin 檔案分析     一個bin 檔案在儲存上是按下面的結構儲存的      組成:標記(7)+Image開始地址(1)+Image長度(1)            記錄0地址+記錄0長+記錄0校驗和+記錄0內容(檔案內容)         記錄1地址+記錄1長+記錄1校驗和

Linux/Unix平臺可執行檔案格式分析

本文討論了 UNIX/LINUX 平臺下三種主要的可執行檔案格式:a.out(assembler and link editor output 彙編器和連結編輯器的輸出)、COFF(Common Object File Format 通用物件檔案格式)、ELF(Exe

傳奇原始碼分析-客戶端(WindHorn簡述和傳奇檔案格式分析)

DirectX類庫分析(WindHorn):1.RegHandler.cpp 登錄檔訪問(讀寫)。2.CWHApp派生CWHWindow,CWHWindow完成視窗的註冊和建立。CWHWindow派生出CWHDXGraphicWindow,CWHDXGraphicWindow呼叫CWHWindow完成建立

Shapefile檔案格式分析

Shapefile檔案是美國環境系統研究所(ESRI)所研製的GIS檔案系統格式檔案,是工業標準的向量資料檔案。 Shapefile將空間特徵表中的非拓撲幾何物件和屬性資訊儲存在資料集中,特徵表中的幾何物件存為以座標點集表示的圖形檔案—SHP檔案,Shapefile檔案並不含

RM RMVB檔案格式分析

1 RM RMVB整體結構 RM檔案格式是標準的標記符檔案格式,RM檔案格式把標記符塊組合成頭塊,資料快,索引塊,這些標記符塊的組合方法如下: .RMF頭塊 RealMedia File Header(RM 檔案頭) PROP屬性頭 Properties(

媒體檔案格式分析FMP4

媒體檔案格式分析之FMP4 號外:金山雲全線已經支援dash和HLS Fmp4直播協議,歡迎大家試用!! MP4 中最基本的單元就是Box,它內部是通過一個一個獨立的Box拼接而成的。所以,這裡,我們先從 Box 的講解開始,每個 Box 是由 Header 和

3d列印模型為什麼檔案格式必須是stl和stp的?

https://www.sohu.com/a/197115674_425589   3D列印需要有3D立體圖,3D立體圖有很多格式,不同的軟體做出來的格式是不同的。比如常見的3D列印格式有:STL、STP、IGS、OBJ、BREP、MAX、3DM、3DS、X_T、SKP、SLDPR