CRF++模型檔案格式分析
CRF++一種用c++實現條件隨機場模型的開源工具,效能好,被廣泛用於在自然語言處理中。由於其實現複雜,很難理解,下面用文字方式來表述其模型檔案的結構,希望加深對其實現方式的理解。
下面是對其模型檔案的分析:
原始訓練語料:中共中央/總書記/、/國家/主席/江澤民
訓練語料資料格式
中 B
共 M
中 M
央 E
總 B
書 M
記 E
、 S
國 B
家 E
主 B
席 E
江 S
澤 B
民 E
模型標頭檔案資訊
version: 100
cost-factor: 1
maxid: 604
xsize: 1
B
E
M
S
U00:%x[-2,0]
U01:%x[-1,0]
U02:%x[0,0]
U03:%x[1,0]
U04:%x[2,0]
U05:%x[-2,0]/%x[-1,0]
U06:%x[-1,0]/%x[0,0]
U07:%x[0,0]/%x[1,0]
U08:%x[1,0]/%x[2,0]
U09:%x[-1,0]/%x[1,0]
B
抽取出來的特徵
U00 |
U01 |
U02 |
U03 |
U04 |
U05 |
U06 |
U07 |
U08 |
U09 |
40 U00:_B-1 0 U00:_B-2 348 U00:、 116 U00:共 388 U00:國 308 U00:記 428 U00:家 548 U00:江 268 U00:書 508 U00:席 188 U00:央 80 U00:中 468 U00:主 228 U00:總 |
4 U01:_B-1 312 U01:、 84 U01:共 352 U01:國 272 U01:記 392 U01:家 512 U01:江 232 U01:書 472 U01:席 152 U01:央 552 U01:澤 44 U01:中 432 U01:主 192 U01:總 |
276 U02:、 48 U02:共 316 U02:國 236 U02:記 356 U02:家 476 U02:江 556 U02:民 196 U02:書 436 U02:席 120 U02:央 516 U02:澤 8 U02:中 396 U02:主 156 U02:總 |
560 U03:_B+1 240 U03:、 12 U03:共 280 U03:國 200 U03:記 320 U03:家 440 U03:江 520 U03:民 160 U03:書 400 U03:席 88 U03:央 480 U03:澤 52 U03:中 360 U03:主 124 U03:總 |
524 U04:_B+1 564 U04:_B+2 204 U04:、 244 U04:國 164 U04:記 284 U04:家 404 U04:江 484 U04:民 128 U04:書 364 U04:席 56 U04:央 444 U04:澤 16 U04:中 324 U04:主 92 U04:總 |
60 U05:_B-1/中 20 U05:_B-2/_B-1 368 U05:、/國 132 U05:共/中 408 U05:國/家 328 U05:記/、 448 U05:家/主 568 U05:江/澤 288 U05:書/記 528 U05:席/江 208 U05:央/總 96 U05:中/共 168 U05:中/央 488 U05:主/席 248 U05:總/書 |
24 U06:_B-1/中 332 U06:、/國 100 U06:共/中 372 U06:國/家 292 U06:記/、 412 U06:家/主 532 U06:江/澤 252 U06:書/記 492 U06:席/江 172 U06:央/總 572 U06:澤/民 64 U06:中/共 136 U06:中/央 452 U06:主/席 212 U06:總/書 |
296 U07:、/國 68 U07:共/中 336 U07:國/家 256 U07:記/、 376 U07:家/主 496 U07:江/澤 576 U07:民/_B+1 216 U07:書/記 456 U07:席/江 140 U07:央/總 536 U07:澤/民 28 U07:中/共 104 U07:中/央 416 U07:主/席 176 U07:總/書 |
580 U08:_B+1/_B+2 260 U08:、/國 32 U08:共/中 300 U08:國/家 220 U08:記/、 340 U08:家/主 460 U08:江/澤 540 U08:民/_B+1 180 U08:書/記 420 U08:席/江 108 U08:央/總 500 U08:澤/民 72 U08:中/央 380 U08:主/席 144 U08:總/書 |
36 U09:_B-1/共 344 U09:、/家 112 U09:共/央 384 U09:國/主 304 U09:記/國 424 U09:家/席 544 U09:江/民 264 U09:書/、 504 U09:席/澤 184 U09:央/書 584 U09:澤/_B+1 76 U09:中/中 148 U09:中/總 464 U09:主/江 224 U09:總/記 |
從上述的抽取出來的特徵來看,抽取的特徵跟最大熵工具包的模型檔案很類似,只是最大熵工具包需要手動抽取特徵。
概率檔案
0.1781349639479855
-0.0532539981230133
-0.0708847888213166
-0.0539961770036535
0.1781349639479855
-0.0532539981230133
-0.0708847888213166
-0.0539961770036535
0.0948219953898075
-0.1121206524367462
0.1148967505813277
-0.0975980935343863
0.1781349639479855
-0.0532539981230133
-0.0708847888213166
-0.0539961770036535
0.1781349639479855
-0.0532539981230133
-0.0708847888213166
-0.0539961770036535
0.1781349639479855
-0.0532539981230133
-0.0708847888213166
-0.0539961770036535
0.1781349639479855
-0.0532539981230133
-0.0708847888213166
-0.0539961770036535
.......
最後是很多數字,很難看懂。但是有個特徵,我們用了四字標記集,下面的概率檔案差不多按照4個數字的規律重複。
相關推薦
CRF++模型檔案格式分析
CRF++一種用c++實現條件隨機場模型的開源工具,效能好,被廣泛用於在自然語言處理中。由於其實現複雜,很難理解,下面用文字方式來表述其模型檔案的結構,希望加深對其實現方式的理解。 下面是對其模型檔案的分析: 原始訓練語料:中共中央/總書記/、/國家/主席/
ArcGIS 切片快取緊湊檔案格式分析與使用
一、分析 在ArcGIS 10中出現了一種新的切片快取檔案格式:緊湊型儲存(Compact)。與之前的鬆散型儲存(Exploded)相比,它有遷移方便、建立更快、減少儲存空間等諸多優點,已經成為了建立切片快取的預設格式。對於本身ArcGIS的產品而言,訪問緊湊型儲存與訪問鬆
Linux ELF檔案格式分析---objcopy命令的使用
本文轉自:https://blog.csdn.net/xj178926426/article/details/73777611 Linux ELF檔案格式分析—objcopy命令的使用 最近在看《程式設計師的自我修養—連結、裝載與庫》一書,對書中提到的一個小問題,自己做了
mp4(H264容器)的詳細檔案格式分析
十六進位制碼流分析:ftyp Box00 00 00 1C: size ,28,表示此BOX有28個位元組,表示長度的四個位元組也計算在內。以下同66 74 79 70: type,表示BOX TYPE,此處為ftyp6D 70 34 32: 可能是相容的格式資訊,/////mp4200 00 00 0
hadoop 1.0.4 fsimage 檔案格式分析
2013-01-08 周海漢 2013.1.8 http://abloz.com/2013/01/08/hadoop-1-0-4-fsimage-file-format.html fsimage檔案存放在NameNode中,
趣探 Mach-O:檔案格式分析
本文所讀的原始碼,可以從這裡找到,這是 Mach-O 系列的第一篇 我們的程式想要跑起來,肯定它的可執行檔案格式要被作業系統所理解,比如 ELF 是 Linux下可執行檔案的格式,PE32/PE32+是windows的可執行檔案的格式,那麼對於OS X和iOS 來說 Mach-
入門級 PDF 檔案格式分析
一、概述: 結構化的文件格式PDF(Portable Document Format)是由美國排版與影象處理軟體公司Adobe於1993年首次提出的。Adobe Reader這款pdf閱讀器軟體相信大家並不陌生,人們熟知它的原因是因為它的應用相當普及,可能接觸過計
C#BMP檔案格式分析並讀取
原文地址:https://blog.csdn.net/guanchanghui/article/details/1172092 主要是方便自己用,複製了一下,建議大家看原文 簡介 BMP(Bitmap-File)圖形檔案是Windows採用的圖形檔案格式,在Windows環
Tensorflow 模型檔案格式轉換
Tensorflow模型的graph結構可以儲存為.pb檔案或者.pbtxt檔案,或者.meta檔案,其中只有.pbtxt檔案是可讀的 網上大牛們訓練好的網路,往往會利用我上篇部落格講的方法,將模型儲存為一個統一的.pb檔案,這個檔案中不止儲存著模型網路的結構和變數名, 還
UNIX/LINUX 平臺可執行檔案格式分析
本文討論了 UNIX/LINUX 平臺下三種主要的可執行檔案格式:a.out(assembler and link editor output 彙編器和連結編輯器的輸出)、COFF(Common Object File Format 通用物件檔案格式)、ELF(Executable and Linki
wav檔案格式分析(程式碼 C++ )
下面就來分析一下wav波形檔案的格式。 我們先隨便找一個wav檔案,檢視其屬性,就能得到下面的結果。 上面主要注意檔案大小,聲音長度與位元率。 檔案佔用空間就不用關心了,如果有人想知道為什麼檔案佔用空間比檔案大小要大,我在這裡也解釋一下。這和
AMR音訊編碼器概述及檔案格式分析
全稱Adaptive Multi-Rate,自適應多速率編碼,主要用於移動裝置的音訊,壓縮比比較大,但相對其他的壓縮格式質量比較差,由於多用於人聲,通話,效果還是很不錯的。AMR-WB應用於EDGE、3G可充分體現其優勢。足夠的傳輸頻寬保證AMR-WB可採用從6.6kb/s到23.85kb/s共九種編 網
PE檔案格式分析
最近需要對檔案加殼,看到這篇文章挺好的轉載一下,原文地址http://blog.csdn.net/shitdbg/article/details/49734495 一、PE的基本概念 PE(Portable Execute)檔案是Windows下可
(轉載)bin檔案格式分析
xip 的 bin 檔案分析 一個bin 檔案在儲存上是按下面的結構儲存的 組成:標記(7)+Image開始地址(1)+Image長度(1) 記錄0地址+記錄0長+記錄0校驗和+記錄0內容(檔案內容) 記錄1地址+記錄1長+記錄1校驗和
Linux/Unix平臺可執行檔案格式分析
本文討論了 UNIX/LINUX 平臺下三種主要的可執行檔案格式:a.out(assembler and link editor output 彙編器和連結編輯器的輸出)、COFF(Common Object File Format 通用物件檔案格式)、ELF(Exe
傳奇原始碼分析-客戶端(WindHorn簡述和傳奇檔案格式分析)
DirectX類庫分析(WindHorn):1.RegHandler.cpp 登錄檔訪問(讀寫)。2.CWHApp派生CWHWindow,CWHWindow完成視窗的註冊和建立。CWHWindow派生出CWHDXGraphicWindow,CWHDXGraphicWindow呼叫CWHWindow完成建立
Shapefile檔案格式分析
Shapefile檔案是美國環境系統研究所(ESRI)所研製的GIS檔案系統格式檔案,是工業標準的向量資料檔案。 Shapefile將空間特徵表中的非拓撲幾何物件和屬性資訊儲存在資料集中,特徵表中的幾何物件存為以座標點集表示的圖形檔案—SHP檔案,Shapefile檔案並不含
RM RMVB檔案格式分析
1 RM RMVB整體結構 RM檔案格式是標準的標記符檔案格式,RM檔案格式把標記符塊組合成頭塊,資料快,索引塊,這些標記符塊的組合方法如下: .RMF頭塊 RealMedia File Header(RM 檔案頭) PROP屬性頭 Properties(
媒體檔案格式分析FMP4
媒體檔案格式分析之FMP4 號外:金山雲全線已經支援dash和HLS Fmp4直播協議,歡迎大家試用!! MP4 中最基本的單元就是Box,它內部是通過一個一個獨立的Box拼接而成的。所以,這裡,我們先從 Box 的講解開始,每個 Box 是由 Header 和
3d列印模型為什麼檔案格式必須是stl和stp的?
https://www.sohu.com/a/197115674_425589 3D列印需要有3D立體圖,3D立體圖有很多格式,不同的軟體做出來的格式是不同的。比如常見的3D列印格式有:STL、STP、IGS、OBJ、BREP、MAX、3DM、3DS、X_T、SKP、SLDPR