1. 程式人生 > >PDF檔案結構

PDF檔案結構

pdf(Portable Document Format的簡稱,意為“行動式文件格式”),是由Adobe Systems用於與應用程式、作業系統、硬體無關的方式進行檔案交換所發展出的檔案格式

PDF檔案結構四個部分

  1. 檔案頭 Header
  2. 檔案體 Body
  3. 交叉引用表 Cross-reference table
  4. 檔案尾 Trailer

更新方式:採用增量更新

PDF檔案支援8種基本型別物件

  1. 布林
true和false
  1. 整數和實數
549
  1. 字串
(This is a string)  % 可見字元
<4E6F762073686D6F7A206B6120706F702E>  % 16進位制
  1. 名稱
/Type
  1. 陣列
[549 3.14false (Ralph) /SomeName]
  1. 字典
<</Type /Example

/StringItem(a string)

/Subdictionary<< /Item1 0.4

/Item2true

/LastItem(not!)

/VeryLastItem(OK)

>>
>>

  1. 流物件
stream

流資料

Endstream
  1. 空物件
以null來表示

各種物件的辨識方法

(1) 以(開頭:字串物件

(2) 以/開頭:名稱物件

(3) 以<開頭:若後面不接<,便是字串物件(見<<開頭的說明)

(4) 以<<開頭:詞典物件,若之後再接stream便是流物件

(5) 以負號開頭:後面接數字便是數字物件

(6) 以數字開頭:數字物件,整數物件必須再往後看兩個物件,才能決定是否為物件參用形式

(7) 以f開頭:若是false便是布林物件

(8) 以n開頭:若是null便是空物件

(9) 以t開頭:若是true便是布林物件

(10) 以[開頭:陣列物件

(11) 其他:不合法的物件

1、首部

%PDF-1.4 

PDF檔案格式版本號

2、檔案體

3 0 obj
<<
/Type /Pages
/Count 1
/Kids [4 0 R]
>>
endobj

物件號, 唯一標識一個物件 eg: 3
產生號, 修改次數 eg: 0
物件內容, 包含在<< 和>>之間 以關鍵字endobj結束

3、交叉引用表

用來索引各個obj 物件在文件中的位置,以實現隨機訪問

xref
0 8
0000000000 65535f
0000000009 00000n
0000000074 00000 n
0000000120 00000 n
0000000179 00000 n
0000000322 00000 n
0000000415 00000 n
0000000445 00000 n

解釋:

  1. xref:交叉引用表的開始

  2. 第一行0 8: 下面各行所描述的物件號是從0開始,並且有8個物件

  3. 0000000000 65535f:
    (1) 物件0的起始地址為0000000000,產生號(generation number)為65535
    (2) 65535是最大產生號,不可以再進行更改
    (3) f:物件為free
    (4) 一般每個PDF檔案都是以這一行開始交叉應用表,其實這個物件可以看作是檔案頭

  4. 0000000009 00000n:
    (1) 表示物件1,0000000009是其偏移地址,
    (2) 00000為5位產生號(最大為65535),0表明該物件未被修改過,
    (3) n表示該物件在使用,區別與自由物件(f),可以更改。

4、尾部

Trailer
<<
/Size 8
/Root 1 0 R
>>
startxref
553
%%EOF

解釋
(1)trailer 說明檔案尾 trailer物件的開始
(2)/Size 8 說明該PDF檔案的物件數目
(3)/Root 1 0 R 說明根物件的物件號為1
(4)Startxref 553說明交叉引用表的偏移地址,從而可以找到PDF文件中所有的物件的相對地址,進而訪問物件。
(5)%%EOF 為檔案結束標誌

參考

  1. https://baike.baidu.com/item/pdf/317608
  2. PDF學習二:PDF檔案物理結構
  3. PDF文件結構說明