PDF檔案結構
pdf(Portable Document Format的簡稱,意為“行動式文件格式”),是由Adobe Systems用於與應用程式、作業系統、硬體無關
的方式進行檔案交換所發展出的檔案格式
PDF檔案結構四個部分
- 檔案頭 Header
- 檔案體 Body
- 交叉引用表 Cross-reference table
- 檔案尾 Trailer
更新方式:採用增量更新
PDF檔案支援8種基本型別物件
- 布林
true和false
- 整數和實數
549
- 字串
(This is a string) % 可見字元 <4E6F762073686D6F7A206B6120706F702E> % 16進位制
- 名稱
/Type
- 陣列
[549 3.14false (Ralph) /SomeName]
- 字典
<</Type /Example
/StringItem(a string)
/Subdictionary<< /Item1 0.4
/Item2true
/LastItem(not!)
/VeryLastItem(OK)
>>
>>
- 流物件
stream
流資料
Endstream
- 空物件
以null來表示
各種物件的辨識方法
(1) 以(開頭:字串物件
(2) 以/開頭:名稱物件
(3) 以<開頭:若後面不接<,便是字串物件(見<<開頭的說明)
(4) 以<<開頭:詞典物件,若之後再接stream便是流物件
(5) 以負號開頭:後面接數字便是數字物件
(6) 以數字開頭:數字物件,整數物件必須再往後看兩個物件,才能決定是否為物件參用形式
(7) 以f開頭:若是false便是布林物件
(8) 以n開頭:若是null便是空物件
(9) 以t開頭:若是true便是布林物件
(10) 以[開頭:陣列物件
(11) 其他:不合法的物件
1、首部
%PDF-1.4
PDF檔案格式版本號
2、檔案體
3 0 obj
<<
/Type /Pages
/Count 1
/Kids [4 0 R]
>>
endobj
物件號, 唯一標識一個物件 eg: 3
產生號, 修改次數 eg: 0
物件內容, 包含在<< 和>>之間 以關鍵字endobj結束
3、交叉引用表
用來索引各個obj 物件在文件中的位置,以實現隨機訪問
xref
0 8
0000000000 65535f
0000000009 00000n
0000000074 00000 n
0000000120 00000 n
0000000179 00000 n
0000000322 00000 n
0000000415 00000 n
0000000445 00000 n
解釋:
-
xref:交叉引用表的開始
-
第一行0 8: 下面各行所描述的物件號是從0開始,並且有8個物件
-
0000000000 65535f:
(1) 物件0的起始地址為0000000000,產生號(generation number)為65535
(2) 65535是最大產生號,不可以再進行更改
(3) f:物件為free
(4) 一般每個PDF檔案都是以這一行開始交叉應用表,其實這個物件可以看作是檔案頭 -
0000000009 00000n:
(1) 表示物件1,0000000009是其偏移地址,
(2) 00000為5位產生號(最大為65535),0表明該物件未被修改過,
(3) n表示該物件在使用,區別與自由物件(f),可以更改。
4、尾部
Trailer
<<
/Size 8
/Root 1 0 R
>>
startxref
553
%%EOF
解釋
(1)trailer 說明檔案尾 trailer物件的開始
(2)/Size 8 說明該PDF檔案的物件數目
(3)/Root 1 0 R 說明根物件的物件號為1
(4)Startxref 553說明交叉引用表的偏移地址,從而可以找到PDF文件中所有的物件的相對地址,進而訪問物件。
(5)%%EOF 為檔案結束標誌
參考