PHP Tokenizer 學習筆記

阿新 • • 發佈：2018-12-23

簡述

在某個專案中需要分析 PHP 程式碼，分離出對應的函式呼叫（以及原始碼對應的位置）。雖然這使用正則也可以實現，但無論從效率還是程式碼複雜度方面考慮，這都不是最優的方式。

查詢了 PHP 手冊，發現其實 PHP 已經內建解析器的介面，那就是 PHP Tokenizer ，這工具正是我想要的。使用 PHP Tokenizer 能簡單、高效、準確的分析出 PHP 原始碼的組成。

例項

官方站點對 Tokenizer 的文件很少，不過這不影響我們理解它。Tokenizer 元件僅僅包含兩個函式： token_get_all 以及token_name ，它們分別用於分析 PHP 程式碼以及獲取程式碼對應的識別符號名稱。

下面是個簡單的例項，說明如何使用這兩個函式：

$code = '<?php echo "string1"."string2"; ?>';
$tokens = token_get_all($code);
foreach ($tokens as $token) {
    if (is_array($token)) {
        // 行號、識別符號字面量、對應內容
        printf("%d - %s\t%s\n", $token[2], token_name($token[0]), $token[1]);
    }
}

對應的輸出為

1 - T_OPEN_TAG    <?php 
1 - T_ECHO    echo
1 - T_WHITESPACE     
1 - T_CONSTANT_ENCAPSED_STRING    "string1"
1 - T_CONSTANT_ENCAPSED_STRING    "string2"
1 - T_WHITESPACE     
1 - T_CLOSE_TAG    ?>

這裡順便說明下，$token 如果為陣列，那麼分別對應的三個陣列成員為 token 識別符號（可以用 token_name 獲得字面量）、對應的原始碼內容、以及對應的行號。

還有中情況就是 $token 為字串，這可能的情況之一就是為 T_CONSTANT_ENCAPSED_STRING 等常量，在分析程式碼時要注意。如果對這點很在意，可以考慮使用這裡的程式碼。

是的，呼叫方式非常的簡單，我們的野心當然遠遠要比寫個簡單的迴圈要大得多。我們可以利用這個元件做寫實事，例如下面的程式碼用於「壓縮」 PHP 程式碼，去除不不要的換行、空白以及註釋

/**
 * 「壓縮」PHP 原始碼
 *
 * @see http://c7y.phparch.com/c/entry/1/art,practical_uses_tokenizer
 */
class CompactCode
{
    static protected $out;
    static protected $tokens;

    static public function compact($source)
    {
        // 解析 PHP 原始碼
        self::$tokens = token_get_all($source);   
        self::$out = '';

        reset(self::$tokens);

        // 遞迴判斷每個標記符的型別
        while ($t = current(self::$tokens)) {
            if (is_array($t)) {
                // 過濾空白、註釋
                if ($t[0] == T_WHITESPACE || $t[0] == T_DOC_COMMENT || $t[0] == T_COMMENT) {
                    self::skipWhiteAndComments();
                    continue;
                }       
                self::$out .= $t[1];
            } else {
                self::$out .= $t;
            }

            next(self::$tokens);
        }

        return self::$out;
    }

    static private function skipWhiteAndComments()
    {
        // 增加個空格，用於分割關鍵字
        self::$out .= ' ';
        while ($t = current(self::$tokens)) {
            // 再次貪婪查詢
            if (is_array($t) && ($t[0] == T_WHITESPACE || $t[0] == T_DOC_COMMENT || $t[0] == T_COMMENT)) {
                next(self::$tokens);
            } else {
                return;
            }
        }
    }
}

呼叫方式很簡單，只需要使用

CompactCode::compact($source_code);

即可，返回的字串就是壓縮以後的內容。

PHP Tokenizer 學習筆記

簡述在某個專案中需要分析 PHP 程式碼，分離出對應的函式呼叫（以及原始碼對應的位置）。雖然這使用正則也可以實現，但無論從效率還是程式碼複雜度方面考慮，這都不是最優的方式。查詢了 PHP 手冊，發現其實 PHP 已經內建解析器的介面，那就是 PHP Tokeni

php yii 學習筆記

code https lease nbsp utf8 down title 應用 nload yii 歸檔安裝 1,下載 yii Yii2的高級應用程序模板 2,解壓模板到目錄,進入控制臺進入目錄運行 php init 安裝YII 3,進入 http://loc

php curl學習筆記

定義 curl:client url library function ,用來抓取遠端檔案或傳輸檔案 file_get_contents(url)雖然也能抓取網站資訊，但是功能及其有限使用前提 windows下：進入php.ini下開啟extensi

PHP 快速學習筆記

1、列印：echo "Hello word!"，支援.和,的字串連線，但是，的效率高於. ；此外.操作順序先操作字串再進行運算，如 echo “1+5=”.1+5會輸出6，而不是1+5=6，因為.先進行字串連線（1+5=1），再進行運算，把字串強制轉化為1，1+5算出來就

H5表單與PHP互動學習筆記

今日在網上觀看視訊學習H5，其中有幾個知識點不是很熟悉，所以打算寫下這篇部落格來記錄一下，以便將來再回來檢視！該課程分為了三個小節來開展，內容如下： 1、html 5表單常用知識點 1.1單項選擇 1.2多項選擇 1.3下拉列表 1.4文字域 2、P

PHP入門學習筆記

感謝慕課網（“www.imooc.com”） 1、定義變數、列印變數： <?php $name = "小謝"; echo $name; ?> 顯示：小謝 2、顯示變數的資料型別： <?php $name = "小謝";

【php】學習筆記

——–CONTENTS———- 一、哈佛公開課 0、fake google 視訊0講中，fake google網頁編寫，通過google的input元素name和form的action來實現搜尋外接到google，但是視訊提交按鈕寫錯

php trait 學習筆記

PHP中的類不支援多繼承，但是提供了trait語法類解決單繼承沒法提供的多層程式碼複用問題。要點： 1 Trait 不能通過它自身來例項化，但可以在類中使用，也可以通過靜態呼叫使用trait中方法和屬性。 <?php trait T{ public functio

php laravel框架學習筆記（二）數據庫操作

true 數據 mar sql show top 一行 ati del 原博客鏈接：http://www.cnblogs.com/bitch1319453/p/6810492.html mysql基本配置你可用通過配置環境變量，使用cmd進入mysql，當然還有一種東

Memcache 學習筆記（二）---- PHP 腳本操作 Memcache 服務器

ext status ram var_dump 介紹修改 memcache local dbn 　　 PHP 腳本操作 Memcache 服務器一、PHP腳本操作Memcache方法　　　　使用 PHP 腳本操作 Memcache，在 PHP 手冊中有詳細的介紹，我們

【php學習筆記】ticks篇

water parse htm 發現 clas strong 使用而且 break 1. 什麽是ticks 我們來看一下手冊上面對ticks的解釋： A tick is an event that occurs for every N low-leve

PHP:學習筆記(1)——環境配置

work tex name sso works fontsize repl img 編輯 PhpStorm配置PHP環境(轉自Han-kanon) 說明：　　通過Setting 有 languages &frameworks 有php 選擇右邊的interpre

使用php-amqplib連接rabbitMQ 學習筆記及總結

upd echo 密碼分發 rop 必須 mco fan span 1、使用composer安裝php-amqplib 在你的項目中添加一個 composer.json文件： { "require": { "php-amqplib/php-am

PHP學習筆記-簡單的面向過程寫的驗證碼

php<?php /** * Created by PhpStorm. * User: Administrator * Date: 2017\10\10 0010 * Time: 19:44 */ //生成隨機驗證碼 $strNumber = join(‘‘,range(0,9)); $s

php學習筆記一

筆記一 pwd ssa .html tex row 索引 turn 標識符 PHP學習筆記格式： <?php ?> 輸出： 1. echo 輸出一個字符串 2. var_dump() 輸出數組變量： $開頭；全局變量，局部變量（函數內

php學習筆記1

對象 local 寫敏感靜態 sta ati static 語句表達式 php基礎部分 PHP 輸出文本的基礎指令：echo 和 print。 echo和print的區別 echo是PHP語句, print和print_r是函數，語句沒有返回值，函數可以有返回值(即便沒

php學習筆記4

key exp 基本配置區分 file 成員訪問 pre mar 輸出流程控制在這裏，只講下foreach語句。 foreach語句遍歷輸出數組：語法： foreach (array_expression as $value){ statement}; forea

PHP QRcode生成二維碼學習筆記(一)

class bar 手機表示 font 病毒 style -s 比特流二維碼簡介: 二維條碼/二維碼(2-dimensional bar code) 是用某種特定的幾何圖形按一定規律在平面(二維方向上)分布的黑白相間的圖形記錄數據符號信息的;在代碼編制上巧妙地利用構成

php學習筆記-php簡單的語法入門

服務器端 bsp 嵌入式學習筆記 not style 入門學習 spa php是一種服務器端的腳本語言，它的功能是根據不同的請求生成不同的html文件。一段典型的php代碼通常是下面這個樣子的： //NOTHING <?php //PHP CODE ?>

php學習筆記-echo怎麽換行

nes php學習 html echo class lis 代碼 php pos <?php echo ‘chinese<br>‘ echo ‘english‘; echo ‘math‘; ?> 只需要在待輸出的字符串中加入<br>這

PHP Tokenizer 學習筆記

簡述

例項

相關推薦