為Python新增中文關鍵字

阿新 • • 發佈：2019-01-04

1.大部分語法，可以按下面方法加同義的中文token
第1步. 編譯pgen
cd到python的原始碼目錄下，

./configure
make Parser/pgen

第2步. 修改 ./Grammar/Grammar，新增同義詞並生成語法程式碼。

以while，else為例
原文：

while_stmt: 'while' test ':' suite ['else' ':' suite]

改為：

while_stmt: ('while'|當) test ':' suite [('else'|另) ':' suite]

儲存 ./Grammar/Grammar為UTF-8格式

執行

./Parser/pgen ./Grammar/Grammar ./Include/graminit.h ./Python/graminit.c

雖然會提示錯誤，但輸出是有效正確的。

其實pgen不支援UTF-8，這裡中文名不需要用單引號或雙引號，利用pgen的容錯性，減少工作量。

2.還有一較複雜語法在/Python/ast.c 裡有輔助解析

例如

comp_op: ... |'in'|'not' 'in'|'is'|'is' 'not'

改為

comp_op: ... |('in'|在)|('not' 'in'|不在)|('is'|為)|('is' 'not'|不為)

在ast.c裡的 ast_for_comp_op 中

if (NCH(n) == 1)
 switch (TYPE(n))
     case NAME:
/******新增如下程式碼*******/
         if (strcmp(STR(n), "在") == 0) 
              return In;
         if (strcmp(STR(n), "不在") == 0) 
               return NotIn;
         if (strcmp(STR(n), "為") == 0) 
               return Is;
         if (strcmp(STR(n), "不為") == 0) 
               return IsNot;

其實從原始碼我們可以看出來，comp_op原來的判斷是token有兩個單詞的話，第二個單詞為in返回NotIn，第一個單詞為is返回IsNot。

另外就是 None，True，False，finally，async，await 需要新增一下。

3.內建函式中文化

在/Python/bltinmodule.c中的builtin_methods[]中新增

以print為例，將含"print"的一行復制貼上，替換第二行的"print"為"列印"即可

  {"print",           (PyCFunction)builtin_print,      METH_FASTCALL | METH_KEYWORDS, print_doc},
   {"列印",           (PyCFunction)builtin_print,      METH_FASTCALL | METH_KEYWORDS, print_doc},

其他的還有一些巨集，展開看一下，就明白了。

  BUILTIN_LEN_METHODDEF
   {"長", (PyCFunction)builtin_len, METH_O, builtin_len__doc__},

之後 make 編譯python即可。

中文的py檔案也需要儲存為UTF-8格式。

為Python新增中文關鍵字

知乎原文地址作者:@狗屎咖啡 swizl/cnpython 1.大部分語法，可以按下面方法加同義的中文token 第1步. 編譯pgen cd到python的原始碼目錄下， ./configure make Parser/pgen 第2步. 修改 ./Grammar/Gr

為GCC新增中文關鍵字

知乎原文地址作者:@狗屎咖啡 GCC不支援UTF-8字元，可以自己新增：如何使GCC支援中文(utf-8)的變數名、函式名？也可以用指令碼轉換原始碼，再編譯： https://gcc.gnu.org/wiki/FAQ#utf8_identifiers 但是強烈建議

為clang新增中文關鍵字

知乎原文地址作者:@狗屎咖啡以clang為基礎做了一個與C++、C相容中英文關鍵字的編譯器 swizl/cnlang 原理就是加與英文關鍵字等效的中文關鍵字在/include/clang/Basic/TokenKinds.def 中用ALIAS新增中文關鍵字

為Python新增預設模組搜尋路徑

寫這篇部落格主要原因：由於本人電腦安裝比較亂，python版本安裝了好幾個。當我用pip3 install moviepy命令安裝moviepy模組時，它自動的把該庫安裝到了python3.7的環境下，而我的python3預設的是python3.6.所以在終端

《用Python做科學計算》——Traits為Python新增型別定義

Python作為一種動態程式語言，它沒有變數型別，這種靈活性給快速開發帶來了很多便利，不過它也有缺點。Traits庫的一個很重要的目的就是為了解決這些缺點所帶來的問題。對Traits作用的理解當函式，類或者一些封裝的通用演算法中的某些部分會因為資料型別不同而

為Python新增預設模組搜尋路徑；取檔案所在目錄的上一級目錄

為Python新增預設模組搜尋路徑方法一:函式新增 1 import sys 2 檢視sys.path 3 新增sys.path.append(“c:\”) 方法二:修改環境變數 w使用者可以修改系統環境變數PYTHONPATH 方法三:增加.p

(轉)為Python新增預設模組搜尋路徑

原文出處：https://www.douban.com/note/334738164/ 方法一:函式新增1 import sys2 檢視sys.path3 新增sys.path.append("c:\\")方法二:修改環境變數w使用者可以修改系統環境變數PYTHONPATH方法三:增加.pth檔案，推薦

python 新增中文註釋

通常，python原始碼必須完全由ASCII集合組成，如果直接在python中新增中文註釋的時候，python執行時會引發異常，告知非ASCII字元語法錯誤。 SyntaxError: Non-ASCII character '/xd5' in file D:/Proje

為elastic新增中文分詞

新增中文分詞可以可以自己整合中文分片語件，medcl為es寫了三個中文分詞外掛，一個是ik的，一個是mmseg的，一個是pinyin4j的。下面介紹這三個外掛與es的整合： 1.ik與es的整合 1.1下載 1.2編譯解壓下載的elasticsearch-ana

Python視覺化中的Matplotlib(6.散點圖以及詳細引數、為圖形新增文字、註釋、箭頭以及它們的引數)

1. 散點圖散點圖需要兩個引數x,y , 但此時，x不是表示x軸的刻度，而是每個點的橫軸座標！散點圖 scatter() 引數說明： &n

Pycharm如何為Python程式新增requirements.txt

今天在使用pycharm的過程中想起來如何為程式配置所需的requirements.txt，因為我們從GitHub中下載的程式中有的經常會帶有requirements.txt檔案，所需的第三方依賴包都可以在可以配置，一鍵pip install -r requirements.txt 即可安裝

Python實現中文轉化為對應的拼音以及拼音轉化為相應的中文

由於專案的需求，在使用中文和漢語拼音的轉化，自己寫了一個版本，感覺很low，本質上就是讀資料庫，閒來查了一下，居然還真的有這樣現成的庫，就拿來使用一下吧，程式碼很簡單，就是覺得挺有意思的，下面的樣例程式碼，喜歡玩的可以拿去試試： #!usr/bin/env p

怎樣為angular-ui新增中文國際化

angular-ui是基於Bootstrap的Angualar指令元件集合，除了以無外掛的方式原生支援Angular(無須安裝jQuery、bootstrap指令碼庫)，還支援自定義指令模板（請使用.t

為python.exe或者ipython.exe新增環境變數

在pycharm下可以把Module包新增到interpreter paths,從而實現import Module. 而若直接使用ipython,或者python.exe時,它們的環境變數並沒有包含Module的目錄,有多種方式可以解決該問題: 1.在命令框中輸入命令 C:\Users\Admin

eclipse 自動為getter和setter新增中文註釋

在我們使用eclipse進行開發的時候常常會使用到eclipse自動生成getter和setter的功能，然後大多情況下eclipse為我們生成的getter和setter都是無法在專案中使用的。還需要我們自己手動修改。比如下面這個類。我使用了eclipse的自動生成ge

為python程式碼新增命令列引數

#main.py import argparse parser = argparse.ArgumentParser(description='Short sample app') #建立pars

python matplotlib 圖形中新增中文

matplotlib 無法顯示中文，主要原因是沒有中文字型庫，可以如下新增中文註釋 import matplotlib.pyplot as plt # 新增中文字型 import matplotlib

為引數表單下拉資料集中的空值新增中文描述

需求描述潤乾的下拉資料集可以繫結資料庫資料，方便使用者選擇，避免手動輸入可能引起的誤差。用下拉資料集來實現引數下拉表單，將查詢條件傳遞給結果報表進行計算。有時查詢條件可能不需要選擇或者保持為空值，這時可以使用下拉資料集中的允許空值選項，如下圖：這時原有的下拉列表就變為相比原來的選擇項多

Python---函數---關鍵字參數

python 函數參數關鍵字參數 dict **kw# 關鍵字參數 # 可變參數允許你傳入0個或任意個參數，這些可變參數調用時自動組裝為一個tuple # 而關鍵字參數允許傳入0個或任意個含參數名的參數，這些關鍵字參數在函數內部自動組裝為一個dict def person(name, age, **k

Python cmd 中文顯示亂碼

number popu span type nco proc utf-8 顯示 odin 方法一：# -*- coding:utf-8 -*- content = "我是中文" content_unicode = content.decode("utf-8") conten

為Python新增中文關鍵字

相關推薦