使用 Python 解析配置檔案
第一步是選擇配置檔案的格式:INI、JSON、YAML 或 TOML。
有時,程式需要足夠的引數,將它們全部作為命令列引數或環境變數既不讓人愉快也不可行。 在這些情況下,你將需要使用配置檔案。
有幾種流行的配置檔案格式。其中包括古老的(雖然有時定義不明確)INI 格式,雖然流行但有時難以手寫的 JSON 格式,使用廣泛但有時在細節方面令人意外的 YAML 格式,以及很多人還沒有聽說過的最新出現的 TOML。
你的首要任務是選擇一種格式,然後記錄該選擇。解決了這個簡單的部分之後就是時候解析配置了。
有時,在配置中擁有一個與“抽象“資料相對應的類是一個不錯的想法。因為這段程式碼不會對配置做任何事情,所以這是展示解析邏輯最簡單的方式。
想象一下檔案處理器的配置:它包括一個輸入目錄、一個輸出目錄和要提取的檔案。
配置類的抽象定義可能類似於:
from __future__ import annotations
import attr
@attr.frozen
class Configuration:
@attr.frozen
class Files:
input_dir: str
output_dir: str
files: Files
@attr.frozen
class Parameters:
patterns: List[str]
parameters: Parameters
為了使特定於格式的程式碼更簡單,你還需要編寫一個函式來從字典中解析此類。請注意,這假設配置將使用破折號,而不是下劃線。 這種差異並不少見。
def configuration_from_dict(details):
files=Configuration.Files(
input_dir=details["files"]["input-dir"],
output_dir=details["files"]["output-dir"],
)
parameters=Configuration.Paraneters(
patterns=details["parameters"]["patterns"]
)
return Configuration(
files=files,
parameters=parameters,
)
JSON
JSON(JavaScript Object Notation)是一種類似於 JavaScript 的格式。
以下是 JSON 格式的示例配置:
json_config="""
{
"files": {
"input-dir": "inputs",
"output-dir": "outputs"
},
"parameters": {
"patterns": [
"*.txt",
"*.md"
]
}
}
"""
解析邏輯使用 json模組將 JSON 解析為 Python 的內建資料結構(字典、列表、字串),然後從字典中建立類:
import json
def configuration_from_json(data):
parsed=json.loads(data)
return configuration_from_dict(parsed)
INI
INI 格式,最初只在 Windows 上流行,之後成為配置標準格式。
這是與 INI 相同的配置:
ini_config="""
[files]
input-dir=inputs
output-dir=outputs
[parameters]
patterns=['*.txt', '*.md']
"""
Python 可以使用內建的 configparser模組解析它。解析器充當類似dict的物件,因此可以直接傳遞給configuration_from_dict:
import configparser
def configuration_from_ini(data):
parser=configparser.ConfigParser
parser.read_string(data)
return configuration_from_dict(parser)
YAML
YAML(Yet Another Markup Language)是 JSON 的擴充套件,旨在更易於手動編寫。為了實現了這一點,部分原因是有一個很長的規範。
以下是 YAML 中的相同配置:
yaml_config="""
files:
input-dir: inputs
output-dir: outputs
parameters:
patterns:
- '*.txt'
- '*.md'
"""
要讓 Python 解析它,你需要安裝第三方模組。最受歡迎的是PyYAML(pip install pyyaml)。 YAML 解析器還返回可以傳遞給configuration_from_dict的內建 Python 資料型別。但是,YAML 解析器需要一個位元組流,因此你需要將字串轉換為位元組流。
import io
import yaml
def configuration_from_yaml(data):
fp=io.StringIO(data)
parsed=yaml.safe_load(fp)
return configuration_from_dict(parsed)
TOML
TOML(Tom's Own Markup Language)旨在成為 YAML 的輕量級替代品。其規範比較短,已經在一些地方流行了(比如 Rust 的包管理器 Cargo 就用它來進行包配置)。
這是與 TOML 相同的配置:
toml_config="""
[files]
input-dir="inputs"
output-dir="outputs"
[parameters]
patterns=[ "*.txt", "*.md",]
"""
為了解析 TOML,你需要安裝第三方包。最流行的一種被簡單地稱為 toml。 與 YAML 和 JSON 一樣,它返回基本的 Python 資料型別。
import toml
def configuration_from_toml(data):
parsed=toml.loads(data)
return configuration_from_dict(parsed)
總結
選擇配置格式是一種微妙的權衡。但是,一旦你做出決定,Python 就可以使用少量程式碼來解析大多數流行的格式。