1. 程式人生 > 其它 >使用 Python 解析配置檔案

使用 Python 解析配置檔案

  第一步是選擇配置檔案的格式:INI、JSON、YAML 或 TOML。

  有時,程式需要足夠的引數,將它們全部作為命令列引數或環境變數既不讓人愉快也不可行。 在這些情況下,你將需要使用配置檔案。

  有幾種流行的配置檔案格式。其中包括古老的(雖然有時定義不明確)INI 格式,雖然流行但有時難以手寫的 JSON 格式,使用廣泛但有時在細節方面令人意外的 YAML 格式,以及很多人還沒有聽說過的最新出現的 TOML。

  你的首要任務是選擇一種格式,然後記錄該選擇。解決了這個簡單的部分之後就是時候解析配置了。

  有時,在配置中擁有一個與“抽象“資料相對應的類是一個不錯的想法。因為這段程式碼不會對配置做任何事情,所以這是展示解析邏輯最簡單的方式。

  想象一下檔案處理器的配置:它包括一個輸入目錄、一個輸出目錄和要提取的檔案。

  配置類的抽象定義可能類似於:

  from __future__ import annotations

  import attr

  @attr.frozen

  class Configuration:

  @attr.frozen

  class Files:

  input_dir: str

  output_dir: str

  files: Files

  @attr.frozen

  class Parameters:

  patterns: List[str]

  parameters: Parameters

  為了使特定於格式的程式碼更簡單,你還需要編寫一個函式來從字典中解析此類。請注意,這假設配置將使用破折號,而不是下劃線。 這種差異並不少見。

  def configuration_from_dict(details):

  files=Configuration.Files(

  input_dir=details["files"]["input-dir"],

  output_dir=details["files"]["output-dir"],

  )

  parameters=Configuration.Paraneters(

  patterns=details["parameters"]["patterns"]

  )

  return Configuration(

  files=files,

  parameters=parameters,

  )

  JSON

  JSON(JavaScript Object Notation)是一種類似於 JavaScript 的格式。

  以下是 JSON 格式的示例配置:

  json_config="""

  {

  "files": {

  "input-dir": "inputs",

  "output-dir": "outputs"

  },

  "parameters": {

  "patterns": [

  "*.txt",

  "*.md"

  ]

  }

  }

  """

  解析邏輯使用 json模組將 JSON 解析為 Python 的內建資料結構(字典、列表、字串),然後從字典中建立類:

  import json

  def configuration_from_json(data):

  parsed=json.loads(data)

  return configuration_from_dict(parsed)

  INI

  INI 格式,最初只在 Windows 上流行,之後成為配置標準格式。

  這是與 INI 相同的配置:

  ini_config="""

  [files]

  input-dir=inputs

  output-dir=outputs

  [parameters]

  patterns=['*.txt', '*.md']

  """

  Python 可以使用內建的 configparser模組解析它。解析器充當類似dict的物件,因此可以直接傳遞給configuration_from_dict:

  import configparser

  def configuration_from_ini(data):

  parser=configparser.ConfigParser

  parser.read_string(data)

  return configuration_from_dict(parser)

  YAML

  YAML(Yet Another Markup Language)是 JSON 的擴充套件,旨在更易於手動編寫。為了實現了這一點,部分原因是有一個很長的規範。

  以下是 YAML 中的相同配置:

  yaml_config="""

  files:

  input-dir: inputs

  output-dir: outputs

  parameters:

  patterns:

  - '*.txt'

  - '*.md'

  """

  要讓 Python 解析它,你需要安裝第三方模組。最受歡迎的是PyYAML(pip install pyyaml)。 YAML 解析器還返回可以傳遞給configuration_from_dict的內建 Python 資料型別。但是,YAML 解析器需要一個位元組流,因此你需要將字串轉換為位元組流。

  import io

  import yaml

  def configuration_from_yaml(data):

  fp=io.StringIO(data)

  parsed=yaml.safe_load(fp)

  return configuration_from_dict(parsed)

  TOML

  TOML(Tom's Own Markup Language)旨在成為 YAML 的輕量級替代品。其規範比較短,已經在一些地方流行了(比如 Rust 的包管理器 Cargo 就用它來進行包配置)。

  這是與 TOML 相同的配置:

  toml_config="""

  [files]

  input-dir="inputs"

  output-dir="outputs"

  [parameters]

  patterns=[ "*.txt", "*.md",]

  """

  為了解析 TOML,你需要安裝第三方包。最流行的一種被簡單地稱為 toml。 與 YAML 和 JSON 一樣,它返回基本的 Python 資料型別。

  import toml

  def configuration_from_toml(data):

  parsed=toml.loads(data)

  return configuration_from_dict(parsed)

  總結

  選擇配置格式是一種微妙的權衡。但是,一旦你做出決定,Python 就可以使用少量程式碼來解析大多數流行的格式。