Prometheus 2.0 Alpha.3 采用新规则格式

2017年6月22日作者 Goutham Veeramachaneni

今天，我们发布了 Prometheus 2.0 的第三个 alpha 版本。除了对新的存储层进行了各种错误修复外，它还包含一些计划中的重大变更。

Flag 变更

首先，我们迁移到了一个新的 flag 库，该库使用更常见的双破折号 -- 作为 flag 前缀，而不是 Prometheus 迄今为止使用的单破折号。部署时必须进行相应调整。此外，此 alpha 版本中移除了一些 flag。自 Prometheus 1.0.0 以来移除的完整列表如下：

web.telemetry-path
所有 storage.remote.* flag
所有 storage.local.* flag
query.staleness-delta
alertmanager.url

记录规则变更

告警和记录规则是 Prometheus 的关键功能之一。但它们也存在一些设计问题和功能缺失，即：

所有规则都以相同的间隔运行。我们可能有一些重型规则，最好以10分钟的间隔运行，而另一些规则可以以15秒的间隔运行。
所有规则都同时进行评估，这实际上是 Prometheus 最古老的未解决的 bug 。这有几个问题，显而易见的一个是，如果你有很多规则，负载会在每个评估间隔出现峰值。另一个问题是，相互依赖的规则可能会被输入过时的数据。例如：

instance:network_bytes:rate1m = sum by(instance) (rate(network_bytes_total[1m]))

ALERT HighNetworkTraffic
  IF instance:network_bytes:rate1m > 10e6
  FOR 5m

这里我们对 instance:network_bytes:rate1m 进行告警，但 instance:network_bytes:rate1m 本身是由另一条规则生成的。只有在记录了 instance:network_bytes:rate1m 的当前值之后再运行告警 HighNetworkTraffic，我们才能得到预期的结果。

规则和告警要求用户学习另一种 DSL。

为了解决上述问题，很久以前就有人提议对规则进行分组，但直到最近才作为 Prometheus 2.0 的一部分实现。作为此实现的一部分，我们还将规则迁移到了广为人知的 YAML 格式，这也使得根据用户环境中的常见模式生成告警规则变得更加容易。

新格式如下所示：

groups:
- name: my-group-name
  interval: 30s   # defaults to global interval
  rules:
  - record: instance:errors:rate5m
    expr: rate(errors_total[5m])
  - record: instance:requests:rate5m
    expr: rate(requests_total[5m])
  - alert: HighErrors
    # Expressions remain PromQL as before and can be spread over
    # multiple lines via YAML’s multi-line strings.
    expr: |
      sum without(instance) (instance:errors:rate5m)
      /
      sum without(instance) (instance:requests:rate5m)
    for: 5m
    labels:
      severity: critical
    annotations:
      description: "stuff's happening with {{ $labels.service }}"

每个组中的规则按顺序执行，你可以为每个组设置一个评估间隔。

由于这是一个重大变更，我们将在 2.0 版本中发布它，并为 promtool 添加了一个用于迁移的命令：promtool update rules <filenames>。转换后的文件会附加 .yml 后缀，你必须相应地调整 Prometheus 配置中的 rule_files 子句。

请通过测试这个新的 alpha 版本，帮助我们迈向 Prometheus 2.0 稳定版！你可以在我们的问题跟踪器上报告错误，并通过我们的社区渠道提供一般反馈。