记录规则

记录规则设定一致的命名方案,可以更容易地一目了然地理解规则的含义。它还可以通过使不正确或无意义的计算脱颖而出,从而避免错误。

本页面介绍了记录规则的正确命名约定和聚合方式。

命名

  • 记录规则应遵循通用形式 level:metric:operations
  • level 表示规则输出的聚合级别和标签。
  • metric 是指标名称,除了在使用 rate()irate() 时从计数器中去除 _total 外,应保持不变。
  • operations 是应用于指标的操作列表,最新操作在前。

保持指标名称不变,可以更容易地了解指标的含义,也更容易在代码库中查找。

为了保持操作的简洁,如果存在其他操作,例如 sum(),则省略 _sum。关联操作可以合并(例如 min_minmin 相同)。

如果没有明显的操作可使用,请使用 sum。当通过除法计算比率时,使用 _per_ 分隔指标并将操作命名为 ratio

聚合

  • 在聚合比率时,应分别聚合分子和分母,然后进行除法运算。

  • 不要对比率或平均值取平均值,因为这在统计上是无效的。

  • 在聚合 Summary 的 _count_sum 并除以计算平均观测大小时,将其视为比率会很笨拙。相反,请保留不带 _count_sum 后缀的指标名称,并将操作中的 rate 替换为 mean。这表示该时间段内的平均观测大小。

  • 始终使用 without 子句指定要聚合掉的标签。这样做是为了保留所有其他标签(例如 job),这将避免冲突并为您提供更有用的指标和告警。

示例

请注意缩进样式,其中出站操作符在两个向量之间单独一行。为了在 Yaml 中实现这种样式,带有缩进指示符的块引用(例如 |2)被使用。

聚合带有 path 标签的每秒请求数

- record: instance_path:requests:rate5m
  expr: rate(requests_total{job="myjob"}[5m])

- record: path:requests:rate5m
  expr: sum without (instance)(instance_path:requests:rate5m{job="myjob"})

计算请求失败率并聚合到作业级别的失败率

- record: instance_path:request_failures:rate5m
  expr: rate(request_failures_total{job="myjob"}[5m])

- record: instance_path:request_failures_per_requests:ratio_rate5m
  expr: |2
      instance_path:request_failures:rate5m{job="myjob"}
    /
      instance_path:requests:rate5m{job="myjob"}

# Aggregate up numerator and denominator, then divide to get path-level ratio.
- record: path:request_failures_per_requests:ratio_rate5m
  expr: |2
      sum without (instance)(instance_path:request_failures:rate5m{job="myjob"})
    /
      sum without (instance)(instance_path:requests:rate5m{job="myjob"})

# No labels left from instrumentation or distinguishing instances,
# so we use 'job' as the level.
- record: job:request_failures_per_requests:ratio_rate5m
  expr: |2
      sum without (instance, path)(instance_path:request_failures:rate5m{job="myjob"})
    /
      sum without (instance, path)(instance_path:requests:rate5m{job="myjob"})

从 Summary 计算某个时间段内的平均延迟

- record: instance_path:request_latency_seconds_count:rate5m
  expr: rate(request_latency_seconds_count{job="myjob"}[5m])

- record: instance_path:request_latency_seconds_sum:rate5m
  expr: rate(request_latency_seconds_sum{job="myjob"}[5m])

- record: instance_path:request_latency_seconds:mean5m
  expr: |2
      instance_path:request_latency_seconds_sum:rate5m{job="myjob"}
    /
      instance_path:request_latency_seconds_count:rate5m{job="myjob"}

# Aggregate up numerator and denominator, then divide.
- record: path:request_latency_seconds:mean5m
  expr: |2
      sum without (instance)(instance_path:request_latency_seconds_sum:rate5m{job="myjob"})
    /
      sum without (instance)(instance_path:request_latency_seconds_count:rate5m{job="myjob"})

通过使用 avg() 函数来计算跨实例和路径的平均查询速率

- record: job:request_latency_seconds_count:avg_rate5m
  expr: avg without (instance, path)(instance:request_latency_seconds_count:rate5m{job="myjob"})

请注意,在聚合时,without 子句中的标签会从输出指标名称的级别中移除,与输入指标名称相比。如果没有聚合,级别总是匹配的。如果不是这种情况,则规则中可能存在错误。

本页内容