为记录规则使用一致的命名方案,可以更容易地一目了然地解释规则的含义。它还可以通过使不正确或无意义的计算突出显示来避免错误。
本页记录了记录规则的正确命名约定和聚合。
level:metric:operations
的通用形式。level
表示规则输出的聚合级别和标签。metric
是指标名称,除了在使用 rate()
或 irate()
时从计数器中剥离 _total
之外,应保持不变。operations
是应用于指标的操作列表,最新的操作在前。保持指标名称不变,可以轻松知道指标是什么,并且易于在代码库中找到。
为了保持操作的简洁,如果存在其他操作,则省略 _sum
,例如 sum()
。关联操作可以合并(例如,min_min
与 min
相同)。
如果没有明显的可用操作,请使用 sum
。当通过除法取比率时,请使用 _per_
分隔指标,并将操作称为 ratio
。
不要取比率的平均值或平均值的平均值,因为这在统计上无效。
当聚合摘要的 _count
和 _sum
并除以计算平均观测大小时,将其视为比率会很笨拙。相反,请保留不带 _count
或 _sum
后缀的指标名称,并将操作中的 rate
替换为 mean
。这表示该时间段内的平均观测大小。
始终使用 without
子句指定要聚合掉的标签。这是为了保留所有其他标签,例如 job
,这将避免冲突并为您提供更有用的指标和告警。
请注意,两个向量之间使用自己的行上的外缩运算符的缩进样式。为了在 Yaml 中实现这种风格,使用了带有缩进指示器的块引用(例如 |2
)。
聚合具有 path
标签的每秒请求数
- record: instance_path:requests:rate5m
expr: rate(requests_total{job="myjob"}[5m])
- record: path:requests:rate5m
expr: sum without (instance)(instance_path:requests:rate5m{job="myjob"})
计算请求失败率并将聚合提升到作业级别的失败率
- record: instance_path:request_failures:rate5m
expr: rate(request_failures_total{job="myjob"}[5m])
- record: instance_path:request_failures_per_requests:ratio_rate5m
expr: |2
instance_path:request_failures:rate5m{job="myjob"}
/
instance_path:requests:rate5m{job="myjob"}
# Aggregate up numerator and denominator, then divide to get path-level ratio.
- record: path:request_failures_per_requests:ratio_rate5m
expr: |2
sum without (instance)(instance_path:request_failures:rate5m{job="myjob"})
/
sum without (instance)(instance_path:requests:rate5m{job="myjob"})
# No labels left from instrumentation or distinguishing instances,
# so we use 'job' as the level.
- record: job:request_failures_per_requests:ratio_rate5m
expr: |2
sum without (instance, path)(instance_path:request_failures:rate5m{job="myjob"})
/
sum without (instance, path)(instance_path:requests:rate5m{job="myjob"})
从摘要中计算一段时间内的平均延迟
- record: instance_path:request_latency_seconds_count:rate5m
expr: rate(request_latency_seconds_count{job="myjob"}[5m])
- record: instance_path:request_latency_seconds_sum:rate5m
expr: rate(request_latency_seconds_sum{job="myjob"}[5m])
- record: instance_path:request_latency_seconds:mean5m
expr: |2
instance_path:request_latency_seconds_sum:rate5m{job="myjob"}
/
instance_path:request_latency_seconds_count:rate5m{job="myjob"}
# Aggregate up numerator and denominator, then divide.
- record: path:request_latency_seconds:mean5m
expr: |2
sum without (instance)(instance_path:request_latency_seconds_sum:rate5m{job="myjob"})
/
sum without (instance)(instance_path:request_latency_seconds_count:rate5m{job="myjob"})
跨实例和路径计算平均查询率是使用 avg()
函数完成的
- record: job:request_latency_seconds_count:avg_rate5m
expr: avg without (instance, path)(instance:request_latency_seconds_count:rate5m{job="myjob"})
请注意,在聚合时,与输入指标名称相比,输出指标名称的级别中移除了 without
子句中的标签。当没有聚合时,级别始终匹配。如果不是这种情况,则可能在规则中犯了错误。
此文档是开源的。请通过提交问题或拉取请求来帮助改进它。