Prometheus 入门
欢迎来到 Prometheus!Prometheus 是一个监控平台,它通过抓取目标上的指标 HTTP 端点来收集来自被监控目标的指标。本指南将向您展示如何安装、配置并使用 Prometheus 监控我们的第一个资源。您将下载、安装并运行 Prometheus。您还将下载并安装导出器,这些工具会在主机和服务上暴露时间序列数据。我们的第一个导出器将是 Prometheus 本身,它提供了关于内存使用、垃圾回收等方面的各种主机级指标。
下载 Prometheus
下载适用于您平台的最新版本Prometheus,然后解压
tar xvfz prometheus-*.tar.gz
cd prometheus-*
Prometheus 服务器是一个名为 prometheus(在 Microsoft Windows 上为 prometheus.exe)的单一二进制文件。我们可以运行该二进制文件并通过传递 --help 标志来查看其选项的帮助。
./prometheus --help
usage: prometheus [<flags>]
The Prometheus monitoring server
. . .
在启动 Prometheus 之前,让我们先对其进行配置。
配置 Prometheus
Prometheus 的配置文件是 YAML 格式。Prometheus 下载包中包含一个名为 prometheus.yml 的示例配置文件,可以作为起点。
为了使示例文件更简洁,我们删除了大部分注释(注释是以 # 开头的行)。
global:
scrape_interval: 15s
evaluation_interval: 15s
rule_files:
# - "first.rules"
# - "second.rules"
scrape_configs:
- job_name: prometheus
static_configs:
- targets: ['localhost:9090']
示例配置文件中有三个配置块:global、rule_files 和 scrape_configs。
global 块控制 Prometheus 服务器的全局配置。我们在这里提供了两个选项。第一个是 scrape_interval,它控制 Prometheus 抓取目标的频率。您可以为单个目标覆盖此设置。在此示例中,全局设置为每 15 秒抓取一次。evaluation_interval 选项控制 Prometheus 评估规则的频率。Prometheus 使用规则来创建新的时间序列和生成警报。
rule_files 块指定 Prometheus 服务器要加载的任何规则的位置。目前我们没有设置任何规则。
最后一个块是 scrape_configs,它控制 Prometheus 监控的资源。由于 Prometheus 也通过 HTTP 端点公开关于自身的数据,因此它可以抓取和监控自身的运行状况。在默认配置中,有一个名为 prometheus 的作业,它抓取 Prometheus 服务器公开的时间序列数据。该作业包含一个静态配置的目标:端口 9090 上的 localhost。Prometheus 期望目标上的指标在 /metrics 路径可用。因此,此默认作业通过以下 URL 进行抓取:https://:9090/metrics 。
返回的时间序列数据将详细说明 Prometheus 服务器的状态和性能。
有关配置选项的完整规范,请参阅 配置文档。
启动 Prometheus
要使用我们新创建的配置文件启动 Prometheus,请切换到包含 Prometheus 二进制文件的目录并运行
./prometheus --config.file=prometheus.yml
Prometheus 应该会启动。您也应该可以在 https://:9090 浏览到其自身的状态页面。请等待大约 30 秒,以便它从自身的 HTTP 指标端点收集自身的数据。
您还可以通过导航到其自身的指标端点来验证 Prometheus 是否正在提供关于自身的指标:https://:9090/metrics 。
使用表达式浏览器
让我们尝试查看 Prometheus 收集到的关于自身的一些数据。要使用 Prometheus 内置的表达式浏览器,请导航到 https://:9090/graph ,并在“Graph”选项卡中选择“Table”视图。
从 https://:9090/metrics 中可以看出,Prometheus 导出的一个关于自身的指标是 promhttp_metric_handler_requests_total(Prometheus 服务器已处理的 /metrics 请求的总数)。请在表达式控制台输入此指标名称。
promhttp_metric_handler_requests_total
这将返回多个不同的时间序列(以及每个时间序列的最新值),它们的指标名称都是 promhttp_metric_handler_requests_total,但带有不同的标签。这些标签表示不同的请求状态。
如果我们只对导致 HTTP 状态码 200 的请求感兴趣,可以使用此查询来检索该信息
promhttp_metric_handler_requests_total{code="200"}
要计算返回的时间序列的数量,您可以编写
count(promhttp_metric_handler_requests_total)
有关表达式语言的更多信息,请参阅 表达式语言文档。
使用图形界面
要绘制表达式图,请导航到 https://:9090/graph 并使用“Graph”选项卡。
例如,输入以下表达式以绘制自抓取的 Prometheus 中返回状态码 200 的每秒 HTTP 请求速率。
rate(promhttp_metric_handler_requests_total{code="200"}[1m])
您可以尝试修改图表范围参数和其他设置。
监控其他目标
仅收集 Prometheus 的指标并不能很好地体现 Prometheus 的能力。为了更好地了解 Prometheus 的功能,我们建议您查阅有关其他导出器的文档。监控 Linux 或 macOS 主机指标使用 node exporter 指南是一个不错的起点。
总结
在本指南中,您安装了 Prometheus,配置了一个 Prometheus 实例来监控资源,并学习了在 Prometheus 的表达式浏览器中使用时间序列数据的一些基本知识。要继续学习 Prometheus,请查看 概述,以获取下一步探索的想法。