概述

什么是 Prometheus？

Prometheus 是一个开源的系统监控和告警工具包，最初由 SoundCloud 构建。自 2012 年诞生以来，许多公司和组织都采用了 Prometheus，并且该项目拥有非常活跃的开发者和用户社区。它现在是一个独立的开源项目，由任何公司独立维护。为了强调这一点并明确项目的治理结构，Prometheus 于 2016 年加入了云原生计算基金会，成为继 Kubernetes 之后第二个托管项目。

Prometheus 将其指标作为时间序列数据收集和存储，即指标信息与记录时的时间戳以及可选的键值对（称为标签）一起存储。

有关 Prometheus 更详细的概述，请参阅媒体部分中的链接资源。

特性

Prometheus 的主要特性包括：

一个多维数据模型，其中时间序列数据由指标名称和键/值对标识
PromQL，一种灵活的查询语言，用于利用这种多维性
不依赖分布式存储；单个服务器节点是自主的
时间序列收集通过 HTTP 上的拉取模型进行
通过中间网关支持推送时间序列
通过服务发现或静态配置发现目标
支持多种图形和仪表盘模式

什么是指标？

指标在通俗意义上是数值测量。术语“时间序列”是指随时间记录的变化。用户希望测量的内容因应用程序而异。对于 Web 服务器，可能是请求时间；对于数据库，可能是活动连接数或活动查询数等等。

指标在理解应用程序为何以某种方式工作方面发挥着重要作用。假设您正在运行一个 Web 应用程序并发现它运行缓慢。要了解应用程序发生了什么，您需要一些信息。例如，当请求数量很高时，应用程序可能会变慢。如果您拥有请求计数指标，则可以确定原因并增加服务器数量以处理负载。

组件

Prometheus 生态系统由多个组件组成，其中许多是可选的

主 Prometheus 服务器，它抓取并存储时间序列数据
用于对应用程序代码进行埋点的客户端库
一个用于支持短生命周期作业的推送网关
用于 HAProxy、StatsD、Graphite 等服务的专用导出器
一个用于处理告警的告警管理器
各种支持工具

大多数 Prometheus 组件都是用 Go 编写的，这使得它们易于构建并部署为静态二进制文件。

架构

此图展示了 Prometheus 及其部分生态系统组件的架构

Prometheus architecture

Prometheus 从已埋点的作业中抓取指标，可以直接抓取，也可以通过中间推送网关抓取短生命周期作业的指标。它将所有抓取的样本存储在本地，并根据这些数据运行规则，以聚合并记录现有数据中的新时间序列或生成告警。Grafana 或其他 API 消费者可用于可视化收集到的数据。

何时适用？

Prometheus 非常适合记录任何纯数字时间序列。它既适用于以机器为中心的监控，也适用于对高度动态的服务导向架构进行监控。在微服务世界中，它对多维数据收集和查询的支持是一个独特的优势。

Prometheus 旨在实现可靠性，它是在中断期间可以依靠的系统，让您能够快速诊断问题。每个 Prometheus 服务器都是独立的，不依赖于网络存储或其他远程服务。当您基础设施的其他部分出现故障时，您可以依靠它，并且您无需设置大量基础设施即可使用它。

何时不适用？

Prometheus 重视可靠性。即使在故障条件下，您也始终可以查看有关系统的可用统计数据。如果您需要 100% 的准确性，例如用于按请求计费，Prometheus 不是一个好的选择，因为收集到的数据可能不够详细和完整。在这种情况下，最好使用其他系统来收集和分析计费数据，而将 Prometheus 用于其余的监控任务。

本页内容