在上一篇博文中,我们介绍了在 Prometheus 中进行服务发现的多种新方法。从那时起发生了很多变化。我们改进了内部实现,并收到了来自社区的极好贡献,增加了对 Kubernetes 和 Marathon 服务发现的支持。它们将随 0.16 版本的发布而推出。
我们还提到了自定义服务发现的话题。
并非所有类型的服务发现都足够通用,可以直接包含在 Prometheus 中。您的组织很可能有一个专有系统,您只需使其与 Prometheus 配合工作。这并不意味着您无法享受自动发现新监控目标的优势。
在本文中,我们将实现一个小型实用程序,该程序连接基于 etcd(一个高可用分布式键值存储)的自定义服务发现方法,并将其连接到 Prometheus。
etcd 和 Prometheus 中的目标
我们的虚构服务发现系统在明确定义的键模式下存储服务及其实例
/services/<service_name>/<instance_id> = <instance_address>
Prometheus 现在应该能够自动添加和移除所有现有服务的监控目标,随着它们的出现和消失。我们可以与 Prometheus 的基于文件的服务发现集成,它监控一组文件,这些文件以 JSON 格式将目标描述为目标组列表。
一个目标组包含与一组标签关联的地址列表。这些标签会附加到从这些目标获取的所有时间序列上。一个从 etcd 中的服务发现提取的目标组示例如下所示
{
"targets": ["10.0.33.1:54423", "10.0.34.12:32535"],
"labels": {
"job": "node_exporter"
}
}
程序
我们需要的是一个小程序,它连接到 etcd 集群,查找 /services
路径下找到的所有服务,并将它们写入一个包含目标组的文件中。
让我们开始一些基础工作。我们的工具有两个标志:要连接的 etcd 服务器和要写入目标组的文件。在内部,服务被表示为一个从服务名称到实例的映射。实例是从 etcd 路径中的实例标识符到其地址的映射。
const servicesPrefix = "/services"
type (
instances map[string]string
services map[string]instances
)
var (
etcdServer = flag.String("server", "http://127.0.0.1:4001", "etcd server to connect to")
targetFile = flag.String("target-file", "tgroups.json", "the file that contains the target groups")
)
我们的 main
函数解析标志并初始化用于保存当前服务的对象。然后我们连接到 etcd 服务器,并对 /services
路径进行递归读取。我们收到给定路径的子树作为结果,并调用 srvs.handle
,它会递归地对子树中的每个节点执行 srvs.update
方法。update
方法修改我们的 srvs
对象的状体,使其与 etcd 中子树的状态保持一致。最后,我们调用 srvs.persist
,它将 srvs
对象转换为目标组列表,并将它们写入由 -target-file
标志指定的文件。
func main() {
flag.Parse()
var (
client = etcd.NewClient([]string{*etcdServer})
srvs = services{}
)
// Retrieve the subtree of the /services path.
res, err := client.Get(servicesPrefix, false, true)
if err != nil {
log.Fatalf("Error on initial retrieval: %s", err)
}
srvs.handle(res.Node, srvs.update)
srvs.persist()
}
假设这是一个可用的实现。我们现在可以每隔 30 秒运行一次这个工具,以便大致准确地了解服务发现中的当前目标。
但我们能做得更好吗?
答案是肯定的。etcd 提供 watch 功能,这使得我们可以监听任何路径及其子路径的更新。这样,我们可以立即得知变更并立即应用它们。我们也不必一遍又一遍地处理整个 /services
子树,这对于大量服务和实例而言变得非常重要。
我们如下扩展我们的 main
函数
func main() {
// ...
updates := make(chan *etcd.Response)
// Start recursively watching for updates.
go func() {
_, err := client.Watch(servicesPrefix, 0, true, updates, nil)
if err != nil {
log.Errorln(err)
}
}()
// Apply updates sent on the channel.
for res := range updates {
log.Infoln(res.Action, res.Node.Key, res.Node.Value)
handler := srvs.update
if res.Action == "delete" {
handler = srvs.delete
}
srvs.handle(res.Node, handler)
srvs.persist()
}
}
我们启动一个 goroutine,它会递归地监听 /services
中条目的变化。它会一直阻塞,并将所有变化发送到 updates
通道。然后我们从通道读取更新,并像之前一样应用。但是,如果一个实例或整个服务消失了,我们会改用 srvs.delete
方法调用 srvs.handle
。
每次更新完成后,我们都会再次调用 srvs.persist
,以便将变更写入 Prometheus 正在监视的文件。
修改方法
目前为止一切顺利——概念上这是可行的。剩下的就是 update
和 delete
处理方法以及 persist
方法。
update
和 delete
由 handle
方法调用,该方法简单地为子树中的每个节点调用它们,前提是路径有效
var pathPat = regexp.MustCompile(`/services/([^/]+)(?:/(\d+))?`)
func (srvs services) handle(node *etcd.Node, handler func(*etcd.Node)) {
if pathPat.MatchString(node.Key) {
handler(node)
} else {
log.Warnf("unhandled key %q", node.Key)
}
if node.Dir {
for _, n := range node.Nodes {
srvs.handle(n, handler)
}
}
}
update
update 方法基于 etcd 中更新的节点来修改我们的 services
对象的状体。
func (srvs services) update(node *etcd.Node) {
match := pathPat.FindStringSubmatch(node.Key)
// Creating a new job directory does not require any action.
if match[2] == "" {
return
}
srv := match[1]
instanceID := match[2]
// We received an update for an instance.
insts, ok := srvs[srv]
if !ok {
insts = instances{}
srvs[srv] = insts
}
insts[instanceID] = node.Value
}
delete
delete 方法从我们的 services
对象中移除实例或整个任务,取决于 etcd 中删除了哪个节点。
func (srvs services) delete(node *etcd.Node) {
match := pathPat.FindStringSubmatch(node.Key)
srv := match[1]
instanceID := match[2]
// Deletion of an entire service.
if instanceID == "" {
delete(srvs, srv)
return
}
// Delete a single instance from the service.
delete(srvs[srv], instanceID)
}
persist
persist 方法将我们的 services
对象的状体转换为 TargetGroup
列表。然后将此列表以 JSON 格式写入 -target-file
中。
type TargetGroup struct {
Targets []string `json:"targets,omitempty"`
Labels map[string]string `json:"labels,omitempty"`
}
func (srvs services) persist() {
var tgroups []*TargetGroup
// Write files for current services.
for job, instances := range srvs {
var targets []string
for _, addr := range instances {
targets = append(targets, addr)
}
tgroups = append(tgroups, &TargetGroup{
Targets: targets,
Labels: map[string]string{"job": job},
})
}
content, err := json.Marshal(tgroups)
if err != nil {
log.Errorln(err)
return
}
f, err := create(*targetFile)
if err != nil {
log.Errorln(err)
return
}
defer f.Close()
if _, err := f.Write(content); err != nil {
log.Errorln(err)
}
}
投入实际使用
全部完成,那么如何运行它呢?
我们只需启动我们的工具并指定配置的输出文件
./etcd_sd -target-file /etc/prometheus/tgroups.json
然后我们使用同一个文件配置 Prometheus 的基于文件的服务发现。最简单的配置如下所示
scrape_configs:
- job_name: 'default' # Will be overwritten by job label of target groups.
file_sd_configs:
- names: ['/etc/prometheus/tgroups.json']
就这样。现在我们的 Prometheus 与 etcd 中进入和离开服务发现的服务及其实例保持同步。
结论
如果 Prometheus 没有原生支持您组织的服务发现,不要绝望。使用一个小型实用程序,您可以轻松弥合差距,并从监控目标的无缝更新中获益。因此,您可以将对监控配置的更改从您的部署考虑中移除。
非常感谢我们的贡献者 Jimmy Dyson 和 Robert Jacob,他们增加了对 Kubernetes 和 Marathon 的原生支持。另请参阅 Keegan C Smith 基于文件的 EC2 服务发现。
您可以在 GitHub 上找到这篇博文的完整源代码。