监控

Mesos 可观测指标

本文档描述了由mesos master和agent 节点提供的可观测指标.同时提供了一些关于发现集群指标异常方面的指导.

概述

Mesos master 和 agent 节点报告了一系列的统计指标,这样你可以监控资源使用量和及早的探测到异常情况.这些信息是由mesos报告,细节包括可用资源,已使用资源,注册应用框架,活动状态的agent,和任务状态.你可以使用这些信息创建自动告警和在监控仪表盘中绘制不同时间指标图形.

指标类型

Mesos 提供了2种不同的指标: counters(计数值) and gauges(计量值).

计数值:是对零散事件的跟踪,并且是单调递增的.该指标值通常是自然数.比如:失败任务的次数,已注册的agent的数量。对于这种类型的指标,变化率比数值本身更有用处.

计量值:代表了一个瞬时的度量采样值.比如:集群已使用的内存,在线的agent的数量.对于这种类型的一些指标,通常被用于在一段时间内监控该值是在一个阀值之上还是之下.

本文档中表格中说明了每一个指标的类型

Master 节点

每一个master节点的指标可以访问http端点 /metrics/snapshot获取.响应内容为一个包含了键值对指标的JSON对象.

可观测指标

这章节列出所有的Mesos master节点的分类可用指标.

资源类别

下面的指标提供了集群所有可用资源的信息和当前使用量.持续的资源使用量高可能说明你需要增加集群的资源能力或者某一个应用框架异常.

译者注:已被分配的可回收的:是指该资源被分配给某个容器或任务,但是没有被使用,可以被回收的部分.

指标描述类型
master/cpus_percent 已分配的CPU的比例 计量值
master/cpus_used 已分配的CPU的数量 计量值
master/cpus_total CPU的总数 计量值
master/cpus_revocable_percent 已分配但可回收的CPU的比例 计量值
master/cpus_revocable_total 可回收的CPU的总量 计量值
master/cpus_revocable_used已分配但可回收的CPU的数量 计量值
master/disk_percent已分配的磁盘空间比例 计量值
master/disk_used已分配的磁盘空间(MB) 计量值
master/disk_total 磁盘空间总量(MB) 计量值
master/disk_revocable_percent 已分配但可回收的磁盘空间比例计量值
master/disk_revocable_total 可回收的磁盘空间总量(MB) 计量值
master/disk_revocable_used 已分配但可回收的磁盘空间(MB) 计量值
master/gpus_percent 已经被分配的GPU比例 计量值
master/gpus_used 已被分配的GPU数量 计量值
master/gpus_total GPU总数 计量值
master/gpus_revocable_percent 已被分配的可回收GPU比例 计量值
master/gpus_revocable_total 可被回收的GPU总量 计量值
master/gpus_revocable_used 已分配但可回收GPU数量 计量值
master/mem_percent 已分配的内存的比例 计量值
master/mem_used 已分配的内存(MB) 计量值
master/mem_total 内存总量(MB) 计量值
master/mem_revocable_percent已分配但可回收的内存比例 计量值
master/mem_revocable_total可回收的内存总量(MB) 计量值
master/mem_revocable_used 已分配但可回收的内存量(MB) 计量值
文章导航