Описание метрик в KUMA

В KUMA роль системы мониторинга выполняет Victoria Metrics. Информация по всем микросервисам обновляется каждые 5 секунд по HTTP-интерфейсу. А Grafana отвечает за отображение метрик, собранных с помощью Victoria Metrics.

Для просмотра всех наборов графиков щелкните сюда (на имя подсвеченное зеленым) в разделе KUMA "Метрики":

Общие метрики и Agent

Следующие метрики извлекаются из всех микросервисов KUMA

Process — Общие метрики процесса
Memory — Утилизация оперативной памяти, оценивается резидентная память (RSS - Resident set size)
DISK BPS — Количество байт в секунду прочитанных/записанных на диск
Network BPS — Количество байт в секунду полученных/отправленных в сеть
Network Packet Loss — Количество утраченных сетевых пакетов в секунду
GC Latency — Время (медиана), затраченное на цикл Garbage Collector'а GO
Goroutines — Текущее количество активных Go-рутин (потоки в Golang)

OS (Общие метрки операционной системы)

Load — Load average (средняя нагрузка) на ЦП. Обычно да 1, 5 и 15 минут, если число нагрузки за 15 минут более количества ядер (включая виртуальные) системы, то это не нормально
CPU — Общая утилизация ЦП
Memory — Общая утилизация оперативной памяти (RSS). В норме, когда число не доходит до 100%
Disk — Утилизация дискового пространства

Метрики Collectors

IO (Input-Output)

Processing EPS — Количество обрабатываемых событий в секунду
Output EPS — Количество отправляемых в точку назначения событий в секунду
Output Latency — Время, затраченное на передачу пачки событий точке назначения и на получения ответа от нее
Output Errors — Количество ошибок отправки пачки событий точке назначения в секунду. Ошибки отправки по сети и ошибки записи в дисковый буффер отображаются отдельно
Output Event Loss — Количество потерянных событий в секунду. Потеря может произойти, если их не удалось отправить ни в сеть, ни записать в дисковый буффер
Output Disk Buffer Size — Текущий размер дискового буффера точки назначения. Ноль означает, что ни одна пачка событий не буферизирована, и это хорошо, не копится очередь

Normalization

Raw & Normalized event size — Размер (медиана) оригинального лога источника и размер нормализованной формы этого лога (события)
Errors — Количество ошибок нормализации в секунду

Filtration

EPS — Количество событий в секунду, отбрасываемых фильтром коллектора

Aggregation

EPS — Количество событий, входящих и выходящих из правила агрегации в секунду. Позволяет оценить эффективность правил агрегации
Buckets — Текущее количество бакетов в правиле агрегации

Enrichment

Cache RPS — Количество обращений к локальному кешу в секунду
Source RPS — Количество обращений к источнику обогащения в секунду
Source Latency — Время (медиана), затраченное на отправку запроса и получение ответа от источника обогащения
Queue — Размер очереди запросов на обогащение. Позволяет оценить, является ли данное правило обогащения узким местом
Errors — Количество ошибок обращений к источнику обогащения, обозреваемых в секунду

Метрики Correlator

IO (Input-Output)

Processing EPS — Количество обрабатываемых событий в секунду
Output EPS — Количество событий, отправляемых в точку назначения в секунду
Output Latency — Время (медиана), затраченное на передачу пачки событий точке назначения и на получения ответа от нее
Output Errors — Количество ошибок отправки пачки событий точке назначения в секунду. Ошибки отправки в сеть и ошибки записи в дисковый буффер отображаются отдельно
Output Event Loss — Количество потерянных событий в секунду. Потеря может произойти, если их не удалось отправить ни в сеть, ни записать в дисковый буффер
Output Disk Buffer Size — Текущий размер дискового буффера точки назначения. Ноль означает, что ни одна пачка событий не буферизирована, и это хорошо, не копится очередь

Correlation

EPS — Количество корреляционных событий, порождаемых правилом корреляции в секунду
Buckets — Текущее количество бакетов внутри правила корреляции (только для правил Standard)
Rate Limiter Hits — Превышение лимита срабатываний правилом корреляции в секунду
Active Lists OPS — Количество обращений к активному листу в секунду, с указанием операции
Active Lists Records — Текущее количество записей в активном листе
Active Lists On-Disk Size — Текущий размер активного листа на диске

Enrichment

Cache RPS — Количество обращений к локальному кешу в секунду
Source RPS — Количество обращений к источнику обогащения в секунду
Source Latency — Время (медиана), затраченное на отправку запроса и получение ответа от источника обогащения
Queue — Размер очереди запросов на обогащение. Позволяет оценить, является ли данное правило обогащения узким местом
Errors — Количество ошибок обращений к источнику обогащения, обозреваемых в секунду

Response

RPS — Количествово запусков/активаций правил реагирования (response) в секунду.

Метрики Storage

Clickhouse / General

Active Queries — Общее количество запросов, выполняемых в данный момент
QPS — Общее количество запросов в секунду
Failed QPS — Общее количество неуспешных запросов в секунду
Allocated memory — Количество памяти (RAM), выделенное процессу Clickhouse

Clickhouse / Insert

Insert EPS — Количество событий, вставляемых за одну секунду
Insert QPS — Количество запросов на вставку в секунду
Failed Insert QPS — Количество неуспешных запросов на вставку в секунду
Delayed Insert QPS — Количество запросов на вставку (в секунду), которые были отложены нодой Clickhouse по превышению soft лимита активных слияний.
Rejected Insert QPS — Количество запросов на вставку (в секунду), которые были отвергнуты нодой Clickhouse по превышению hard лимита активных слияний.
Active Merges — Количество активных слияний

Clickhouse / Select

Select QPS — Количество запросов на выборку данных в секунду
Failed Select QPS — Количество неуспешных запросов на выборку данных в секунду

Clickhouse / Replication

Active Zookeeper Connections — Количество активных подключений к нодам кластера Zookeeper. В норме должно быть равным количеству нод в кластере Zookeeper
Read-only Replicas — Количество нод-реплик Clickhouse, находящихся в режиме read-only. В норме таких реплик быть не должно (равно нулю)
Active Replication Fetches — Количество активных процессов репликации данных в настоящий момент (скачивание данных с ноды)
Active Replication Sends — Количество активных процессов репликации данных в настоящий момент (отправка данных ноде)
Active Replication Consistency Checks — Количество текущих проверок консистентности данных на репликах

Clickhouse / Networking

Active HTTP Connections — Количество активных подключений к HTTP серверу Clickhouse
Active TCP Connections — Количество активных подключений к TCP серверу Clickhouse
Active Interserver Connections — Количество активных служебных подключений между нодами Clickhouse

Метрики Core

IO (Input-Output)

RPS — Количество запросов в секунду
Latency — Время (медиана), затраченное на обработку одного запроса
Errors — Количество ошибок обоработки запросов в секунду

Notification Feed

Subscriptions — Количество клиентов, подключенных к Core с помощью SSE для получения сообщений от сервера в реальном времени. Обычно равно количеству клиентов, использующих Web-console
Errors — Количество ошибок отправки оповещений в секунду

Schedulers

Active — Текущее количество активных системных повторяющихся задач. Фоновые задачи, запущенные пользователем, не учитываются
Latency — Время (медиана), затраченное на выполнение задачи
Errors — Количество ошибок выполнения задач, обозреваемых в секунду