Описание метрик в KUMA

В KUMA роль системы мониторинга выполняет Victoria Metrics. Информация по всем микросервисам обновляется каждые 5 секунд по HTTP-интерфейсу. А Grafana отвечает за отображение метрик, собранных с помощью Victoria Metrics.

Для просмотра всех наборов графиков щелкните сюда (на имя подсвеченное зеленым) в разделе KUMA "Метрики":

Общие метрики и Agent

Следующие метрики извлекаются из всех микросервисов KUMA

Process — Общие метрики процесса

Memory — Утилизация оперативной памяти, оценивается резидентная память (RSS - Resident set size)

DISK BPS — Количество байт в секунду прочитанных/записанных на диск

Network BPS — Количество байт в секунду полученных/отправленных в сеть

Network Packet Loss — Количество утраченных сетевых пакетов в секунду

GC Latency — Время (медиана), затраченное на цикл Garbage Collector'а GO

Goroutines — Текущее количество активных Go-рутин (потоки в Golang)

OS (Общие метрки операционной системы)

Load — Load average (средняя нагрузка) на ЦП. Обычно да 1, 5 и 15 минут, если число нагрузки за 15 минут более количества ядер (включая виртуальные) системы, то это не нормально

CPU — Общая утилизация ЦП

Memory — Общая утилизация оперативной памяти (RSS). В норме, когда число не доходит до 100%

Disk — Утилизация дискового пространства

Метрики Collectors

IO (Input-Output)

Processing EPS — Количество обрабатываемых событий в секунду

Output EPS — Количество отправляемых в точку назначения событий в секунду

Output Latency — Время, затраченное на передачу пачки событий точке назначения и на получения ответа от нее

Output Errors — Количество ошибок отправки пачки событий точке назначения в секунду. Ошибки отправки по сети и ошибки записи в дисковый буффер отображаются отдельно

Output Event Loss — Количество потерянных событий в секунду. Потеря может произойти, если их не удалось отправить ни в сеть, ни записать в дисковый буффер

Output Disk Buffer Size — Текущий размер дискового буффера точки назначения. Ноль означает, что ни одна пачка событий не буферизирована, и это хорошо, не копится очередь

Normalization

Raw & Normalized event size — Размер (медиана) оригинального лога источника и размер нормализованной формы этого лога (события)

Errors — Количество ошибок нормализации в секунду

Filtration

EPS — Количество событий в секунду, отбрасываемых фильтром коллектора

Aggregation

EPS — Количество событий, входящих и выходящих из правила агрегации в секунду. Позволяет оценить эффективность правил агрегации

Buckets — Текущее количество бакетов в правиле агрегации

Enrichment

Cache RPS — Количество обращений к локальному кешу в секунду

Source RPS — Количество обращений к источнику обогащения в секунду

Source Latency — Время (медиана), затраченное на отправку запроса и получение ответа от источника обогащения

Queue — Размер очереди запросов на обогащение. Позволяет оценить, является ли данное правило обогащения узким местом

Errors — Количество ошибок обращений к источнику обогащения, обозреваемых в секунду

Метрики Correlator

IO (Input-Output)

Processing EPS — Количество обрабатываемых событий в секунду

Output EPS — Количество событий, отправляемых в точку назначения в секунду

Output Latency — Время (медиана), затраченное на передачу пачки событий точке назначения и на получения ответа от нее

Output Errors — Количество ошибок отправки пачки событий точке назначения в секунду. Ошибки отправки в сеть и ошибки записи в дисковый буффер отображаются отдельно

Output Event Loss — Количество потерянных событий в секунду. Потеря может произойти, если их не удалось отправить ни в сеть, ни записать в дисковый буффер

Output Disk Buffer Size — Текущий размер дискового буффера точки назначения. Ноль означает, что ни одна пачка событий не буферизирована, и это хорошо, не копится очередь

Correlation

EPS — Количество корреляционных событий, порождаемых правилом корреляции в секунду

Buckets — Текущее количество бакетов внутри правила корреляции (только для правил Standard)

Rate Limiter Hits — Превышение лимита срабатываний правилом корреляции в секунду

Active Lists OPS — Количество обращений к активному листу в секунду, с указанием операции

Active Lists Records — Текущее количество записей в активном листе

Active Lists On-Disk Size — Текущий размер активного листа на диске

Enrichment

Cache RPS — Количество обращений к локальному кешу в секунду

Source RPS — Количество обращений к источнику обогащения в секунду

Source Latency — Время (медиана), затраченное на отправку запроса и получение ответа от источника обогащения

Queue — Размер очереди запросов на обогащение. Позволяет оценить, является ли данное правило обогащения узким местом

Errors — Количество ошибок обращений к источнику обогащения, обозреваемых в секунду

Response

RPS — Количествово запусков/активаций правил реагирования (response) в секунду.

Метрики Storage

Clickhouse / General

Active Queries — Общее количество запросов, выполняемых в данный момент

QPS — Общее количество запросов в секунду

Failed QPS — Общее количество неуспешных запросов в секунду

Allocated memory — Количество памяти (RAM), выделенное процессу Clickhouse

Clickhouse / Insert

Insert EPS — Количество событий, вставляемых за одну секунду

Insert QPS — Количество запросов на вставку в секунду

Failed Insert QPS — Количество неуспешных запросов на вставку в секунду

Delayed Insert QPS — Количество запросов на вставку (в секунду), которые были отложены нодой Clickhouse по превышению soft лимита активных слияний.

Rejected Insert QPS — Количество запросов на вставку (в секунду), которые были отвергнуты нодой Clickhouse по превышению hard лимита активных слияний.

Active Merges — Количество активных слияний

Clickhouse / Select

Select QPS — Количество запросов на выборку данных в секунду

Failed Select QPS — Количество неуспешных запросов на выборку данных в секунду

Clickhouse / Replication

Active Zookeeper Connections — Количество активных подключений к нодам кластера Zookeeper. В норме должно быть равным количеству нод в кластере Zookeeper

Read-only Replicas — Количество нод-реплик Clickhouse, находящихся в режиме read-only. В норме таких реплик быть не должно (равно нулю)

Active Replication Fetches — Количество активных процессов репликации данных в настоящий момент (скачивание данных с ноды)

Active Replication Sends — Количество активных процессов репликации данных в настоящий момент (отправка данных ноде)

Active Replication Consistency Checks — Количество текущих проверок консистентности данных на репликах

Clickhouse / Networking

Active HTTP Connections — Количество активных подключений к HTTP серверу Clickhouse

Active TCP Connections — Количество активных подключений к TCP серверу Clickhouse

Active Interserver Connections — Количество активных служебных подключений между нодами Clickhouse

Метрики Core

IO (Input-Output)

RPS — Количество запросов в секунду

Latency — Время (медиана), затраченное на обработку одного запроса

Errors — Количество ошибок обоработки запросов в секунду

Notification Feed

Subscriptions — Количество клиентов, подключенных к Core с помощью SSE для получения сообщений от сервера в реальном времени. Обычно равно количеству клиентов, использующих Web-console

Errors — Количество ошибок отправки оповещений в секунду

Schedulers

Active — Текущее количество активных системных повторяющихся задач. Фоновые задачи, запущенные пользователем, не учитываются

Latency — Время (медиана), затраченное на выполнение задачи

Errors — Количество ошибок выполнения задач, обозреваемых в секунду

Back to top