Skip to main content

Описание метрик в KUMA

В KUMA роль системы мониторинга выполняет Victoria Metrics. Информация по всем микросервисам обновляется каждые 5 секунд по HTTP-интерфейсу. А Grafana отвечает за отображение метрик, собранных с помощью Victoria Metrics.

Для просмотра всех наборов графиков щелкните сюда (на имя подсвеченное зеленым) в разделе KUMA "Метрики":

image.png

 

Общие метрики и Agent

Следующие метрики извлекаются из всех микросервисов KUMA

  • Process — Общие метрики процесса
  • Memory — Утилизация оперативной памяти, оценивается резидентная память (RSS - Resident set size)
  • DISK BPS — Количество байт в секунду прочитанных/записанных на диск
  • Network BPS — Количество байт в секунду полученных/отправленных в сеть
  • Network Packet Loss — Количество утраченных сетевых пакетов в секунду
  • GC Latency — Время (медиана), затраченное на цикл Garbage Collector'а GO
  • Goroutines — Текущее количество активных Go-рутин (потоки в Golang)
OS (Общие метрки операционной системы)
  • Load — Load average (средняя нагрузка) на ЦП. Обычно да 1, 5  и 15 минут, если число нагрузки за 15 минут более количества ядер (включая виртуальные) системы, то это не нормально
  • CPU — Общая утилизация ЦП
  • Memory — Общая утилизация оперативной памяти (RSS). В норме, когда число не доходит до 100%
  • Disk — Утилизация дискового пространства

 

Метрики Collectors

IO (Input-Output)
  • Processing EPS — Количество обрабатываемых событий в секунду
  • Output EPS — Количество отправляемых в точку назначения событий в секунду
  • Output Latency — Время, затраченное на передачу пачки событий точке назначения и на получения ответа от нее
  • Output Errors — Количество ошибок отправки пачки событий точке назначения в секунду. Ошибки отправки по сети и ошибки записи в дисковый буффер отображаются отдельно
  • Output Event Loss — Количество потерянных событий в секунду. Потеря может произойти, если их не удалось отправить ни в сеть, ни записать в дисковый буффер
  • Output Disk Buffer Size — Текущий размер дискового буффера точки назначения. Ноль означает, что ни одна пачка событий не буферизирована, и это хорошо, не копится очередь
Normalization
  • Raw & Normalized event size — Размер (медиана) оригинального лога источника и размер нормализованной формы этого лога (события)
  • Errors — Количество ошибок нормализации в секунду
Filtration
  • EPS — Количество событий в секунду, отбрасываемых фильтром коллектора
Aggregation
  • EPS — Количество событий, входящих и выходящих из правила агрегации в секунду. Позволяет оценить эффективность правил агрегации
  • Buckets — Текущее количество бакетов в правиле агрегации
Enrichment
  • Cache RPS — Количество обращений к локальному кешу в секунду
  • Source RPS — Количество обращений к источнику обогащения в секунду
  • Source Latency — Время (медиана), затраченное на отправку запроса и получение ответа от источника обогащения
  • Queue — Размер очереди запросов на обогащение. Позволяет оценить, является ли данное правило обогащения узким местом
  • Errors — Количество ошибок обращений к источнику обогащения, обозреваемых в секунду

 

Метрики Correlator

IO (Input-Output)
  • Processing EPS — Количество обрабатываемых событий в секунду
  • Output EPS — Количество событий, отправляемых в точку назначения в секунду
  • Output Latency — Время (медиана), затраченное на передачу пачки событий точке назначения и на получения ответа от нее
  • Output Errors — Количество ошибок отправки пачки событий точке назначения в секунду. Ошибки отправки в сеть и ошибки записи в дисковый буффер отображаются отдельно
  • Output Event Loss — Количество потерянных событий в секунду. Потеря может произойти, если их не удалось отправить ни в сеть, ни записать в дисковый буффер
  • Output Disk Buffer Size — Текущий размер дискового буффера точки назначения. Ноль означает, что ни одна пачка событий не буферизирована, и это хорошо, не копится очередь
Correlation
  • EPS — Количество корреляционных событий, порождаемых правилом корреляции в секунду
  • Buckets — Текущее количество бакетов внутри правила корреляции (только для правил Standard)
  • Rate Limiter Hits — Превышение лимита срабатываний правилом корреляции в секунду
  • Active Lists OPS — Количество обращений к активному листу в секунду, с указанием операции
  • Active Lists Records — Текущее количество записей в активном листе
  • Active Lists On-Disk Size — Текущий размер активного листа на диске
Enrichment
  • Cache RPS — Количество обращений к локальному кешу в секунду
  • Source RPS — Количество обращений к источнику обогащения в секунду
  • Source Latency — Время (медиана), затраченное на отправку запроса и получение ответа от источника обогащения
  • Queue — Размер очереди запросов на обогащение. Позволяет оценить, является ли данное правило обогащения узким местом
  • Errors — Количество ошибок обращений к источнику обогащения, обозреваемых в секунду
Response
  • RPS — Количествово запусков/активаций правил реагирования (response) в секунду.

 

Метрики Storage

Clickhouse / General
  • Active Queries — Общее количество запросов, выполняемых в данный момент
  • QPS — Общее количество запросов в секунду
  • Failed QPS — Общее количество неуспешных запросов в секунду
  • Allocated memory — Количество памяти (RAM), выделенное процессу Clickhouse
Clickhouse / Insert
  • Insert EPS — Количество событий, вставляемых за одну секунду
  • Insert QPS — Количество запросов на вставку в секунду
  • Failed Insert QPS — Количество неуспешных запросов на вставку в секунду
  • Delayed Insert QPS — Количество запросов на вставку (в секунду), которые были отложены нодой Clickhouse по превышению soft лимита активных слияний.
  • Rejected Insert QPS — Количество запросов на вставку (в секунду), которые были отвергнуты нодой Clickhouse по превышению hard лимита активных слияний.
  • Active Merges — Количество активных слияний
Clickhouse / Select
  • Select QPS — Количество запросов на выборку данных в секунду
  • Failed Select QPS — Количество неуспешных запросов на выборку данных в секунду
Clickhouse / Replication
  • Active Zookeeper Connections — Количество активных подключений к нодам кластера Zookeeper. В норме должно быть равным количеству нод в кластере Zookeeper
  • Read-only Replicas — Количество нод-реплик Clickhouse, находящихся в режиме read-only. В норме таких реплик быть не должно (равно нулю)
  • Active Replication Fetches — Количество активных процессов репликации данных в настоящий момент (скачивание данных с ноды)
  • Active Replication Sends — Количество активных процессов репликации данных в настоящий момент (отправка данных ноде)
  • Active Replication Consistency Checks — Количество текущих проверок консистентности данных на репликах
Clickhouse / Networking
  • Active HTTP Connections — Количество активных подключений к HTTP серверу Clickhouse
  • Active TCP Connections — Количество активных подключений к TCP серверу Clickhouse
  • Active Interserver Connections — Количество активных служебных подключений между нодами Clickhouse

 

Метрики Core

IO (Input-Output)
  • RPS — Количество запросов в секунду
  • Latency — Время (медиана), затраченное на обработку одного запроса
  • Errors — Количество ошибок обоработки запросов в секунду
Notification Feed
  • Subscriptions — Количество клиентов, подключенных к Core с помощью SSE для получения сообщений от сервера в реальном времени. Обычно равно количеству клиентов, использующих Web-console
  • Errors — Количество ошибок отправки оповещений в секунду
Schedulers
  • Active — Текущее количество активных системных повторяющихся задач. Фоновые задачи, запущенные пользователем, не учитываются
  • Latency — Время (медиана), затраченное на выполнение задачи
  • Errors — Количество ошибок выполнения задач, обозреваемых в секунду