Update Prometheus rule file

rabbitmq-ci · rabbitmq-ci · commit 045c77d4d697 · 2025-06-04T10:46:08.000Z
diff --git a/observability/prometheus/rule-file.yml b/observability/prometheus/rule-file.yml
@@ -22,12 +22,38 @@ groups:
           severity: warning
   - name: rabbitmq
     rules:
+      - alert: InsufficientEstablishedErlangDistributionLinks
+        # erlang_vm_dist_node_state: 1=pending, 2=up_pending, 3=up
+        expr: |
+          count by (namespace, rabbitmq_cluster) (erlang_vm_dist_node_state * on(instance) group_left(rabbitmq_cluster) max by (instance, rabbitmq_cluster) (rabbitmq_identity_info) == 3)
+          <
+           count by (namespace, rabbitmq_cluster) (rabbitmq_build_info * on(instance) group_left(rabbitmq_cluster) max by (instance, rabbitmq_cluster) (rabbitmq_identity_info))
+           *
+          (count by (namespace, rabbitmq_cluster) (rabbitmq_build_info * on(instance) group_left(rabbitmq_cluster) max by (instance, rabbitmq_cluster) (rabbitmq_identity_info)) -1 )
+        for: 10m
+        annotations:
+          description: |
+            There are only `{{ $value }}` established Erlang distribution links
+            in RabbitMQ cluster `{{ $labels.rabbitmq_cluster }}` in namespace `{{ $labels.namespace }}`.
+          summary: |
+            RabbitMQ clusters have a full mesh topology.
+            All RabbitMQ nodes connect to all other RabbitMQ nodes in both directions.
+            The expected number of established Erlang distribution links is therefore `n*(n-1)` where `n` is the number of RabbitMQ nodes in the cluster.
+            Therefore, the expected number of distribution links are `0` for a 1-node cluster, `6` for a 3-node cluster, and `20` for a 5-node cluster.
+            This alert reports that the number of established distributions links is less than the expected number.
+            Some reasons for this alert include failed network links, network partitions, failed clustering (i.e. nodes can't join the cluster).
+            Check the panels `All distribution links`, `Established distribution links`, `Connecting distributions links`, `Waiting distribution links`, and `distribution links`
+            of the Grafana dashboard `Erlang-Distribution`.
+            Check the logs of the RabbitMQ nodes: `kubectl -n {{ $labels.namespace }} logs -l app.kubernetes.io/component=rabbitmq,app.kubernetes.io/name={{ $labels.rabbitmq_cluster }}`
+        labels:
+          rulesgroup: rabbitmq
+          severity: warning
       - alert: UnroutableMessages
         expr: |
-          sum by(namespace, rabbitmq_cluster) (increase(rabbitmq_channel_messages_unroutable_dropped_total[5m]) * on(instance) group_left(rabbitmq_cluster) rabbitmq_identity_info)
+          sum by(namespace, rabbitmq_cluster) (increase(rabbitmq_channel_messages_unroutable_dropped_total[5m]) * on (instance) group_left(rabbitmq_cluster) max by (instance, rabbitmq_cluster) (rabbitmq_identity_info))
           >= 1
           or
-          sum by(namespace, rabbitmq_cluster) (increase(rabbitmq_channel_messages_unroutable_returned_total[5m]) * on(instance) group_left(rabbitmq_cluster) rabbitmq_identity_info)
+          sum by(namespace, rabbitmq_cluster) (increase(rabbitmq_channel_messages_unroutable_returned_total[5m]) * on (instance) group_left(rabbitmq_cluster) max by (instance, rabbitmq_cluster) (rabbitmq_identity_info))
           >= 1
         annotations:
           description: |
@@ -66,118 +92,11 @@ groups:
           rabbitmq_cluster: '{{ $labels.label_app_kubernetes_io_name }}'
           rulesgroup: rabbitmq
           severity: warning
-      - alert: ContainerRestarts
-        expr: |
-          increase(kube_pod_container_status_restarts_total[10m]) * on(namespace, pod, container) group_left(rabbitmq_cluster) max(rabbitmq_identity_info) by (namespace, pod, container, rabbitmq_cluster)
-          >=
-          1
-        for: 5m
-        annotations:
-          description: |
-            Over the last 10 minutes, container `{{ $labels.container }}`
-            restarted `{{ $value | printf "%.0f" }}` times in pod `{{ $labels.pod }}` of RabbitMQ cluster
-            `{{ $labels.rabbitmq_cluster }}` in namespace `{{ $labels.namespace }}`.
-          summary: |
-            Investigate why the container got restarted.
-            Check the logs of the current container: `kubectl -n {{ $labels.namespace }} logs {{ $labels.pod }}`
-            Check the logs of the previous container: `kubectl -n {{ $labels.namespace }} logs {{ $labels.pod }} --previous`
-            Check the last state of the container: `kubectl -n {{ $labels.namespace }} get pod {{ $labels.pod }} -o jsonpath='{.status.containerStatuses[].lastState}'`
-        labels:
-          rabbitmq_cluster: '{{ $labels.rabbitmq_cluster }}'
-          rulesgroup: rabbitmq
-          severity: warning
-      - alert: FileDescriptorsNearLimit
-        expr: |
-          sum by(namespace, rabbitmq_cluster, pod, rabbitmq_node) (max_over_time(rabbitmq_process_open_fds[5m]) * on(instance) group_left(rabbitmq_cluster, rabbitmq_node, pod) max(rabbitmq_identity_info) by (namespace, pod, container, rabbitmq_cluster))
-          /
-          sum by(namespace, rabbitmq_cluster, pod, rabbitmq_node) (rabbitmq_process_max_fds  * on(instance) group_left(rabbitmq_cluster, rabbitmq_node, pod) max(rabbitmq_identity_info) by (namespace, pod, container, rabbitmq_cluster))
-          > 0.8
-        for: 10m
-        annotations:
-          description: |
-            `{{ $value | humanizePercentage }}` file descriptors of file
-            descriptor limit are used in RabbitMQ node `{{ $labels.rabbitmq_node }}`,
-            pod `{{ $labels.pod }}`, RabbitMQ cluster `{{ $labels.rabbitmq_cluster }}`,
-            namespace `{{ $labels.namespace }}`.
-          summary: |
-            More than 80% of file descriptors are used on the RabbitMQ node.
-            When this value reaches 100%, new connections will not be accepted and disk write operations may fail.
-            Client libraries, peer nodes and CLI tools will not be able to connect when the node runs out of available file descriptors.
-            See https://www.rabbitmq.com/production-checklist.html#resource-limits-file-handle-limit.
-        labels:
-          rulesgroup: rabbitmq
-          severity: warning
-      - alert: TCPSocketsNearLimit
-        expr: |
-          sum by(namespace, rabbitmq_cluster, pod, rabbitmq_node) (max_over_time(rabbitmq_process_open_tcp_sockets[5m]) * on(instance) group_left(rabbitmq_cluster, rabbitmq_node, pod) rabbitmq_identity_info)
-          /
-          sum by(namespace, rabbitmq_cluster, pod, rabbitmq_node) (rabbitmq_process_max_tcp_sockets  * on(instance) group_left(rabbitmq_cluster, rabbitmq_node, pod) rabbitmq_identity_info)
-          > 0.8
-        for: 10m
-        annotations:
-          description: |
-            `{{ $value | humanizePercentage }}` TCP sockets of TCP socket
-            limit are open in RabbitMQ node `{{ $labels.rabbitmq_node }}`, pod `{{ $labels.pod }}`,
-            RabbitMQ cluster `{{ $labels.rabbitmq_cluster }}`, namespace `{{ $labels.namespace }}`.
-          summary: |
-            More than 80% of TCP sockets are open on the RabbitMQ node.
-            When this value reaches 100%, new connections will not be accepted.
-            Client libraries, peer nodes and CLI tools will not be able to connect when the node runs out of available TCP sockets.
-            See https://www.rabbitmq.com/networking.html.
-        labels:
-          rulesgroup: rabbitmq
-          severity: warning
-      - alert: PersistentVolumeMissing
-        expr: |
-          kube_persistentvolumeclaim_status_phase{phase="Bound"} * on (namespace, persistentvolumeclaim) group_left(label_app_kubernetes_io_name) kube_persistentvolumeclaim_labels{label_app_kubernetes_io_component="rabbitmq"}
-          ==
-          0
-        for: 10m
-        annotations:
-          description: |
-            PersistentVolumeClaim `{{ $labels.persistentvolumeclaim }}` of
-            RabbitMQ cluster `{{ $labels.label_app_kubernetes_io_name }}` in namespace
-            `{{ $labels.namespace }}` is not bound.
-          summary: |
-            RabbitMQ needs a PersistentVolume for its data.
-            However, there is no PersistentVolume bound to the PersistentVolumeClaim.
-            This means the requested storage could not be provisioned.
-            Check the status of the PersistentVolumeClaim: `kubectl -n {{ $labels.namespace }} describe pvc {{ $labels.persistentvolumeclaim }}`.
-        labels:
-          rabbitmq_cluster: '{{ $labels.label_app_kubernetes_io_name }}'
-          rulesgroup: rabbitmq
-          severity: critical
-      - alert: InsufficientEstablishedErlangDistributionLinks
-        # erlang_vm_dist_node_state: 1=pending, 2=up_pending, 3=up
-        expr: |
-          count by (namespace, rabbitmq_cluster) (erlang_vm_dist_node_state * on(instance) group_left(rabbitmq_cluster) max(rabbitmq_identity_info) by (namespace, pod, container, rabbitmq_cluster) == 3)
-          <
-           count by (namespace, rabbitmq_cluster) (rabbitmq_build_info * on(instance) group_left(rabbitmq_cluster) max(rabbitmq_identity_info) by (namespace, pod, container, rabbitmq_cluster))
-           *
-          (count by (namespace, rabbitmq_cluster) (rabbitmq_build_info * on(instance) group_left(rabbitmq_cluster) max(rabbitmq_identity_info) by (namespace, pod, container, rabbitmq_cluster)) -1 )
-        for: 10m
-        annotations:
-          description: |
-            There are only `{{ $value }}` established Erlang distribution links
-            in RabbitMQ cluster `{{ $labels.rabbitmq_cluster }}` in namespace `{{ $labels.namespace }}`.
-          summary: |
-            RabbitMQ clusters have a full mesh topology.
-            All RabbitMQ nodes connect to all other RabbitMQ nodes in both directions.
-            The expected number of established Erlang distribution links is therefore `n*(n-1)` where `n` is the number of RabbitMQ nodes in the cluster.
-            Therefore, the expected number of distribution links are `0` for a 1-node cluster, `6` for a 3-node cluster, and `20` for a 5-node cluster.
-            This alert reports that the number of established distributions links is less than the expected number.
-            Some reasons for this alert include failed network links, network partitions, failed clustering (i.e. nodes can't join the cluster).
-            Check the panels `All distribution links`, `Established distribution links`, `Connecting distributions links`, `Waiting distribution links`, and `distribution links`
-            of the Grafana dashboard `Erlang-Distribution`.
-            Check the logs of the RabbitMQ nodes: `kubectl -n {{ $labels.namespace }} logs -l app.kubernetes.io/component=rabbitmq,app.kubernetes.io/name={{ $labels.rabbitmq_cluster }}`
-        labels:
-          rulesgroup: rabbitmq
-          severity: warning
       - alert: MemoryAlarm
         expr: |
           max by(rabbitmq_cluster) (
             max_over_time(rabbitmq_alarms_memory_used_watermark[5m])
-            * on(instance) group_left(rabbitmq_cluster, rabbitmq_node, pod) max(rabbitmq_identity_info) by (namespace, pod, container, rabbitmq_cluster)
+            * on(instance) group_left(rabbitmq_cluster) max by (instance, rabbitmq_cluster) (rabbitmq_identity_info)
           ) > 0
         keep_firing_for: 5m
         annotations:
@@ -193,7 +112,7 @@ groups:
         expr: |
           max by(rabbitmq_cluster) (
             max_over_time(rabbitmq_alarms_free_disk_space_watermark[5m])
-            * on(instance) group_left(rabbitmq_cluster, rabbitmq_node, pod) max(rabbitmq_identity_info) by (namespace, pod, container, rabbitmq_cluster)
+            * on(instance) group_left(rabbitmq_cluster) max by (instance, rabbitmq_cluster) (rabbitmq_identity_info)
           ) > 0
         keep_firing_for: 5m
         annotations:
@@ -209,7 +128,7 @@ groups:
         expr: |
           max by(rabbitmq_cluster) (
             max_over_time(rabbitmq_alarms_file_descriptor_limit[5m])
-            * on(instance) group_left(rabbitmq_cluster, rabbitmq_node, pod) max(rabbitmq_identity_info) by (namespace, pod, container, rabbitmq_cluster)
+            * on(instance) group_left(rabbitmq_cluster) max by (instance, rabbitmq_cluster) (rabbitmq_identity_info)
           ) > 0
         keep_firing_for: 5m
         annotations:
@@ -221,18 +140,71 @@ groups:
         labels:
           rulesgroup: rabbitmq
           severity: warning
+      - alert: FileDescriptorsNearLimit
+        expr: |
+          sum by(namespace, rabbitmq_cluster, pod, rabbitmq_node) (max_over_time(rabbitmq_process_open_fds[5m]) * on(instance) group_left(rabbitmq_cluster, rabbitmq_node) max by (instance, rabbitmq_node, rabbitmq_cluster) (rabbitmq_identity_info))
+          /
+          sum by(namespace, rabbitmq_cluster, pod, rabbitmq_node) (rabbitmq_process_max_fds * on(instance) group_left(rabbitmq_cluster, rabbitmq_node) max by (instance, rabbitmq_node, rabbitmq_cluster) (rabbitmq_identity_info))
+          > 0.8
+        for: 10m
+        annotations:
+          description: |
+            `{{ $value | humanizePercentage }}` file descriptors of file
+            descriptor limit are used in RabbitMQ node `{{ $labels.rabbitmq_node }}`,
+            pod `{{ $labels.pod }}`, RabbitMQ cluster `{{ $labels.rabbitmq_cluster }}`,
+            namespace `{{ $labels.namespace }}`.
+          summary: |
+            More than 80% of file descriptors are used on the RabbitMQ node.
+            When this value reaches 100%, new connections will not be accepted and disk write operations may fail.
+            Client libraries, peer nodes and CLI tools will not be able to connect when the node runs out of available file descriptors.
+            See https://www.rabbitmq.com/production-checklist.html#resource-limits-file-handle-limit.
+        labels:
+          rulesgroup: rabbitmq
+          severity: warning
+      - alert: ContainerRestarts
+        expr: |
+          increase(kube_pod_container_status_restarts_total[10m])
+          * on(namespace, pod, container) group_left(rabbitmq_cluster) max by (namespace, pod, container, rabbitmq_cluster) (rabbitmq_identity_info)
+          >= 1
+        for: 5m
+        annotations:
+          description: |
+            Over the last 10 minutes, container `{{ $labels.container }}`
+            restarted `{{ $value | printf "%.0f" }}` times in pod `{{ $labels.pod }}` of RabbitMQ cluster
+            `{{ $labels.rabbitmq_cluster }}` in namespace `{{ $labels.namespace }}`.
+          summary: |
+            Investigate why the container got restarted.
+            Check the logs of the current container: `kubectl -n {{ $labels.namespace }} logs {{ $labels.pod }}`
+            Check the logs of the previous container: `kubectl -n {{ $labels.namespace }} logs {{ $labels.pod }} --previous`
+            Check the last state of the container: `kubectl -n {{ $labels.namespace }} get pod {{ $labels.pod }} -o jsonpath='{.status.containerStatuses[].lastState}'`
+        labels:
+          rabbitmq_cluster: '{{ $labels.rabbitmq_cluster }}'
+          rulesgroup: rabbitmq
+          severity: warning
       - alert: HighConnectionChurn
         expr: |
           (
-            sum(rate(rabbitmq_connections_closed_total[5m]) * on(instance) group_left(rabbitmq_cluster, rabbitmq_node) max(rabbitmq_identity_info) by (namespace, pod, container, rabbitmq_cluster)) by(namespace, rabbitmq_cluster)
+            sum by (namespace, rabbitmq_cluster) (
+              rate(rabbitmq_connections_closed_total[5m])
+              * on (instance) group_left (rabbitmq_cluster) max by (instance, rabbitmq_cluster) (rabbitmq_identity_info)
+            )
             +
-            sum(rate(rabbitmq_connections_opened_total[5m]) * on(instance) group_left(rabbitmq_cluster, rabbitmq_node) max(rabbitmq_identity_info) by (namespace, pod, container, rabbitmq_cluster)) by(namespace, rabbitmq_cluster)
+            sum by (namespace, rabbitmq_cluster) (
+              rate(rabbitmq_connections_opened_total[5m])
+              * on (instance) group_left (rabbitmq_cluster) max by (instance, rabbitmq_cluster) (rabbitmq_identity_info)
+            )
           )
           /
-          sum (rabbitmq_connections * on(instance) group_left(rabbitmq_cluster) max(rabbitmq_identity_info) by (namespace, pod, container, rabbitmq_cluster)) by (namespace, rabbitmq_cluster)
+          sum by (namespace, rabbitmq_cluster) (
+            rabbitmq_connections
+            * on (instance) group_left (rabbitmq_cluster) max by (instance, rabbitmq_cluster) (rabbitmq_identity_info)
+          )
           > 0.1
           unless
-          sum (rabbitmq_connections * on(instance) group_left(rabbitmq_cluster) max(rabbitmq_identity_info) by (namespace, pod, container, rabbitmq_cluster)) by (namespace, rabbitmq_cluster)
+          sum by (namespace, rabbitmq_cluster) (
+            rabbitmq_connections
+            * on (instance) group_left (rabbitmq_cluster) max by (instance, rabbitmq_cluster) (rabbitmq_identity_info)
+          )
           < 100
         for: 10m
         annotations:
@@ -251,13 +223,13 @@ groups:
         # The 2nd condition ensures that data points are available until 24 hours ago such that no false positive alerts are triggered for newly created RabbitMQ clusters.
         expr: |
           (
-            predict_linear(rabbitmq_disk_space_available_bytes[24h], 60*60*24) * on (instance, pod) group_left(rabbitmq_cluster, rabbitmq_node) max(rabbitmq_identity_info) by (namespace, pod, container, rabbitmq_cluster)
+            predict_linear(rabbitmq_disk_space_available_bytes[24h], 60*60*24) * on (instance) group_left(rabbitmq_cluster, rabbitmq_node) max by (instance, rabbitmq_node, rabbitmq_cluster) (rabbitmq_identity_info)
             <
-            rabbitmq_disk_space_available_limit_bytes * on (instance, pod) group_left(rabbitmq_cluster, rabbitmq_node) max(rabbitmq_identity_info) by (namespace, pod, container, rabbitmq_cluster)
+            rabbitmq_disk_space_available_limit_bytes * on (instance) group_left(rabbitmq_cluster, rabbitmq_node) max by (instance, rabbitmq_node, rabbitmq_cluster) (rabbitmq_identity_info)
           )
           and
           (
-            count_over_time(rabbitmq_disk_space_available_limit_bytes[2h] offset 22h) * on (instance, pod) group_left(rabbitmq_cluster, rabbitmq_node) max(rabbitmq_identity_info) by (namespace, pod, container, rabbitmq_cluster)
+            count_over_time(rabbitmq_disk_space_available_limit_bytes[2h] offset 22h) * on (instance) group_left(rabbitmq_cluster, rabbitmq_node) max by (instance, rabbitmq_node, rabbitmq_cluster) (rabbitmq_identity_info)
             >
             0
           )
@@ -280,6 +252,26 @@ groups:
         labels:
           rulesgroup: rabbitmq
           severity: warning
+      - alert: PersistentVolumeMissing
+        expr: |
+          kube_persistentvolumeclaim_status_phase{phase="Bound"} * on (namespace, persistentvolumeclaim) group_left(label_app_kubernetes_io_name) kube_persistentvolumeclaim_labels{label_app_kubernetes_io_component="rabbitmq"}
+          ==
+          0
+        for: 10m
+        annotations:
+          description: |
+            PersistentVolumeClaim `{{ $labels.persistentvolumeclaim }}` of
+            RabbitMQ cluster `{{ $labels.label_app_kubernetes_io_name }}` in namespace
+            `{{ $labels.namespace }}` is not bound.
+          summary: |
+            RabbitMQ needs a PersistentVolume for its data.
+            However, there is no PersistentVolume bound to the PersistentVolumeClaim.
+            This means the requested storage could not be provisioned.
+            Check the status of the PersistentVolumeClaim: `kubectl -n {{ $labels.namespace }} describe pvc {{ $labels.persistentvolumeclaim }}`.
+        labels:
+          rabbitmq_cluster: '{{ $labels.label_app_kubernetes_io_name }}'
+          rulesgroup: rabbitmq
+          severity: critical
       # The first 2 rules create a metric ALERTS:rabbitmq_alert_state_numeric which has value 1 for alertstate pending and value 2 for alertstate firing
       - expr: |
           ALERTS{rulesgroup="rabbitmq", alertstate="pending"} * 0 + 1