Grafana Alerting: Monitoring & Notifikasi Otomatis

📋 Daftar Isi

Pengenalan Grafana Alerting
Arsitektur & Komponen Alerting
Membuat Alert Rules
Contact Points: Telegram & Email
Notification Policies
Silence & Mute Timings
Dashboard Khusus Alerting
Best Practices Grafana Alerting
Quiz Pemahaman

1. Pengenalan Grafana Alerting

Dalam dunia monitoring, memiliki dashboard yang indah saja tidak cukup. Kamu membutuhkan sistem yang secara otomatis memberitahu kamu ketika sesuatu yang tidak normal terjadi — apakah itu server yang down, CPU yang overload, suhu yang terlalu tinggi, atau jaringan yang mendadak lambat. Di sinilah Grafana Alerting berperan penting.

Grafana Alerting adalah sistem notifikasi terintegrasi yang memungkinkan kamu mendefinisikan kondisi kapan alert harus dikirim, ke mana alert dikirim, dan bagaimana alert dikelompokkan. Sistem ini hadir secara native di Grafana 8+ dan sepenuhnya menggantikan sistem alerting lama yang lebih terbatas.

Mengapa Alerting Penting?

Bayangkan skenario berikut: kamu memiliki dashboard monitoring suhu server room. Kamu melihat dashboard hanya di jam kerja. Tapi malam hari, suhu naik drastis karena AC mati. Tanpa alerting, kamu baru tahu keesokan harinya ketika server sudah mati karena overheat.

Dengan Grafana Alerting, sistem akan otomatis:

Memantau 24/7 — alert berjalan terus meskipun tidak ada yang melihat dashboard
Memberi notifikasi instan — via Telegram, email, Slack, webhook, atau integrasi lainnya
Menyesuaikan prioritas — alert kritis ke tim on-call, alert info ke channel umum
Mengelola noise — fitur silence dan mute untuk menghindari alert berlebihan

Fitur Baru Grafana Alerting (Unified Alerting)

Fitur	Unified Alerting (8+)	Legacy Alerting
Multi-condition Alert	✅ Didukung penuh	❌ Terbatas
Multiple Contact Points	✅ Banyak sekaligus	⚠️ Satu per alert
Notification Policies	✅ Routing berdasarkan label	❌ Tidak ada
Silence & Mute Timing	✅ Lengkap	⚠️ Silence saja
State & Health History	✅ Detail per rule	⚠️ Terbatas
Provisioning as Code	✅ File YAML/JSON	⚠️ Terbatas
Data Source Kompatibel	Semua + expression query	Hanya Grafana-managed

💡 Pastikan Unified Alerting Aktif

Di Grafana 8+, Unified Alerting aktif secara default. Jika kamu masih menggunakan Grafana lama, buka grafana.ini dan pastikan [unified_alerting] enabled = true lalu restart Grafana. Menu Alert & IRM akan muncul di sidebar kiri.

2. Arsitektur & Komponen Alerting

Sebelum mulai membuat alert, penting untuk memahami bagaimana komponen-komponen Grafana Alerting saling terhubung. Sistem ini terdiri dari beberapa komponen utama yang bekerja sama dalam satu pipeline.

Diagram: Pipeline Grafana Alerting

  ┌─────────────────────────────────────────────────────────────┐
  │                    GRAFANA ALERTING                         │
  │                                                             │
  │  ┌──────────────┐    ┌──────────────────┐                   │
  │  │  Data Source  │───▶│   Alert Rules    │                   │
  │  │ (Prometheus,  │    │                  │                   │
  │  │  InfluxDB,    │    │ - Condition      │                   │
  │  │  MySQL, dll)  │    │ - Threshold      │                   │
  │  └──────────────┘    │ - Evaluate every │                   │
  │                       │ - Labels         │                   │
  │                       └────────┬─────────┘                   │
  │                                │                             │
  │                       ┌────────▼─────────┐                   │
  │                       │  Notification    │                   │
  │                       │   Policies       │                   │
  │                       │                  │                   │
  │                       │ - Route by label │                   │
  │                       │ - Grouping       │                   │
  │                       │ - Timing         │                   │
  │                       └────────┬─────────┘                   │
  │                                │                             │
  │              ┌─────────────────┼─────────────────┐           │
  │              │                 │                  │           │
  │     ┌────────▼──────┐ ┌───────▼────────┐ ┌──────▼────────┐  │
  │     │  📱 Telegram   │ │  📧 Email      │ │  🔗 Webhook   │  │
  │     │  Contact Point │ │  Contact Point │ │  Contact Point │  │
  │     └───────────────┘ └────────────────┘ └────────────────┘  │
  │                                                             │
  │  ┌──────────────┐    ┌──────────────────┐                   │
  │  │  Silence     │    │  Mute Timings    │                   │
  │  │ (temporary)  │    │ (scheduled)      │                   │
  │  └──────────────┘    └──────────────────┘                   │
  └─────────────────────────────────────────────────────────────┘

Komponen Utama

Alert Rules — Mendefinisikan kondisi kapan alert harus aktif. Misalnya: "CPU > 90% selama 5 menit"
Contact Points — Destinasi notifikasi: Telegram bot, email, Slack, webhook, PagerDuty, dll.
Notification Policies — Routing alert berdasarkan label ke contact point yang tepat, plus pengaturan grouping dan timing
Silence — Menonaktifkan alert sementara (misalnya saat maintenance server)
Mute Timings — Menjadwalkan waktu kapan alert tidak dikirim (misalnya jam 12 malam - 6 pagi untuk alert non-kritis)

Alur kerjanya sederhana: Alert Rule mengevaluasi data dari data source → jika kondisi terpenuhi, alert dikirim ke Notification Policy → policy merutekan ke Contact Point yang sesuai → notifikasi sampai ke tim yang tepat.

3. Membuat Alert Rules

Alert Rule adalah jantung dari sistem alerting. Setiap rule mendefinisikan: dari mana data diambil, kondisi apa yang diuji, seberapa sering dievaluasi, dan label apa yang dilekatkan pada alert.

Langkah-langkah Membuat Alert Rule

Buka Grafana → sidebar kiri → Alert & IRM → Alert rules
Klik tombol "+ New alert rule"
Isi tiga bagian utama: Query, Conditions, dan Labels

Contoh: Alert CPU Usage Server

Misalnya kamu ingin membuat alert ketika CPU usage server melebihi 90% selama 5 menit:

PromQL — Query CPU Usage

# CPU Usage % (dari Prometheus data source)
100 - (avg by(instance) (irate(node_cpu_seconds_total{mode="idle"}[5m])) * 100)

Pengaturan di halaman Alert Rule:

Pengaturan	Nilai	Keterangan
Rule name	`High CPU Usage`	Nama yang deskriptif untuk alert ini
Data source	`Prometheus`	Sumber data metrik
Evaluate every	`1m`	Seberapa sering rule dievaluasi
Evaluate for	`5m`	Berapa lama kondisi harus terpenuhi sebelum alert aktif
Threshold condition	`IS ABOVE 90`	Alert aktif jika nilai > 90%
Labels	`severity: critical`	Label untuk routing di notification policy

Jenis-jenis Alert Condition

Grafana mendukung berbagai jenis kondisi evaluasi:

Diagram: Jenis Alert Conditions

  ┌─────────────────────────────────────────────────────┐
  │              JENIS ALERT CONDITIONS                  │
  ├─────────────────────────────────────────────────────┤
  │                                                      │
  │  1. Threshold (Paling Umum)                          │
  │     ──────────────────────────────                   │
  │     • IS ABOVE x     → nilai > x                     │
  │     • IS BELOW x     → nilai < x                     │
  │     • IS EQUALS x    → nilai = x                     │
  │     • IS OUTSIDE RANGE x-y                           │
  │                                                      │
  │  2. Has No Value                                      │
  │     ──────────────────────────────                   │
  │     Alert jika tidak ada data sama sekali            │
  │     Berguna untuk mendeteksi data source down        │
  │                                                      │
  │  3. Reduced Expression                                │
  │     ──────────────────────────────                   │
  │     • last()     → nilai terakhir                    │
  │     • mean()     → rata-rata                         │
  │     • min()      → minimum                           │
  │     • max()      → maksimum                          │
  │     • count()    → jumlah data point                 │
  │                                                      │
  └─────────────────────────────────────────────────────┘

Contoh Alert Rule dengan Flux (InfluxDB)

Flux — Alert Suhu Kritis

from(bucket: "iot-data")
  |> range(start: -5m)
  |> filter(fn: (r) => r._measurement == "suhu_ruang")
  |> filter(fn: (r) => r._field == "suhu")
  |> aggregateWindow(every: 1m, fn: mean, createEmpty: false)
  |> last()

Pengaturan untuk alert suhu IoT:

Evaluate every: 1 menit
Evaluate for: 3 menit (menghindari spike sesaat)
Threshold Warning: suhu > 32°C → label severity: warning
Threshold Critical: suhu > 35°C → label severity: critical

Menggunakan Math Expression

Grafana memungkinkan membuat multiple query dalam satu rule dan mengkombinasikannya dengan expression:

Konfigurasi — Multi-Query Alert Rule

# Query A: CPU Usage (datasource: Prometheus)
100 - (avg by(instance) (irate(node_cpu_seconds_total{mode="idle"}[5m])) * 100)

# Query B: Memory Usage (datasource: Prometheus)
(1 - (node_memory_MemAvailable_bytes / node_memory_MemTotal_bytes)) * 100

# Expression C: Math — Alert aktif jika CPU > 90% ATAU Memory > 85%
$A > 90 OR $B > 85

⚠️ Hati-hati dengan Evaluate For = 0

Jika Evaluate for diisi 0s (nol detik), alert akan langsung aktif saat kondisi terpenuhi. Ini rentan terhadap false alarm akibat spike data sesaat. Untuk produksi, selalu gunakan minimal 2-5 menit agar kondisi benar-benar stabil sebelum alert dikirim.

4. Contact Points: Telegram & Email

Contact Points adalah tujuan akhir dari notifikasi alert. Grafana mendukung banyak jenis contact point: Telegram, Email, Slack, Discord, PagerDuty, webhook, dan banyak lagi. Di bagian ini, kita akan fokus pada dua yang paling populer: Telegram dan Email.

4.1 Integrasi Telegram

Telegram adalah salah satu platform terbaik untuk menerima alert karena cepat, gratis, dan mendukung bot API yang kuat.

Langkah 1: Membuat Telegram Bot

Buka Telegram, cari @BotFather
Kirim perintah /newbot
Berikan nama bot, misalnya: Grafana Monitor Bot
Berikan username bot, misalnya: grafana_monitor_bot
BotFather akan mengirim API Token, simpan token ini. Format: 123456789:ABCdefGhIjKlMnOpQrStUvWxYz

Langkah 2: Mendapatkan Chat ID

Chat ID dibutuhkan agar bot tahu ke mana mengirim pesan. Ada beberapa cara:

Terminal — Mendapatkan Chat ID Telegram

# Cara 1: Kirim pesan dulu ke bot (klik Start), lalu akses URL ini:
curl "https://api.telegram.org/bot/getUpdates"

# Response akan berisi chat_id, contoh:
# "chat": { "id": 123456789, "first_name": "Nama", "type": "private" }

# Cara 2: Untuk grup Telegram:
# 1. Tambahkan bot ke grup Telegram
# 2. Kirim pesan apapun di grup
# 3. Jalankan curl yang sama
# Chat ID grup biasanya negatif: -1001234567890

Langkah 3: Konfigurasi Contact Point di Grafana

Buka Grafana → Alert & IRM → Contact points
Klik "+ Add contact point"
Berikan nama, misalnya: Telegram Tim Ops
Pilih integration: Telegram
Isi pengaturan berikut:

Field	Nilai	Keterangan
Telegram Bot Token	`123456789:ABC...`	Token dari BotFather
Chat ID	`123456789`	ID chat/grup tujuan
Message Template	(opsional)	Custom template pesan

Custom Message Template Telegram

Grafana mendukung template Go untuk mengkustomisasi isi pesan alert:

Go Template — Custom Telegram Message

{{ define "custom.telegram.message" }}
{{ if .Alerts.Firing }}
🔥 *ALERT FIRING*
{{ range .Alerts.Firing }}
━━━━━━━━━━━━━━━━
📌 *Rule:* {{ .Labels.alertname }}
⚠️ *Severity:* {{ .Labels.severity }}
📝 *Summary:* {{ .Annotations.summary }}
💡 *Description:* {{ .Annotations.description }}
⏰ *Time:* {{ .StartsAt.Format "02-01-2006 15:04:05" }}
{{ end }}
{{ end }}
{{ if .Alerts.Resolved }}
✅ *ALERT RESOLVED*
{{ range .Alerts.Resolved }}
━━━━━━━━━━━━━━━━
📌 *Rule:* {{ .Labels.alertname }}
⏰ *Resolved At:* {{ .EndsAt.Format "02-01-2006 15:04:05" }}
{{ end }}
{{ end }}
{{ end }}

💡 Tips: Test Contact Point

Setelah menyimpan contact point, klik tombol "Test" untuk mengirim pesan percobaan. Pastikan bot sudah di-Start (untuk chat pribadi) atau sudah ditambahkan ke grup (untuk grup). Jika test berhasil, pesan akan muncul di Telegram dalam hitungan detik.

4.2 Integrasi Email (SMTP)

Email adalah channel notifikasi klasik yang cocok untuk laporan dan alert formal. Untuk mengaktifkan email, kamu perlu mengkonfigurasi SMTP di Grafana.

Konfigurasi SMTP di grafana.ini

grafana.ini — Konfigurasi SMTP Email

[smtp]
enabled = true
host = smtp.gmail.com:587
user = monitoring@example.com
password = app_password_kamu
from_address = monitoring@example.com
from_name = Grafana Alerting
starttls_policy = MandatoryStartTLS
skip_verify = false

[emails]
welcome_email_on_sign_up = false
templates_pattern = emails/*.html

⚠️ Gunakan App Password untuk Gmail

Jangan gunakan password Gmail biasa! Buat App Password di Google Account → Security → 2-Step Verification → App Passwords. Pilih "Mail" dan generate password baru. Gunakan password tersebut di konfigurasi SMTP Grafana. Untuk produksi, gunakan layanan transactional email seperti SendGrid, Mailgun, atau Amazon SES.

Menambahkan Email Contact Point

Buka Alert & IRM → Contact points → + Add contact point
Pilih integration: Email
Isi Addresses dengan satu atau lebih email (pisahkan dengan koma untuk multiple penerima)
Opsional: centang Single email jika ingin semua alert dikirim dalam satu email

Contact Point	Kelebihan	Kekurangan	Cocok Untuk
📱 Telegram	Cepat, gratis, support bot API, group chat	Perlu setup bot, rentan spam jika chat ID bocor	Tim operasional, alert real-time
📧 Email	Formal, mudah dibaca, arsip otomatis	Lambat, bisa masuk spam, perlu SMTP server	Laporan harian, alert manajemen
💬 Slack	Collaboration, threads, rich formatting	Butuh workspace Slack	Tim DevOps, pengguna Slack aktif
🔗 Webhook	Fleksibel, bisa integrasi ke sistem apapun	Perlu endpoint sendiri, perlu handling response	Integrasi custom, ticketing system

5. Notification Policies

Notification Policies menentukan bagaimana alert dirutekan ke contact point yang tepat berdasarkan label. Ini adalah fitur paling powerful dari Grafana Alerting yang memungkinkan kamu membangun sistem notifikasi bertingkat.

Konsep Dasar

Notification Policy bekerja seperti routing tree. Setiap alert yang masuk akan dicocokkan dengan policy berdasarkan matchers (label). Jika cocok, alert dikirim ke contact point yang ditentukan. Jika tidak cocok dengan policy manapun, alert dikirim ke default policy.

Diagram: Notification Policy Routing Tree

  ┌──────────────────────────────────────────────────────────┐
  │               DEFAULT POLICY (Root)                      │
  │               → Contact: Telegram Umum                   │
  │               → Group by: alertname                      │
  │               → Group wait: 30s                          │
  │               │                                          │
  │       ┌───────┴────────────┐                             │
  │       │                    │                             │
  │  severity=critical    severity=warning                   │
  │  → Telegram On-Call   → Email Tim Ops                    │
  │  → Group wait: 0s     → Group wait: 1m                  │
  │  → Repeat: 1h         → Repeat: 4h                      │
  │       │                                                │
  │  team=infrastructure                                    │
  │  → Slack #infra-alerts                                  │
  │  → Group wait: 10s                                      │
  │                                                          │
  └──────────────────────────────────────────────────────────┘

Parameter Penting dalam Notification Policy

Parameter	Fungsi	Contoh Nilai
Matchers	Label yang harus cocok untuk routing	`severity=critical`, `team=devops`
Contact point	Ke mana alert dikirim	Telegram On-Call, Email Manager
Group by	Label untuk mengelompokkan alert	`alertname`, `severity`
Group wait	Waktu tunggu sebelum mengirim grup pertama	30 detik
Group interval	Waktu tunggu antar grup	5 menit
Repeat interval	Seberapa sering alert diulang jika belum resolved	4 jam

Contoh Konfigurasi Notification Policy

YAML — Provisioning Notification Policy (opsional)

apiVersion: 1
policies:
  - orgId: 1
    receiver: telegram-umum
    group_by: [alertname]
    group_wait: 30s
    group_interval: 5m
    repeat_interval: 4h
    routes:
      - receiver: telegram-oncall
        matchers:
          - severity = critical
        group_wait: 0s
        repeat_interval: 1h
        continue: true
      - receiver: email-ops
        matchers:
          - severity = warning
        group_wait: 1m
        repeat_interval: 4h
      - receiver: slack-infra
        matchers:
          - team = infrastructure
        group_wait: 10s
        repeat_interval: 2h

💡 Tips: Group by Labels

Pengaturan Group by sangat penting. Jika kamu set group_by: [alertname], semua alert dengan nama yang sama akan digabung dalam satu pesan notifikasi. Ini mengurangi noise. Jika kamu ingin alert per instance, tambahkan label instance ke group_by: [alertname, instance].

6. Silence & Mute Timings

Dalam operasional nyata, ada kalanya kamu perlu menonaktifkan alert sementara. Misalnya saat maintenance server, deployment aplikasi, atau jam istirahat untuk alert non-kritis. Grafana menyediakan dua fitur untuk ini: Silence dan Mute Timings.

6.1 Silence

Silence menonaktifkan alert secara temporer berdasarkan label matchers. Alert yang match akan tetap dievaluasi, tetapi notifikasi tidak dikirim.

Membuat Silence

Buka Alert & IRM → Alert rules
Klik ikon 🔇 Silence pada alert rule yang ingin di-silence, atau
Buka Alert & IRM → Silences → + New silence
Isi matcher, durasi, dan alasan

Pengaturan	Keterangan	Contoh
Matchers	Label untuk menentukan alert mana yang di-silence	`alertname=HighCPU`
Start time	Kapan silence mulai berlaku	25 Jun 2026 22:00
End time	Kapan silence berakhir	26 Jun 2026 06:00
Duration	Berapa lama silence berlaku	8 jam
Comment	Alasan silence (untuk audit)	"Scheduled maintenance server DB-01"

⚠️ Jangan Lupa Matikan Silence

Silence akan otomatis berakhir sesuai waktu yang ditentukan. Namun, pastikan kamu selalu memberikan comment yang jelas mengapa silence dibuat. Ini penting untuk audit trail — tim lain mungkin bingung mengapa alert tidak muncul padahal ada masalah nyata.

6.2 Mute Timings

Berbeda dengan Silence yang bersifat satu kali, Mute Timings adalah jadwal berulang untuk menonaktifkan notifikasi. Misalnya: "Alert non-kritis tidak dikirim setiap hari Jumat 17:00 - Senin 08:00" atau "Alert info tidak dikirim jam 12 malam - 6 pagi".

Membuat Mute Timing

Buka Alert & IRM → Notification policies
Tab Mute timings → + Add mute timing
Berikan nama dan atur jadwal
Terapkan ke notification policy yang diinginkan

Konfigurasi — Mute Timing Weekend & Malam Hari

# Mute Timing 1: Jam Istirahat Malam
Name: malam-hari
Time intervals:
  - Start: 00:00
    End: 06:00
    Days: Monday, Tuesday, Wednesday, Thursday, Friday

# Mute Timing 2: Weekend (Sabtu-Minggu)
Name: weekend
Time intervals:
  - Days: Saturday, Sunday
    (seharian penuh)

# Terapkan ke Notification Policy untuk severity=info:
→ Mute timings: malam-hari, weekend

Fitur	Silence	Mute Timing
Sifat	Sekali pakai (one-time)	Berulang (recurring)
Durasi	Tentukan start & end	Jadwal harian/mingguan
Use Case	Maintenance, deployment	Jam istirahat, weekend
Dihubungkan ke	Alert rule langsung	Notification policy
Evaluasi alert tetap jalan?	Ya, hanya notifikasi yang diblokir	Ya, hanya notifikasi yang diblokir

7. Dashboard Khusus Alerting

Grafana menyediakan halaman khusus untuk memantau status semua alert dalam satu tampilan. Kamu juga bisa membuat dashboard custom yang menampilkan data terkait alert.

Halaman Alert Rules

Buka Alert & IRM → Alert rules untuk melihat semua alert rules beserta statusnya:

🟢 Normal — Kondisi alert tidak terpenuhi, semuanya baik-baik saja
🟡 Pending — Kondisi terpenuhi tapi belum melewati "Evaluate for" duration
🔴 Firing — Alert aktif dan notifikasi sudah/sedang dikirim
⚪ No Data — Data source tidak mengembalikan data
🔴 Error — Ada error pada evaluasi rule

Membuat Dashboard Monitoring Alert

Kamu bisa membuat dashboard Grafana yang menampilkan informasi terkait alerting menggunakan data source Grafana (built-in). Berikut beberapa panel yang berguna:

PromQL — Panel Dashboard Alert Monitoring

# Panel 1: Jumlah Alert Firing Saat Ini
ALERTS{alertstate="firing"}

# Panel 2: Alert History (semua alert dalam 24 jam terakhir)
ALERTS_FOR_STATE

# Panel 3: Alert per Severity
count by (severity) (ALERTS{alertstate="firing"})

# Panel 4: Alert yang Sudah Resolved (dalam 1 jam terakhir)
count(ALERTS{alertstate="resolved"}) OR vector(0)

Panel Rekomendasi untuk Alert Dashboard

Panel	Tipe	Data	Tujuan
Jumlah Alert Firing	Stat	`count(ALERTS{alertstate="firing"})`	Overview total alert aktif
Alert per Severity	Pie Chart	`count by (severity) (ALERTS)`	Distribusi severity
Alert Timeline	Time Series	`ALERTS_FOR_STATE`	Kapan alert mulai dan berakhir
Top 5 Alert Rules	Table	`topk(5, count by (alertname) (ALERTS))`	Alert paling sering firing
Alert Notification Log	Table	Data dari Grafana audit log	Riwayat notifikasi terkirim

💡 Tips: Dashboard Annotations untuk Alert

Aktifkan annotations di dashboard untuk menampilkan garis vertikal pada grafik setiap kali alert firing atau resolved. Ini membantu mengkorelasikan perubahan metrik dengan kejadian alert. Buka Dashboard → Settings → Annotations → Add annotation query → pilih Grafana alerts.

8. Best Practices Grafana Alerting

Setelah memahami semua komponen Grafana Alerting, berikut best practices yang wajib diterapkan untuk membangun sistem alerting yang efektif dan tidak mengganggu tim.

8.1 Hindari Alert Fatigue

Alert fatigue adalah kondisi ketika tim sudah terlalu banyak menerima alert sehingga mulai mengabaikan semuanya — termasuk alert yang benar-benar penting. Ini adalah masalah #1 dalam sistem monitoring.

Hanya alert yang butuh aksi manusia — Jika tidak ada yang perlu dilakukan, jangan buat alert. Gunakan dashboard untuk informasi pasif.
Gunakan severity yang jelas:
- critical — Layanan down, data hilang, keamanan terancam → Tim on-call WAJIB merespons
- warning — Mendekati batas kritis, perlu perhatian segera
- info — Informasi, tidak perlu respons langsung
Kurangi duplicate alert — Gunakan label dan grouping untuk mengelompokkan alert serupa

8.2 Tentukan Threshold yang Tepat

Konfigurasi — Contoh Threshold yang Tepat

# ❌ BURUK: Terlalu sensitif
CPU > 50% selama 0 detik
→ Akan firing terus-menerus!

# ❌ BURUK: Terlalu tinggi
CPU > 99% selama 30 menit
→ Terlambat, server sudah crash

# ✅ BAIK: Sweet spot
CPU > 90% selama 5 menit
→ Cukup waktu untuk konfirmasi, tidak terlambat

8.3 Gunakan Evaluate For dengan Bijak

Severity	Evaluate For	Alasan
Critical (server down)	0 - 1 menit	Harus cepat, layanan sudah terganggu
Critical (resource)	3 - 5 menit	Konfirmasi bahwa ini bukan spike sesaat
Warning	5 - 10 menit	Memberi waktu sistem pulih sendiri
Info	10 - 30 menit	Benar-benar memastikan tren, bukan fluktuasi

8.4 Dokumentasi dan Runbook

Setiap alert rule sebaiknya dilengkapi dengan runbook URL di bagian annotations. Runbook adalah dokumen yang menjelaskan langkah-langkah yang harus dilakukan ketika alert muncul:

Annotations — Runbook URL

# Annotations pada Alert Rule:
summary: "CPU usage above 90% on {{ $labels.instance }}"
description: "CPU usage is {{ $value }}% on {{ $labels.instance }} for the last 5 minutes"
runbook_url: "https://wiki.example.com/runbooks/high-cpu"

8.5 Provisioning as Code

Untuk produksi, simpan semua konfigurasi alerting dalam file YAML/JSON di repository Git. Ini memungkinkan version control, review, dan rollback:

YAML — Provisioning Alert Rule

apiVersion: 1
groups:
  - orgId: 1
    name: server-monitoring
    folder: infrastructure
    interval: 1m
    rules:
      - uid: high-cpu-rule
        title: High CPU Usage
        condition: C
        data:
          - refId: A
            datasourceUid: prometheus
            model:
              expr: "100 - (avg by(instance) (irate(node_cpu_seconds_total{mode=\"idle\"}[5m])) * 100)"
        noDataState: NoData
        execErrState: Error
        for: 5m
        annotations:
          summary: "CPU above 90%"
          runbook_url: "https://wiki.example.com/runbooks/high-cpu"
        labels:
          severity: critical
          team: infrastructure

8.6 Checklist Best Practices

✅ Checklist Grafana Alerting Produksi

✅ Semua alert rule punya label severity dan team
✅ Setiap severity punya notification policy berbeda
✅ Critical alert ke Telegram/Slack (real-time), Warning ke email
✅ Evaluate for minimal 2 menit untuk non-critical
✅ Semua alert rule punya summary dan description annotations
✅ Runbook URL tersedia untuk alert yang butuh aksi manual
✅ Mute timing untuk jam istirahat (alert non-kritis)
✅ Konfigurasi disimpan di Git (provisioning as code)
✅ Review dan test alert secara berkala
✅ Dashboard monitoring alert tersedia
✅ Retrospektif setelah insiden: apakah alertnya tepat?

9. Quiz: Uji Pemahamanmu!

Setelah membaca tutorial di atas, jawablah 5 pertanyaan berikut untuk menguji pemahamanmu tentang Grafana Alerting:

Pertanyaan 1: Apa fungsi utama "Evaluate for" pada Alert Rule di Grafana?

a) Menentukan seberapa sering rule dievaluasi

b) Menentukan berapa lama kondisi harus terpenuhi sebelum alert aktif

c) Menentukan durasi silence otomatis

d) Menentukan waktu pengiriman ulang notifikasi

Pertanyaan 2: Untuk mengintegrasikan Telegram dengan Grafana Alerting, informasi apa saja yang dibutuhkan?

a) Hanya Bot Token

b) Bot Token dan Chat ID

c) Username dan Password akun Telegram

d) Email dan API Key Telegram

Pertanyaan 3: Apa perbedaan utama antara Silence dan Mute Timing di Grafana?

a) Silence untuk alert critical, Mute Timing untuk alert info

b) Silence menonaktifkan evaluasi alert, Mute Timing hanya menonaktifkan notifikasi

c) Silence bersifat sekali pakai, Mute Timing bersifat berulang (recurring)

d) Tidak ada perbedaan, keduanya sama

Pertanyaan 4: Dalam Notification Policy, apa fungsi parameter "Group by"?

a) Mengelompokkan data dari beberapa data source

b) Mengelompokkan alert berdasarkan label menjadi satu notifikasi

c) Menentukan urutan prioritas contact point

d) Menggabungkan beberapa alert rule menjadi satu

Pertanyaan 5: Best practice severity "critical" untuk Evaluate for yang direkomendasikan adalah...

a) 0 detik agar langsung terkirim tanpa delay

b) 30 menit agar benar-benar yakin

c) 3-5 menit untuk mengkonfirmasi kondisi (untuk resource), 0-1 menit untuk layanan down

d) Tidak perlu Evaluate for, cukup set threshold