Thiết Kế Monitoring & Alerting
PROThiết kế hệ thống giám sát toàn diện: cảnh báo dựa trên SLO, quy tắc multi-burn-rate, giảm mỏi cảnh báo và tích hợp phản ứng sự cố cho hệ thống phân tán/microservices.
Ví dụ sử dụng
Thiết kế alerting strategy cho microservices architecture
Cách sử dụng Skill này
Sao chép skill bằng nút ở trên
Dán vào trợ lý AI của bạn (Claude, ChatGPT, v.v.)
Điền thông tin bên dưới (tùy chọn) và sao chép để thêm vào prompt
Gửi và bắt đầu trò chuyện với AI của bạn
Tùy chỉnh gợi ý
| Mô tả | Mặc định | Giá trị của bạn |
|---|---|---|
| Mục tiêu SLO (ví dụ 99.95%) | 99.95 | |
| Khoảng thời gian đánh giá SLO (ví dụ 30 ngày, 7 ngày, 1 giờ) | 30d | |
| Hệ số burn rate cho alert nghiêm trọng | 14.4 | |
| Hệ số burn rate cho alert cảnh báo | 1.0 | |
| Nền tảng monitoring mục tiêu | prometheus | |
| Backend tracing phân tán (jaeger, zipkin, tempo, datadog) | jaeger |
Design comprehensive observability systems that provide real-time visibility into system health, performance, and reliability. Create SLO-based alerting strategies with multi-burn-rate rules, reduce alert fatigue through intelligent optimization, and integrate monitoring with incident response workflows for faster resolution.
Nguồn nghiên cứu
Skill này được xây dựng từ các nguồn uy tín sau:
- From Monitoring to Observability: A Paradigm Shift in IT Operations Comprehensive guide on the shift from traditional monitoring to observability covering logs, metrics, and traces
- Ways to Alert on Significant Events (Google SRE Workbook) Official Google approach to multi-burn-rate and multi-window SLO-based alerting strategies
- Designing Tomorrow's Observability: Software Architect's Guide Deep dive into observability architecture, tool selection, and implementation patterns
- Monitoring Distributed Cloud-Based Microservices Framework for monitoring cloud microservices covering APM, infrastructure health, and log aggregation
- Intelligent Alerting with AI-Powered Anomaly Detection Modern ML approaches to noise reduction including predictive alerting and Holt-Winters forecasting
- SLO Monitoring Guide - Measuring Service Reliability Practical guide on SLO setup, SLI definition, and actionable threshold configuration
- How We Use Sloth for SLO Monitoring with Prometheus Real-world implementation of multi-window, multi-burn-rate alerting at Mattermost
- Observability Best Practices - Embrace.io Best practices including actionable alerts, cross-department collaboration, and data quality