ダッシュボードは「サービスは健康か」「目標に対してどれくらい余裕があるか」を一目で示すのが命。Google SRE Book で体系化された標準アプローチを。

SRE ダッシュボード模式図：可用性・p99・エラー率・エラーバジェットKPI、p50/95/99 折れ線、エラーバジェットバーンダウン、DORA — SRE ダッシュボード：4 Golden Signals + エラーバジェット + DORA メトリクス

推奨指標（4 Golden Signals）

Latency（）: p50 / p95 / p99 を時系列で。平均は使わない（外れ値で歪む）
Traffic（トラフィック）: req/sec
Errors（エラー率）: 5xx の割合
Saturation（飽和度）: CPU / メモリ / コネクション

SLO とエラーバジェット

SLO（サービスレベル目標）= 「99.9% の月次可用性」。エラーバジェット = 100% − SLO = 0.1%（月 43.2 分の許容ダウンタイム）。 ダッシュボード：① 月初からの SLO 達成率、② エラーバジェット消化率、③ 残り時間。バジェットを使い切ったらリリース凍結するのが Google 流。

DORA メトリクス（開発組織）

Deployment Frequency: 1日に何回デプロイするか
Lead Time for Changes: コミットから本番までの時間
Change Failure Rate: デプロイのうちロールバック発生率
Mean Time to Recovery (MTTR): 障害から復旧までの時間

ここまでを振り返ると

EP.01〜EP.20 で「時系列・比較・構成比・関係・分布・地理・多変量・・スコア・階層・リスク・異常検知・プロセス・設計・色・営業・マーケ・経理・人事・SRE」までを扱いました。実務でグラフを選ぶときの「辞書」として使ってください。次回からは 「グラフを描くための前処理テクニック」ブロックに入り、移動平均・前年比・重くしないクエリ設計を扱います。

この記事の感想を教えてください

あなたの 1 クリックで、本当にこの記事は更新されます。「もっと詳しく」「続編希望」が一定数集まった記事は、ふくふくが 実際に内容を拡充したり続編記事を公開 します。送信したリアクションはお使いのブラウザに記録され、再カウントされません。

免責事項

本記事は執筆時点の情報および実装例として公開しているものであり、内容の正確性・完全性・最新性を保証するものではありません。各データソース・API・SaaS の仕様・利用規約・料金は予告なく変更される場合があります。
コード・コマンド・手順を実装や本番運用に流用する際は、必ず最新の公式ドキュメントおよび利用規約を確認のうえ、ご自身の責任で適切な検証・テストを行ってください。
本記事の情報を利用したことにより生じた損害（データ消失・サービス中断・契約違反・第三者からの請求等）について、合同会社ふくふくおよび執筆者は一切の責任を負いません。
本記事は技術・実装上の解説を目的としたものであり、法務・税務・コンプライアンス・経営上のアドバイスを構成するものではありません。実際の判断にあたっては、必要に応じて専門家にご相談ください。
記事中で紹介する第三者のサービス・製品・OSS・データ提供者については、各提供元の利用規約・ライセンス条件が優先されます。

SRE / エンジニア向けダッシュボード：SLO・エラーバジェット・latency・デプロイ頻度

推奨指標（4 Golden Signals）

SLO とエラーバジェット

DORA メトリクス（開発組織）

ここまでを振り返ると

この記事の感想を教えてください

まずは、現状を聞かせてください。