ダッシュボードは「サービスは健康か」「目標 に対してどれくらい余裕があるか」を一目で示すのが命。Google SRE Book で体系化された標準アプローチを。

推奨指標(4 Golden Signals)
- Latency(): p50 / p95 / p99 を時系列で。平均は使わない(外れ値で歪む)
- Traffic(トラフィック): req/sec
- Errors(エラー率): 5xx の割合
- Saturation(飽和度): CPU / メモリ / コネクション
SLO とエラーバジェット
SLO(サービスレベル目標)= 「99.9% の月次可用性」。エラーバジェット = 100% − SLO = 0.1%(月 43.2 分の許容ダウンタイム)。 ダッシュボード:① 月初からの SLO 達成率、② エラーバジェット消化率、③ 残り時間。バジェットを使い切ったらリリース凍結するのが Google 流。
DORA メトリクス(開発組織)
- Deployment Frequency: 1日に何回デプロイするか
- Lead Time for Changes: コミットから本番までの時間
- Change Failure Rate: デプロイのうちロールバック発生率
- Mean Time to Recovery (MTTR): 障害から復旧までの時間
ここまでを振り返ると
EP.01〜EP.20 で「時系列・比較・構成比・関係・分布・地理・多変量・・スコア・階層・リスク・異常検知・プロセス・設計・色・営業・マーケ・経理・人事・SRE」までを扱いました。実務でグラフを選ぶときの「辞書」として使ってください。次回からは 「グラフを描くための前処理テクニック」ブロックに入り、移動平均・前年比・重くしないクエリ設計を扱います。
この記事の感想を教えてください
あなたの 1 クリックで、本当にこの記事は更新されます。「もっと詳しく」「続編希望」が一定数集まった記事は、 ふくふくが 実際に内容を拡充したり続編記事を公開 します。 送信したリアクションはお使いのブラウザに記録され、再カウントされません。