ふくふくHukuhuku Inc.
EP.20Viz 12分公開: 2026-05-10

SRE / エンジニア向けダッシュボード:SLO・エラーバジェット・latency・デプロイ頻度

サービス信頼性のための可視化。SLO・SLI・エラーバジェット消化率、レイテンシのパーセンタイル、4 Golden Signals、Datadog/Grafana の構成例。

#ダッシュボード#SRE#監視#Datadog
シェア

ダッシュボードは「サービスは健康か」「目標 に対してどれくらい余裕があるか」を一目で示すのが命。Google SRE Book で体系化された標準アプローチを。

SRE ダッシュボード模式図:可用性・p99・エラー率・エラーバジェットKPI、p50/95/99 折れ線、エラーバジェットバーンダウン、DORA
SRE ダッシュボード:4 Golden Signals + エラーバジェット + DORA メトリクス

推奨指標(4 Golden Signals)

  • Latency(: p50 / p95 / p99 を時系列で。平均は使わない(外れ値で歪む)
  • Traffic(トラフィック): req/sec
  • Errors(エラー率): 5xx の割合
  • Saturation(飽和度): CPU / メモリ / コネクション

SLO とエラーバジェット

SLO(サービスレベル目標)= 「99.9% の月次可用性」。エラーバジェット = 100% − SLO = 0.1%(月 43.2 分の許容ダウンタイム)。 ダッシュボード:① 月初からの SLO 達成率、② エラーバジェット消化率、③ 残り時間。バジェットを使い切ったらリリース凍結するのが Google 流。

DORA メトリクス(開発組織)

  • Deployment Frequency: 1日に何回デプロイするか
  • Lead Time for Changes: コミットから本番までの時間
  • Change Failure Rate: デプロイのうちロールバック発生率
  • Mean Time to Recovery (MTTR): 障害から復旧までの時間

ここまでを振り返ると

EP.01〜EP.20 で「時系列・比較・構成比・関係・分布・地理・多変量・・スコア・階層・リスク・異常検知・プロセス・設計・色・営業・マーケ・経理・人事・SRE」までを扱いました。実務でグラフを選ぶときの「辞書」として使ってください。次回からは 「グラフを描くための前処理テクニック」ブロックに入り、移動平均前年比重くしないクエリ設計を扱います。

シェア

この記事の感想を教えてください

あなたの 1 クリックで、本当にこの記事は更新されます。「もっと詳しく」「続編希望」が一定数集まった記事は、 ふくふくが 実際に内容を拡充したり続編記事を公開 します。 送信したリアクションはお使いのブラウザに記録され、再カウントされません。

シリーズの外も探す:

まずは、現状を聞かせてください。

要件が固まっていなくて大丈夫です。現状診断と方針提案までを無料でお手伝いします。

無料相談フォームへ hello [at] hukuhuku [dot] co [dot] jp