Splunk Observability Cloudにおけるサービスレベル目標(SLO)管理の概要 🔗
サービスレベル目標(SLO)管理は、ビジネスニーズとエンジニアリングの信頼性目標を整合させるためのサービスレベルモニタリングです。
これまでも Splunk Observability Cloud のデータを使用して、サービスの監視、トラブルシューティング、最適化を行うことができましたが、SLO 管理はサービスの信頼性とパフォーマンスを定量的に追跡する方法を提供します。これにより、チームは製品開発と運用業務の間で適切な投資のトレードオフを行うことができます。
サービスレベルモニタリングは、特定のサービスに関連するさまざまなサービスレベル指標(SLI)を測定、追跡、分析するプロセスです。これにより、デプロイしたソフトウェアやサービスの健全性をビジネス目標と比較することができます。
次の表は、サービスレベルモニタリングのキーコンセプトを定義したものです。
コンセプト
定義
例
サービスレベルインジケータ(SLI)
SLIは、サービスの健全性を示す定量的な測定値で、1 つのメトリクスまたはメトリクスの組み合わせとして表されます。
可用性SLI: 応答に成功したリクエストの割合
パフォーマンスSLI:100 ミリ秒未満でロードされたリクエストの割合
サービスレベル目標(SLO)
SLOは、SLIの目標と、その目標を達成するためのコンプライアンス期間を定義します。SLOには、SLI、目標、コンプライアンス期間の3つの要素が含まれます。コンプライアンス期間は、月単位などのカレンダー、または過去30日などのローリングが可能です。
カレンダー期間における可用性SLI:当社のサービスは、1か月間に95%のリクエストに正常に応答する必要があります。
ローリング期間にわたるパフォーマンス SLI:当社のサービスは、7日間でリクエストの 99% に 100 ミリ秒未満で応答する必要があります。
サービスレベルアグリーメント (SLA)
SLAは、ユーザーが組織から期待できるサービスレベルを示す契約上の合意です。SLAが守られない場合、財政的な影響が生じる可能性があります。
カスタマーサービスSLAでは、通常のサポート日に受けたサポートリクエストの90%は、6時間以内に回答しなければならないと定めています。
エラー予算
一定期間におけるSLOに対するSLIの相対的なパフォーマンスを測定するもの。エラー予算は、実際のパフォーマンスと望ましいパフォーマンスの差を測定します。この期間中にサービスがどの程度信頼できないかを判断し、是正措置を講じる必要がある場合のシグナルとなります。
当社のサービスは、7 日間で 100 ミリ秒を超えるリクエストの 1% に応答することができます。
燃焼率
SLO のコンプライアンスウィンドウの間に、サービスがエラー予算をどれだけ早く消費するかを示す単位なしの測定値。燃焼率は、SLOとエラー予算を実行可能なものにし、現在のインシデントがオンコールレスポンダーを呼び出すのに十分な深刻さであることをサービス所有者に示します。
30日間のコンプライアンスウィンドウを持つSLOの場合、一定の燃焼率1は、エラー予算がちょうど30日で使い切られることを意味します。
SLO の使用を開始するには、サービスレベル目標(SLO)を用いて、サービスの健全性メトリクスを測定および追跡します。 を参照してください。