Docs » Splunk Observability Cloudにおけるサービスレベル目標(SLO)管理の概要

Splunk Observability Cloudにおけるサービスレベル目標(SLO)管理の概要 🔗

サービスレベル目標(SLO)管理は、ビジネスニーズとエンジニアリングの信頼性目標を整合させるためのサービスレベルモニタリングです。

これまでも Splunk Observability Cloud のデータを使用して、サービスの監視、トラブルシューティング、最適化を行うことができましたが、SLO 管理はサービスの信頼性とパフォーマンスを定量的に追跡する方法を提供します。これにより、チームは製品開発と運用業務の間で適切な投資のトレードオフを行うことができます。

What is service level monitoring?

サービスレベルモニタリングは、特定のサービスに関連するさまざまなサービスレベル指標(SLI)を測定、追跡、分析するプロセスです。これにより、デプロイしたソフトウェアやサービスの健全性をビジネス目標と比較することができます。

次の表は、サービスレベルモニタリングのキーコンセプトを定義したものです。

コンセプト

定義

サービスレベルインジケータ(SLI)

SLIは、サービスの健全性を示す定量的な測定値で、1 つのメトリクスまたはメトリクスの組み合わせとして表されます。

  • 可用性SLI: 応答に成功したリクエストの割合

  • パフォーマンスSLI:100 ミリ秒未満でロードされたリクエストの割合

サービスレベル目標(SLO)

SLOは、SLIの目標と、その目標を達成するためのコンプライアンス期間を定義します。SLOには、SLI、目標、コンプライアンス期間の3つの要素が含まれます。コンプライアンス期間は、月単位などのカレンダー、または過去30日などのローリングが可能です。

  • カレンダー期間における可用性SLI:当社のサービスは、1か月間に95%のリクエストに正常に応答する必要があります。

  • ローリング期間にわたるパフォーマンス SLI:当社のサービスは、7日間でリクエストの 99% に 100 ミリ秒未満で応答する必要があります。

サービスレベルアグリーメント (SLA)

SLAは、ユーザーが組織から期待できるサービスレベルを示す契約上の合意です。SLAが守られない場合、財政的な影響が生じる可能性があります。

カスタマーサービスSLAでは、通常のサポート日に受けたサポートリクエストの90%は、6時間以内に回答しなければならないと定めています。

エラー予算

一定期間におけるSLOに対するSLIの相対的なパフォーマンスを測定するもの。エラー予算は、実際のパフォーマンスと望ましいパフォーマンスの差を測定します。この期間中にサービスがどの程度信頼できないかを判断し、是正措置を講じる必要がある場合のシグナルとなります。

当社のサービスは、7 日間で 100 ミリ秒を超えるリクエストの 1% に応答することができます。

燃焼率

SLO のコンプライアンスウィンドウの間に、サービスがエラー予算をどれだけ早く消費するかを示す単位なしの測定値。燃焼率は、SLOとエラー予算を実行可能なものにし、現在のインシデントがオンコールレスポンダーを呼び出すのに十分な深刻さであることをサービス所有者に示します。

30日間のコンプライアンスウィンドウを持つSLOの場合、一定の燃焼率1は、エラー予算がちょうど30日で使い切られることを意味します。

Create your first SLO

SLO の使用を開始するには、サービスレベル目標(SLO)を用いて、サービスの健全性メトリクスを測定および追跡します。 を参照してください。

This page was last updated on 2024年07月29日.