シナリオ:Kaiが遅延の突然の変化を考慮してディテクターに最大遅延を設定する 🔗
Splunk Observability Cloudで、Buttercup Gamesのサイト信頼性エンジニアリング(SRE)チームが 「店舗の売上」 というディテクターを設定しています。このディテクターはButtercup Gamesの店舗を監視し、いずれかの店舗の1時間あたりの売上が前週に比べて10%以上減少した場合にアラートを発します。
チームのSREであるKaiは、「店舗の売上」 ディテクターがアラートを発しても30分後にチャートを見るとすべてが正常に見えることがあるということに気づきました。
調査の結果、いくつかの店舗からのデータについて、その地域のネットワークインフラに起因する突然で瞬間的な遅延の増加があることが判明しました。最初の計算から欠落したデータポイントによってアラートが発されたのです。しかし、30分後にKaiがチャートを見るとそれらのデータポイントは到着しており、ディテクターが誤作動したように見える原因になっていました。このような場合、分析エンジンは遅延における急激な変化を予測できません。
突発的なラグからのデータがディテクターの計算に含まれるようにするため、Kaiは 「店舗の売上」 に「最大遅延」の値を設定します。
Kaiは、遅延しているメトリック時系列(MTS)の最大遅延が10分であることを確認したため、「最大遅延」を10分に設定します。これで、既知のMTSがデータポイントを送信していない場合、分析エンジンは10分経たなければ実行できなくなります。すべての既知のMTSがデータポイントを送信した場合は、依然として10分の「最大遅延」の前に計算を実行できます。
まとめ 🔗
「サービスエラー」 に「最大遅延」の閾値を設定することで、Kaiは遅延データの予期せぬ変化を考慮に入れてディテクターの動作を修正することに成功しました。
さらに詳しく 🔗
ディテクターの「最大遅延」の詳細については、最大遅延 を参照してください。