シナリオ:Kaiが遅延の突然の変化を考慮してディテクターに最大遅延を設定する 🔗
In Splunk Observability Cloud, the site reliability engineering (SRE) team at Buttercup Game has set up a detector called Store sales that monitors Buttercup Games stores and alerts when any store’s hourly sales decrease by more than 10% compared to the previous week.
チームのSREであるKaiは、「店舗の売上」 ディテクターがアラートを発しても30分後にチャートを見るとすべてが正常に見えることがあるということに気づきました。
調査の結果、いくつかの店舗からのデータについて、その地域のネットワークインフラに起因する突然の瞬間的な遅延の増加があることが判明しました。最初の計算から欠落したデータポイントによってアラートが発されたのです。しかし、30分後にKaiがチャートを見るとそれらのデータポイントは到着しており、ディテクターが誤作動したように見える原因になっていました。このような場合、分析エンジンは遅延の急激な変化を予測できません。
突発的なラグからのデータがディテクターの計算に含まれるようにするため、Kaiは 「店舗の売上」 に「最大遅延」の値を設定します。
Kaiは、遅延しているメトリック時系列(MTS)の最大遅延が10分であることを確認したため、「最大遅延」を10分に設定します。これで、既知のMTSがデータポイントを送信していない場合、分析エンジンは10分経たなければ実行できなくなります。すべての既知のMTSがデータポイントを送信した場合は、依然として10分の「最大遅延」の前に計算を実行できます。
まとめ 🔗
「サービスエラー」 に「最大遅延」の閾値を設定することで、Kaiは遅延データの予期せぬ変化を考慮に入れてディテクターの動作を修正することに成功しました。
さらに詳しく 🔗
ディテクターの「最大遅延」の詳細については、最大遅延 を参照してください。