Docs » Splunk Observability Cloudのアラートとディテクターの概要 » 内蔵アラート条件 » 外れ値検出

外れ値検出 🔗

「外れ値検出」は、あるシグナルが同期間内の他のシグナルと著しく異なる場合にアラートを発します。この条件を使用して、あるクラスタ内のどのノードが他のノードよりも多くCPUを使用しているかなど、(同期間内の)エミッターの集団の間で一貫性のない挙動を識別します。

注釈

同じシグナルの過去の値と現在の値を比較する場合は、急激な変化 または 履歴的異常 を使用します。

🔗

ロードバランサーにホストを追加していないか、またはホストとロードバランサーの間に問題がないかを判断するためにこの条件を使用します。例えば、あるメトリクスがロードバランサーのホストにルーティングされたリクエストを追跡している場合、例えばメトリクス値が5mの80%にわたって同類のシグナルの平均より2.5標準偏差以上低い時に、外れ値アラートを発します。

基本的な設定 🔗

パラメータ

注意事項

アラートのタイミング

Too highToo lowToo high or Too low

トリガー感度

LowMediumHighCustom

アラートのトリガー頻度の目安。「Low」を選択するとアラートのトリガー頻度は低くなり、アラートが解除されるまでの時間が長くなります(最も flappy でなくなる)。トリガーと解除の感度を決定する設定を変更するには、Custom を選択します(以下にリスト)。

詳細な設定 🔗

パラメータ

注意事項

閾値定義の基準

Deviations from normNorm plus percentage change

比較を統計値(偏差数)で表すか、パーセンテージで表すか。

正常値の基準閾値定義の基準Deviations from norm の場合)

Mean plus standard deviationMedian plus median absolute deviation

小さな集団(<15)の場合は、Median plus median absolute deviation が推奨されます。

正常値の基準閾値定義の基準Norm plus percentage change の場合)

Mean、``Median`

Median の方が、極値の影響を受けにくいです。

(オプション) グループを指定

ドロップダウンメニューから選択したディメンションまたはプロパティ

ディメンションまたはプロパティの値の違いによって異なる基準を作りたい場合は、ディメンションまたはプロパティを使用します。例えば、aws_availability_zone を選択し、ゾーンがUS-eastおよびUS-westの場合、US-east内のインスタンスはUS-east内の他のインスタンスのみと比較されます。US-westの場合も同様です。「None」を選択すると、基準は1つになり、すべてのメンバーがこの基準に対して比較されます。

トリガーの閾値 および 解除の閾値閾値定義の基準Deviations from norm の場合)

>= 0の数値。解除の閾値はトリガーの閾値より低くする必要があります

アラートをトリガーするために必要な基準からの偏差の数。

例えば、トリガーの値が3.5の場合、比較される値が基準と3.5標準偏差以上異なる場合にアラートをトリガーします。値が高いほど感度は低くなり、アラート数は潜在的に少なくなります。

解除の値が2.5の場合、比較される値が2.5標準偏差以下の差である場合にアラートを解除します。値が大きいほど、アラートの解除にかかる時間が長くなります。

トリガーの閾値 および 解除の閾値閾値定義の基準Norm plus percentage change の場合)

0~100の数値(0と100を含む)。解除の閾値はトリガーの閾値より低くする必要があります。

アラートのトリガーまたは解除に必要な変化のパーセンテージ。

例えば、トリガーの値が30の場合、比較される値が30%以上異なる場合にアラートをトリガーします。値が高いほど感度は低くなり、アラート数は潜在的に少なくなります。

解除の値が20の場合、比較される値が20%以下の差である場合にアラートを解除します。トリガーの閾値と解除の閾値の間にギャップがあると、アラートの解除にかかる時間が長くなります。

トリガーの継続期間

パーセンテージ:1~100の整数。時間の指標:>= 1の整数の後に時間を表す指標(s、m、h、d、w)を付す。例:30s、10m、2h、5d、1w

予想されるデータポイントの数との比較において、シグナルがトリガーの閾値を満たさなければならない回数。パーセンテージが高い、または期間が長いと、感度が低くなり、アラートの数が潜在的に少なくなります。このオプションの詳細については、継続期間のオプション を参照してください。

解除の継続期間

パーセンテージ:1~100の整数。時間の指標:>= 1の整数の後に時間を表す指標(s、m、h、d、w)を付す。例:30s、10m、2h、5d、1w

予想されるデータポイントの数との比較において、シグナルが解除の閾値を満たさなければならない回数。パーセンテージが高い、または期間が長いほど、アラートの解除までにかかる時間が長くなり、アラート条件が実際に発生しなくなったことをしっかりと確信できるようになります。このオプションの詳細については、継続期間のオプション を参照してください。

継続期間のオプション 🔗

Trigger durationClear duration のオプションは、指定した時間窓の間に、予想数との比較において、いくつのシグナルが閾値を満たしたかに基づいて、アラートをトリガーまたは解除するために使用されます。

  • 「100%」と指定すると、期待されたデータポイントがすべて到着し(遅延や欠落したデータポイントがない)、すべてが閾値を満たしたという意味になります。言い換えると、「時間範囲の100%」を指定した場合、受信されたすべてのデータポイントが閾値を 満たしていたとしても、その時間範囲中にデータポイントが遅延したり、まったく到着しなかったりしたりすれば、アラートはトリガーされません。(データポイントの遅延や欠落の詳細については、遅延または欠落したデータポイントの処理 を参照してください。)

    注釈

    アラートが即時トリガーされるように指定するには、インフラストラクチャディテクターの場合は1秒の100%を指定し、APMディテクターの場合は10秒の100%を指定します。シグナルの解像度が入力した値より大きい場合は、シグナルの解像度以上の値に変更する必要があることを示すメッセージが表示されます。

  • 100未満のパーセンテージを指定すると得られる効果がいくつかあります:

    • アラートの閾値については、100%を使用するよりも、低いパーセンテージの方が、アラートをトリガーするために必要なシグナル数が少なくなるため、感度が高くなります(トリガーされるアラート数が多くなる可能性があります)。また、いくつかのデータポイントが欠落していても、必要な数の異常シグナルが到着している限り、アラートをトリガーすることができます。

    • 解除の閾値については、解除条件をトリガーするために必要なシグナル数が少なくなるため、100%を使用するよりも迅速にアラートを解除することができます。また、いくつかのデータポイントが欠落していても、必要な数の非異常シグナルが到着している限り、アラートを解除することができます。

以下の例は、このオプションが様々な状況においてアラートのトリガーと解除にどのように影響するかを示したものです。

アラート例1 🔗

  • 継続期間のパーセンテージに指定した値:10分の100%

  • シグナルの解像度:10秒

  • 10分間に予想されるデータポイント数:6/分* 10分(60)

  • アラートをトリガーするまでの異常データポイント数(閾値を満たす必要がある回数):60の100%(60)

    予想されるデータポイントの総数

    受信したデータポイントの総数

    必要な異常データポイント数

    受信した異常データポイント数

    アラートはトリガーされるか?

    60

    60

    60

    60

    はい

    60

    60

    60

    59以下

    いいえ

    60

    59

    60

    59

    いいえ

    上記の最後の例では、到着したデータポイントの100%が異常であったものの、異常データポイントの必要数(60)が到着していないことに注意してください。したがって、アラートはトリガーされません。指定するパーセンテージは、予想 データポイント数に対するパーセンテージを示すものであり、受信 データポイント数に対するパーセンテージではありません。

アラート例2 🔗

  • 継続期間のパーセンテージに指定した値:10分の80%

  • シグナルの解像度:10秒

  • 10分間に予想されるデータポイント数:6/分* 10分(60)

  • アラートをトリガーするまでの異常データポイント数(閾値を満たす必要がある回数):60の80%(48)

    予想されるデータポイントの総数

    受信したデータポイントの総数

    必要な異常データポイント数

    受信した異常データポイント数

    アラートはトリガーされるか?

    60

    60

    48

    48-60

    はい

    60

    50

    48

    48-50

    はい

    60

    50

    48

    47

    いいえ

    上記の最後の例では、47/50が指定した「80%」より大きくても、異常データポイントの必要数(48)が到着していないことに注意してください。したがって、アラートはトリガーされません。指定するパーセンテージは、 予想 データポイント数に対するパーセンテージを示すものであり、受信 データポイント数に対するパーセンテージではありません。

解除の例1 🔗

  • 継続期間のパーセンテージに指定した値:15分の100%

  • シグナルの解像度:30秒

  • 15分間に予想されるデータポイント数:2/分* 15分(30)

  • アラートを解除するまでの異常データポイント数(閾値を満たす必要がある回数):30の100%(30)

    予想されるデータポイントの総数

    受信したデータポイントの総数

    必要な正常データポイント数

    受信した正常データポイント数

    アラートは解除されるか?

    30

    30

    30

    30

    はい

    30

    30

    30

    29以下

    いいえ

    30

    25

    30

    25

    いいえ

    上記の最後の例では、到着したデータポイントの100%が異常であったにもかかわらず、予想されるデータポイント数36個のうち35個しか到着していないことに注意してください。したがって、アラートは解除されません。指定するパーセンテージは、予想 データポイント数に対するパーセンテージを示すものであり、受信 データポイント数に対するパーセンテージではありません。

解除の例2 🔗

  • 継続期間のパーセンテージに指定した値:15分の50%

  • シグナルの解像度:30秒

  • 15分間に予想されるデータポイント数:2/分* 15分(30)

  • アラートを解除するまでの異常データポイント数(閾値を満たす必要がある回数):30の50%(15)

    予想されるデータポイントの総数

    受信したデータポイントの総数

    必要な正常データポイント数

    受信した正常データポイント数

    アラートは解除されるか?

    30

    30

    15

    15-30

    はい

    30

    20

    15

    15-20

    はい

    30

    20

    15

    14

    いいえ

    上記の最後の例では、14個の異常データポイントが到着し、14/15が指定した「50%」より大きくても、必要な異常データポイント数(15個)が到着していないことに注意してください。したがって、アラートはトリガーされません。指定したパーセンテージは、予想 データポイント数に対するパーセンテージを示すものであり、受信 データポイント数に対するパーセンテージではありません。

参考 🔗

パラメータ

注釈

アラートのタイミング

[Too high]または[Too low]の設定は、指定域を超えて上下に振動するシグナルに対してアラートをトリガーします(当然、指定域の外に十分な時間とどまることを前提として)。

トリガーと解除の継続期間

このパラメータは、ネイティブ解像度より大幅に大きく設定します。

トリガーの閾値と外れ値のアルゴリズム

[Mean plus standard deviation]は、n^2 + 1 が監視される母集団のサイズ以上であれば、n 標準偏差に対してアラートをトリガーすることはありません。したがって、母集団が小さい場合( n <  15 )は、[Median plus median absolute deviation]が推奨されます。

トリガーの閾値と解除の閾値

これらは動的な閾値を生成するため、多少混乱を生じさせる可能性があります。例えば、あるアラートは、シグナル値が31.4(偏差ではなく、元のメトリクスの単位)のときにトリガーされ、55.1のときに解除されるという可能性があります(その母集団の残りのシグナルの値も同様に上昇しているため)。

このページは 2024年10月17日 に最終更新されました。