Docs » Splunk APMを使用したエラーのトラブルシューティングとアプリケーションパフォーマンスの監視のシナリオ » シナリオ:AlexがTrace Analyzerを使用してトレースの遅延をトラブルシューティングする

シナリオ:AlexがTrace Analyzerを使用してトレースの遅延をトラブルシューティングする 🔗

Buttercup Gamesのサイト信頼性エンジニアであるAlexは、Buttercup Gamesの使用において遅延が発生したという報告を数人の顧客から受けています。顧客体験を積極的に改善するため、Alexは、Trace Analyzerを使用して遅延の問題がどの程度蔓延しているかを判断します。

遅延がどの程度蔓延しているかを判断するため、Alexは以下の手順を踏みます:

  1. Trace Analyzerのトレース期間ビューを使用して時間範囲をフィルタリングする

  2. トレース期間のヒートマップを拡大する

  3. サンプリングを無効化する

  4. ヒートマップで長期間のトレースの割合が高い場所を確認する

  5. トレースのテーブルをソートして長期間のトレースを確認する

Trace Analyzerのトレース期間ビューを使用して時間範囲をフィルタリングする 🔗

カスタマーサポートから、顧客からの遅延の報告は午前11時ごろから始まっているという情報が共有されました。そこでAlexは、Trace Analyzerでトレース期間ビューを選択して、顧客の報告と一致する時間範囲をフィルタリングします。

このgifは、Trace Analyzerチャートにおけるトレース期間の選択と時間の選択を示しています。

トレース期間のヒートマップを拡大する 🔗

Alexは、トレース期間ヒートマップで、トレース期間が長いトレースの割合が高くなっている期間を選択し、テーブル内のトレースをさらに絞り込みます。

このgifは、Trace Analyzerのヒートマップでの選択範囲へのフィルタリングを示しています。

サンプリングを無効化する 🔗

Alexは、Sample Ratio として 1:1 を選択し、条件に一致するすべてのトレースを表示できるようにします。

このgifは、Trace Analyzerチャートでのサンプリング比率の選択を示しています。

ヒートマップで長期間のトレースの割合が高い場所を確認する 🔗

Alexはヒートマップを使用して、顧客から報告された時間帯のトレース期間をより詳細に把握しようとします。午前11時10分のヒートマップの色が濃くなっている部分に気が付きました。これは、1秒あたりのトレース数が多く(1秒あたり3~4トレース)、トレース期間が10秒以上であることを示しています。

このスクリーンショットは午前11時10分のヒートマップを示しており、3~4トレース/秒、トレース期間が10秒以上になっています

トレースのテーブルをソートして長期間のトレースを確認する 🔗

Alexは、期間の長いトレースを確認できるようにするため、トレースのテーブルを期間順に並べ替えます。

このgifは、トレーステーブルを期間でソートする様子を示しています

まとめ 🔗

完全忠実トレースによって提供される高解像度のデータを使用して、Alexは遅延の問題の蔓延状況を素早く特定することができました。フィルタリングとトレース期間ヒートマップを使用して長期間のトレースを迅速に分離し、開発者に提示して問題の切り分けができるようにしました。

さらに詳しく 🔗

このページは 2024年02月29日 に最終更新されました。