シナリオ:AlexがTrace Analyzerを使用してトレースの遅延をトラブルシューティングする 🔗
Buttercup Gamesのサイト信頼性エンジニアであるAlexは、Buttercup Gamesの使用において遅延が発生したという報告を数人の顧客から受けています。顧客体験を積極的に改善するため、Alexは、Trace Analyzerを使用して遅延の問題がどの程度蔓延しているかを判断します。
遅延がどの程度蔓延しているかを判断するため、Alexは以下の手順を踏みます:
Trace Analyzerのトレース期間ビューを使用して時間範囲をフィルタリングする 🔗
カスタマーサポートから、顧客からの遅延の報告は午前11時ごろから始まっているという情報が共有されました。そこでAlexは、Trace Analyzerでトレース期間ビューを選択して、顧客の報告と一致する時間範囲をフィルタリングします。
トレース期間のヒートマップを拡大する 🔗
Alexは、トレース期間ヒートマップで、トレース期間が長いトレースの割合が高くなっている期間を選択し、テーブル内のトレースをさらに絞り込みます。
サンプリングを無効化する 🔗
Alexは、Sample Ratio として 1:1 を選択し、条件に一致するすべてのトレースを表示できるようにします。
ヒートマップで長期間のトレースの割合が高い場所を確認する 🔗
Alexはヒートマップを使用して、顧客から報告された時間帯のトレース期間をより詳細に把握しようとします。午前11時10分のヒートマップの色が濃くなっている部分に気が付きました。これは、1秒あたりのトレース数が多く(1秒あたり3~4トレース)、トレース期間が10秒以上であることを示しています。
トレースのテーブルをソートして長期間のトレースを確認する 🔗
Alexは、期間の長いトレースを確認できるようにするため、トレースのテーブルを期間順に並べ替えます。
まとめ 🔗
完全忠実トレースによって提供される高解像度のデータを使用して、Alexは遅延の問題の蔓延状況を素早く特定することができました。フィルタリングとトレース期間ヒートマップを使用して長期間のトレースを迅速に分離し、開発者に提示して問題の切り分けができるようにしました。
さらに詳しく 🔗
Trace Analyzerの詳細については、Splunk APMのTrace Analyzerを使用してトレースを調査する を参照してください。
Trace Analyzerのこの他のシナリオについては、シナリオ:AlexがTrace Analyzerを使用して問題のトラブルシューティングを実行し、根本原因を特定する を参照してください。
APMの主要な概念の一覧は、Splunk APMの主要な概念 を参照してください。
Splunk APMのその他のシナリオについては、Splunk APMを使用したエラーのトラブルシューティングとアプリケーションパフォーマンスの監視のシナリオ を参照してください。