シナリオ:AlexがTrace Analyzerを使用して問題のトラブルシューティングを実行し、根本原因を特定する 🔗
Buttercup Gamesのサイト信頼性エンジニアであるAlexは、精算時にエラーが発生したという顧客の報告を受けています。潜在的なインシデントを未然に防ぐため、Alex は、Trace Analyzerを使用して精算のエラーがどの程度蔓延しているかを迅速に判断します。
精算のエラーがどの程度蔓延しているかを判断するため、Alexは以下の手順を踏みます:
Alexが顧客のトレースを見てエラーを確認する 🔗
カスタマーサポートが共有するトレースIDの情報を使ってAlexはトレースの情報を引き出し、トラブルシューティングを開始します。Alexは、精算サービスのhttpリクエストが500エラーを返していることに気づきました。Alexは、このエラーが精算フローでどの程度蔓延しているかをすばやく把握したいと考えます。そこで、500エラーを返しているリクエストの http.url
をメモし、さらなる調査に備えます。
Alexが特定のタグでTrace Analyzerにフィルターを適用する 🔗
Alexは、Trace Analyzerのフィルターに /checkout/{cardId}
のhttp urlを追加し、この特定のエンドポイントのトレースを確認します。
Alexが正常なトレースとエラーのあるトレースを比較する 🔗
これでAlexは、/checkout/{cardId}
のhttp urlの正常なトレースと、同じエンドポイントのエラーを持つトレースを確認し、比較することができます。
まとめ 🔗
完全忠実トレースによって提供される高解像度のデータを使用して、Alexは未知の問題の蔓延状況を迅速に特定することができました。Trace Analyzerのグループ化とフィルタリングの機能を使用して、正常なトレースと問題のあるトレースを素早く分離し、エンジニアに提示して問題の切り分けができるようにしました。
さらに詳しく 🔗
Trace Analyzerの詳細については、Splunk APMのTrace Analyzerを使用してトレースを調査する を参照してください。
Trace Analyzerのこの他のシナリオについては、シナリオ:AlexがTrace Analyzerを使用してトレースの遅延をトラブルシューティングする を参照してください。
APMの主要な概念の一覧は、Splunk APMの主要な概念 を参照してください。
Splunk APMのその他のシナリオについては、Splunk APMを使用したエラーのトラブルシューティングとアプリケーションパフォーマンスの監視のシナリオ を参照してください。