Docs » Splunk APMを使用したエラーのトラブルシューティングとアプリケーションパフォーマンスの監視のシナリオ » シナリオ:AlexがTrace Analyzerを使用して問題のトラブルシューティングを実行し、根本原因を特定する

シナリオ:AlexがTrace Analyzerを使用して問題のトラブルシューティングを実行し、根本原因を特定する 🔗

Buttercup Gamesのサイト信頼性エンジニアであるAlexは、精算時にエラーが発生したという顧客の報告を受けています。潜在的なインシデントを未然に防ぐため、Alex は、Trace Analyzerを使用して精算のエラーがどの程度蔓延しているかを迅速に判断します。

精算のエラーがどの程度蔓延しているかを判断するため、Alexは以下の手順を踏みます:

  1. Alexが顧客のトレースを見てエラーを確認する

  2. アレックスが特定のタグでトレースをグループ化する

  3. Alexが特定のタグでTrace Analyzerにフィルターを適用する

  4. Alexが正常なトレースとエラーのあるトレースを比較する

Alexが顧客のトレースを見てエラーを確認する 🔗

カスタマーサポートが共有するトレースIDの情報を使ってAlexはトレースの情報を引き出し、トラブルシューティングを開始します。Alexは、精算サービスのhttpリクエストが500エラーを返していることに気づきました。Alexは、このエラーが精算フローでどの程度蔓延しているかをすばやく把握したいと考えます。そこで、500エラーを返しているリクエストの http.url をメモし、さらなる調査に備えます。

アレックスが特定のタグでトレースをグループ化する 🔗

Because http.url is an unindexed span, Alex can’t use Tag Spotlight to see a breakdown in requests and errors by http.url. So, Alex goes to Trace Analyzer and selects http.url in the Group traces by menu to quickly understand the prevalence of errors for the specific http.url value that they made note of from the problematic trace. Alex notes that over 10% of traces for the /checkout/{cardId} request have errors.

このスクリーンショットは、Trace Analyzerの「トレースのグループ化基準」オプションと、それを使用してグループ化されたメトリクスを示しています。

Alexが特定のタグでTrace Analyzerにフィルターを適用する 🔗

Alexは、Trace Analyzerのフィルターに /checkout/{cardId} のhttp urlを追加し、この特定のエンドポイントのトレースを確認します。

このスクリーンショットは、[メトリクスのグループ化]タブからTrace Analyzerのフィルターに値を追加するオプションを示しています。

Alexが正常なトレースとエラーのあるトレースを比較する 🔗

これでAlexは、/checkout/{cardId} のhttp urlの正常なトレースと、同じエンドポイントのエラーを持つトレースを確認し、比較することができます。

このスクリーンショットは、Trace Analyzerのフィルターのフィルターを適用したビューです。

まとめ 🔗

完全忠実トレースによって提供される高解像度のデータを使用して、Alexは未知の問題の蔓延状況を迅速に特定することができました。Trace Analyzerのグループ化とフィルタリングの機能を使用して、正常なトレースと問題のあるトレースを素早く分離し、エンジニアに提示して問題の切り分けができるようにしました。

さらに詳しく 🔗

このページは 2024年02月29日 に最終更新されました。