Docs » Splunk APMを使用したエラーのトラブルシューティングとアプリケーションパフォーマンスの監視のシナリオ » シナリオ:AlexがTrace Analyzerを使用して問題のトラブルシューティングを実行し、根本原因を特定する

シナリオ:AlexがTrace Analyzerを使用して問題のトラブルシューティングを実行し、根本原因を特定する 🔗

Buttercup Gamesのサイト信頼性エンジニアであるAlexは、精算時にエラーが発生したという顧客の報告を受けています。潜在的なインシデントを未然に防ぐため、Alex は、Trace Analyzerを使用して精算のエラーがどの程度蔓延しているかを迅速に判断します。

精算のエラーがどの程度蔓延しているかを判断するため、Alexは以下の手順を踏みます:

  1. Alexが顧客のトレースを見てエラーを確認する

  2. アレックスが特定のタグでトレースをグループ化する

  3. Alexが特定のタグでTrace Analyzerにフィルターを適用する

  4. Alexが正常なトレースとエラーのあるトレースを比較する

Alexが顧客のトレースを見てエラーを確認する 🔗

カスタマーサポートが共有するトレースIDの情報を使ってAlexはトレースの情報を引き出し、トラブルシューティングを開始します。Alexは、精算サービスのhttpリクエストが500エラーを返していることに気づきました。Alexは、このエラーが精算フローでどの程度蔓延しているかをすばやく把握したいと考えます。そこで、500エラーを返しているリクエストの http.url をメモし、さらなる調査に備えます。

アレックスが特定のタグでトレースをグループ化する 🔗

http.url はインデックスされていないスパンであるため、Tag Spotlightを使用して http.url 別でリクエストとエラーの内訳を見ることはできません。そこで、AlexはTrace Analyzerに移動し、Group traces by メニューから http.url を選択して、問題のあるトレースからメモした特定の http.url 値のエラーの蔓延状況を素早く把握します。Alexは、/checkout/{cardId} リクエストのトレースの10%以上にエラーがあることに気づきます。

このスクリーンショットは、Trace Analyzerの「トレースのグループ化基準」オプションと、それを使用してグループ化されたメトリクスを示しています。

Alexが特定のタグでTrace Analyzerにフィルターを適用する 🔗

Alexは、Trace Analyzerのフィルターに /checkout/{cardId} のhttp urlを追加し、この特定のエンドポイントのトレースを確認します。

このスクリーンショットは、[メトリクスのグループ化]タブからTrace Analyzerのフィルターに値を追加するオプションを示しています。

Alexが正常なトレースとエラーのあるトレースを比較する 🔗

これでAlexは、/checkout/{cardId} のhttp urlの正常なトレースと、同じエンドポイントのエラーを持つトレースを確認し、比較することができます。

このスクリーンショットは、Trace Analyzerのフィルターのフィルターを適用したビューです。

まとめ 🔗

完全忠実トレースによって提供される高解像度のデータを使用して、Alexは未知の問題の蔓延状況を迅速に特定することができました。Trace Analyzerのグループ化とフィルタリングの機能を使用して、正常なトレースと問題のあるトレースを素早く分離し、エンジニアに提示して問題の切り分けができるようにしました。

さらに詳しく 🔗

このページは 2024年02月29日 に最終更新されました。