シナリオ:Alexがエンドポイントパフォーマンスを使用してサービスパフォーマンスを監視する 🔗
Buttercup GamesのパフォーマンスエンジニアであるAlexは、Buttercup Gamesのカスタマーエクスペリエンスを監視および最適化し、インシデントを未然に防ぎたいと考えています。現在、Alexは特に精算のワークフローに関心を持っています。なぜなら、今朝、このプロセスに対する強化機能をリリースしたからです。
精算エクスペリエンスのパフォーマンスを確認するために、AlexはSplunk APMで以下の手順を踏みます:
Alexが「エンドポイントパフォーマンス」カードでエンドポイントを確認する 🔗
AlexはAPMで依存関係マップを開きます。Buttercup Gamesアプリはモノリスアーキテクチャを使用しているため、依存関係マップを使用してコンポーネントサービスにドリルダウンすることはできません。そこでAlexは「エンドポイントパフォーマンス」カードを確認し、P90レイテンシを2秒間以上示す精算エンドポイントが「エンドポイントパフォーマンス」カードにリストされていることに気付きました。
Alexが「エンドポイントパフォーマンス」でエンドポイントをソートし、フィルタリングする 🔗
Alexは、「エンドポイントパフォーマンス」カードを選択して完全な「エンドポイントパフォーマンス」のページに移動し、どの精算エンドポイントに2秒以上の時間がかかっているかの詳細を確認します。
「エンドポイントパフォーマンス」内で、AlexはP90レイテンシでエンドポイントをソーティングし、レイテンシが最も高いエンドポイントをすぐに確認できるようにします。
また、Alexは検索を使って、パスに/checkout/が含まれるエンドポイントにフィルターをかけます。
Alexが直近1時間のパフォーマンスを昨日の同じ時間と比較する 🔗
Alexは、今朝リリースがあったことを知っているため、時間のドロップダウンを「-1h」に更新し、比較に「-24h」を選択して、直近の1時間を昨日の同じ時間枠と比較できるようにします。
Alexは、checkout/{cardId}のエンドポイントのP90レイテンシが昨日の同じ時間に比べて110%増加していることに気がつきます。
AlexがTag Spotlightを使用して詳細なコンテキストを取得する 🔗
Alexはこのエンドポイントを選択し、Tag Spotlightの詳細情報を確認します。http.status_code 503が高レイテンシタグのトップであることに気がつきます。Alexは、このタグを選択して、Tag Spotlightで調査します。
Tag Spotlightで、Alexは503ステータスコードを見つけ、Tag Spotlightに503レスポンスに対するフィルターを追加します。これで、今日リリースされた最新バージョンが503レスポンスの大部分の原因となっていることがわかりました。最新バージョンにおける503レスポンスに関連した遅延を確認したAlexは、503レスポンスの原因についてチームに相談します。
まとめ 🔗
Alexは、「エンドポイントパフォーマンス」を使用して自社のモノリス内のエンドポイントを監視しました。「エンドポイントパフォーマンス」内でフィルター、ソーティング、および比較の機能を使用して、リリースの後にレイテンシが増加したエンドポイントを迅速に区別しました。
さらに詳しく 🔗
Tag Spotlightの詳細については、Tag Spotlightを使用してサービスパフォーマンスを分析する を参照してください。
APMの主要な概念の一覧は、Splunk APMの主要な概念 を参照してください。
Splunk APMのその他のシナリオについては、Splunk APMを使用したエラーのトラブルシューティングとアプリケーションパフォーマンスの監視のシナリオ を参照してください。