Docs » Splunk Observability CloudとSplunkプラットフォームを使用した信頼性の実践 » インシデント対応

インシデント対応 🔗

You can drill down to find the root cause of incidents using several tools available in Splunk Observability Cloud. In the following sections, see how each component of Splunk Observability Cloud is an effective incident response tool.

Splunk Observability Cloudを他のSplunkプラットフォーム製品と併用する方法については、Splunk Observability CloudとSplunkプラットフォームのシナリオ のユースケースサンプルを参照してください。

アラートとディテクター 🔗

Use Splunk Observability Cloud alerts, detectors, events, and notifications to inform you when certain criteria are met. Alerts and detectors are often your first awareness that an incident has occurred. Splunk Observability Cloud has AutoDetect, or built-in alerts and detectors for supported integrations. See AutoDetect for more information.

さらに、チームはディテクターを作成して、チームにとって最も重要なパフォーマンスと閾値についてアラートを出すことができます。たとえば、サーバーのレイテンシが高くなりすぎているなど、SLO で設定した制限値にシステムが近づいたときに、アラートとディテクターを使用してチームに通知できます。アラート、ディテクター、閾値、およびこれらの相互作用のしくみについては、Splunk Observability Cloudのアラートとディテクターの概要 を参照してください。

アラートとディテクターを積極的に使用してシステムの変化に関する情報を常に把握しておけば、ユーザーが経験するインシデントの数を減らし、設定した静的閾値または動的閾値をイベントが超えたときにシステムを更新することで、将来のチームの労力を軽減することができます。

You can see all alerts, including AutoDetect alerts and custom alerts, on the Alerts homepage in Splunk Observability Cloud. To go to your organization’s Alerts homepage, log in to Splunk Observability Cloud, then select Alerts in the left navigation menu. The following screenshot shows your Alerts homepage.

AutoDetect enables Splunk Observability Cloud’s automatic detectors for supported integrations. You can subscribe to notifications for all integrations after you connect your systems and send in data for supported integrations. See AutoDetectアラートおよびディテクターの使用とカスタマイズ to learn more. See also 利用可能なAutoDetectディテクターのリスト.

Select any alert to see details and links to Splunk Observability Cloud components that you can use to troubleshoot the error. The following critical alert shows a high API error rate. The Explore Further section on the right panel shows a link that takes you to APM where you can troubleshoot the issue.

サーバーのレイテンシの増加、高いCPU使用率、システム上限への接近、ユーザーエクスペリエンスに悪影響を及ぼすその他の状況について、アラートを使用してチームに通知する方法の例については、アラートとディテクターを使用してインフラストラクチャの問題を発見し解決するシナリオ を参照してください。

ダッシュボード 🔗

Splunk Observability Cloud components all contribute to the data analytics in Splunk Observability Cloud dashboards. You can see charts and dashboards in APM, Infrastructure Monitoring, and RUM. You can also go to the homepage for all Splunk Observability Cloud dashboards to see dashboards and charts created in each component, including log views or logs data displayed in a chart.

Splunk Observability Cloud has built-in dashboards, custom dashboards, user dashboards, and dashboard groups. See Splunk Observability Cloudのダッシュボードタイプ for more information. See also built-in dashboards to learn more about built-in dashboards. Dashboards contain important information that can provide useful and actionable insight into your system at a glance. You can create custom dashboards and charts that help you monitor your SLOs, or simple dashboards that contain only a few charts that drill down into the data that you want to see. The following example shows a dashboard for an organization with dozens of built-in dashboards reporting on their many supported integrations. When users select a dashboard, they see all charts saved to this dashboard and can quickly drill down on a chart showing interesting trends or unexpected variation.

ダッシュボードを表示するには、Splunk Observability Cloudにログインし、左のナビゲーションメニューから ダッシュボード を選択します。

Splunk APM 🔗

APMはトレースとスパンを収集し、分散アプリケーションを監視します。サービスマップを使用してエラーの根本原因を調査したり、Tag Spotlightを使用してエラーの根本原因を見つけることができます。その方法については、シナリオ:KaiがSplunk APMのサービスマップを使用してエラーの根本原因を調査するシナリオ:DeepuがTag Spotlightを使用してエラーの根本原因を見つける を参照してください。その他のAPMトラブルシューティングのシナリオ例については、Splunk APMを使用したエラーのトラブルシューティングとアプリケーションパフォーマンスの監視のシナリオ を参照してください。

Database Query Performance 🔗

データベースのクエリが遅いことも、サービスの可用性に関わる広範な問題の原因となります。データベースのクエリ時間が可用性やレイテンシに関するインシデントの原因になっていないかどうかを評価することで、インシデントに迅速に対応できます。Database Query Performanceの監視 を参照して、データベースのパフォーマンスを確認してください。次の画像は、ある組織の「データベースクエリパフォーマンス」ダッシュボードを示しています。

You can check the performance of your database queries in Splunk APM. Log in to Splunk Observability Cloud, select APM in the left navigation menu, then select DB Query Performance on the right panel.

Splunk Infrastructure Monitoring 🔗

Infrastructure Monitoringは、インフラストラクチャ、アプリケーション、ビジネスメトリクスをリアルタイムで監視するための、業界をリードするカスタムメトリクスプラットフォームです。Splunk Infrastructure Monitoring でナビゲーターを使用する を参照して、パブリッククラウドサービス、コンテナ、ホストなど、ご利用のデプロイのさまざまなレイヤーを探究してください。

Infrastructure Monitoringのヒートマップには、各ホスト、コンテナ、パブリッククラウドサービスのCPU、メモリ、ディスク、ネットワークのメトリクスがリアルタイムストリーミング方式で表示されます。ヒートマップ上でCPU使用率で並べ替えたり、異常値検出 を選択したりして、CPU使用率の急上昇や、ユーザーのロード時間や保存時間の遅延の原因となっているリソースを確認できます。

The following GIF shows an incident responder selecting a critical alert in Infrastructure Monitoring. The responder discovers that host CPU utilization is outside of expected norms set by a Splunk Observability Cloud admin. Teams responding to an incident can use this information to remediate the problem with the host or rebalance resources and prevent users from experiencing higher than expected latency.

Infrastructure Monitoringナビゲーターを使用してパブリッククラウド、コンテナ、またはホストを監視する方法は、Splunk Infrastructure Monitoring でサービスとホストを監視する を参照してください。

Splunk Log Observer Connect 🔗

Use Log Observer Connect to drill down to the root cause of incidents in the lowest mean time to resolution. While Splunk core platform users already have access to a powerful logging tool, Log Observer Connect provides an intuitive, codeless, in-app search tool that anyone can use without knowing a query language. Additionally, Log Observer Connect does not require importing logs into Splunk Observability Cloud. Logs remain securely in your Splunk Cloud Platform or Splunk Enterprise instance, while you can observe them from Splunk Observability Cloud and correlate your Splunk platform logs with metrics, traces, and user experience to drill down to root cause problems faster.

Log Observer Connectを使用すると、ログを集計して、関心対象のフィールド別にグループ化できます。また、フィールドによるログのフィルタリング、個別のログの詳細の表示、フィールドエイリアスの作成を行って、インシデントの根本原因を掘り下げることができます。詳細については、次のページを参照してください:

To view related content, select correlated infrastructure resources, metrics, or traces in the Related Content bar. See Splunk Observability Cloudの関連コンテンツ to learn more. Seeing your logs data correlated with metrics and traces in Splunk Observability Cloud helps your team to locate and resolve problems faster.

次のGIFは、あるインシデント対応者がLog Observer Connectでエラーログを選択し、関連コンテンツを選択して、問題のあるホストを表示するところを示しています。これでユーザーは、問題のあるホストが自動的に選択されたInfrastructure Monitoringのサービスマップに移動できます。サービスマップパネルには、サービスリクエストとエラー、選択したホストのサービスと依存関係のレイテンシが表示されます。

Log Observer でログをクエリする を参照して、Log Observer Connectのクエリでインシデントの根本原因を掘り下げるすべての方法を学習してください。

Real User Monitoring(RUM) 🔗

RUMは、ユーザーセッションを分析することで、ご利用のアプリケーションUIのユーザーエクスペリエンスを監視します。RUMでは、フロントエンドのJavaScriptエラーやネットワークエラーの監視と掘り下げができます。

フロントエンドとバックエンドのエラーを探したり、リソースのエラーやリソースの応答時間を確認したりすることができます。ブラウザスパンでエラーを特定する を参照して、JavaScriptエラー、バックエンドエラー、応答時間の遅延を見つける方法を説明したシナリオを確認してください。

RUMは、ユーザーから報告されたエラーの根本的な原因を調査する際に特に役立ちます。詳しくは シナリオ:Kai が Splunk RUM for Mobile でユーザーから報告されたエラーの根本原因を見つける を参照してください。

This page was last updated on 2024年05月28日.