運営

公開日: 2021-06-25 • 読了時間: 7分

インシデント管理: プロアクティブな運用と事後的な運用

ほとんどのエンタープライズ サポート チームは、システムに障害が発生し、アラートがトリガーされ、サポート エンジニアがインシデントの解決に奔走するという事後対応のループで業務を行っています。迅速な解決は重要ですが、最新の IT 運用の目標は、インシデントが本番環境に影響を与える前に防止することです。

事後消火活動のコスト

事後対応サポートは貴重なリソースを消費し、製品ロードマップの実行を遅らせ、顧客の信頼を低下させます。また、チームは根本原因を解決せずに、繰り返し発生する問題のデバッグに時間を浪費するため、非常に非効率的でもあります。

リアクティブモデル システム停止 反応アラーム 消防活動を支援する プロアクティブな SRE モデル 可観測性と可観測性メトリクス 予測異常 予防的修復

プロアクティブ サポートの原則

プロアクティブな運用準備への移行には、以下が必要です。

  • 高度な可観測性: 単純なしきい値アラートから、障害が発生する前に異常を報告する予測モニタリングへの移行
  • エラー バジェット: リリース速度とプラットフォームの安定性のバランスをとるために、許容可能な障害しきい値に関して開発チームと運用チームを連携させます。
  • 責任のない事後分析: 人的エラーではなくシステム障害に焦点を当ててインシデントを分析し、恒久的な修復を推進します。

修復ライフサイクルと自動化

事後対応チームとプロアクティブ チームの主な違いは、修復までの時間です。自動化された Runbook を使用すると、システム アラートが自己修復スクリプトをトリガーできます。データベース ストレージ ボリュームが容量の 90% に達すると、インフラストラクチャが自動的にボリュームを拡張し、人間の介入なしで問題を解決します。

インシデント対応タイムライン 0m:異常 5m: 自動警報 12分: ランブックの実行 15m: 修復済み (停止なし) 事後対応パス: 手動トリアージ (2 時間以上の停止リスク)

回復力のある運用の構築

自己修復機能とプロアクティブなアラートを確立することで、企業は平均解決時間 (MTTR) を大幅に短縮します。サポート エンジニアは、手動による消火活動から長期的なインフラストラクチャ改善の構築に焦点を移し、プラットフォーム全体の可用性を向上させます。

← ブログに戻る