renueのAI統合モニタリングシステムとは？障害検知から自動復旧までを徹底解説

開発の背景：ジョブ増加と運用負荷の深刻化
設計の基本方針とシステム全体像
技術アーキテクチャと今後の展望
株式会社renue 会社概要

開発の背景：ジョブ増加と運用負荷の深刻化

企業のDX推進に伴い、財務データの自動同期、採用プラットフォームからの情報取得、プレスリリース収集、マーケティングデータ集計、ECプラットフォームの在庫・注文データ同期など、業務を支えるバックグラウンドジョブの数と種類は急速に増加しています。renueにおいても、Azure、AWS、GC（Google Cloud）上で数十種類のバッチジョブが日々稼働しています。

従来の監視手法では、Slackへのエラー通知に依存していましたが、ジョブの増加により「通知の洪水」「サイレント・フェイラー（予期せぬ終了に気づかない）」「原因特定の属人化」「復旧対応の遅延」といった課題が深刻化していました。社内エンジニアからも、監視設定の手動追加の非効率性や死活監視の困難さが指摘され、根本的な監視体制の刷新が急務となっていました。

設計の基本方針とシステム全体像

これらの課題に対応するため、本システムは以下の3つの基本方針のもとで設計されました。

監視のための監視に時間を取られないこと
ジョブ追加時に監視設定を個別に行う必要がないこと（ゼロコンフィグ）
障害の検知から復旧までの一連のプロセスを可能な限り自動化すること

システムは、統合ダッシュボードでのジョブ状態一元管理、障害検知、AI障害分析、そして自動復旧の4つの機能で構成されています。

統合ジョブ監視ダッシュボード

全定期実行ジョブの状態をリアルタイムで一元管理するダッシュボードです。従来Slackの複数チャンネルに散在していたジョブの状態情報を、データドリブンかつ体系的なモニタリングへと転換しました。

自動ログ記録ライブラリ（celery_task_logger）

Celery（Pythonで書かれた分散タスクキュー）のタスクシグナルをフックし、全ジョブの実行イベントを自動的にデータベースへ記録します。既存のジョブコードに一切の変更が不要な「ゼロコンフィグ設計」により、ライブラリを導入するだけで実行イベントが自動的に蓄積され、新規ジョブ追加時も個別の監視設定は不要です。

記録される情報には、タスクID、タスク名、実行ステータス（pending / started / success / failure / retry）、開始・終了時刻、実行時間、処理結果サマリー、エラー内容（スタックトレース含む）、リトライ回数、実行環境などが含まれます。

障害検知

従来の「エラーが発生したら通知する」方式では捕捉できなかった障害パターンに対応するため、三層構造の障害検知が導入されています。

第一層：fatal error判定ヘルパー: リトライ可能な一時エラーと、認証エラーやスキーマ変更といった致命的なエラーを明確に区別し、確実に検知します。
第二層：未実行検知: 各ジョブに期待される実行間隔を定義し、その間隔を超えても実行ログが記録されない場合に異常として検知します。これにより、スケジューラ自体の障害やリソース不足によるジョブのスキップなど、エラー通知が発火しない障害も捕捉可能です。
第三層：メタ監視: 監視システム自体の正常稼働を定期的に検証します。ダッシュボードAPIのヘルスチェックやログ記録ライブラリの動作確認などを行い、異常検知時は独立したアラートチャネルで通知します。

この導入により、サイレント・フェイラーの発生件数がゼロになり、障害検知から初動対応までの平均所要時間が大幅に短縮されました。

AI障害分析（開発中）

障害検知後の原因調査と復旧作業におけるギャップを埋めるため、AIを活用した障害分析機能の開発が進められています。実行ログやスタックトレースの詳細解析、正常実行時との差分比較、ソースコードのコンテキスト解析、外部サービスの状態確認、類似エラーのパターンマッチングなどを通じて、根本原因の推定、影響範囲の評価、推奨される対処方法を含む分析レポート（マークダウン形式）が出力されます。ジョブごとの事前定義されたコンテキスト情報により、分析精度が向上します。

自動復旧（開発中）

障害の検知から原因分析、復旧までの一連のプロセスをAIが支援し、エンジニアの介入を最小限に抑えることを目指しています。AIが障害分析の結果に基づいて修正コード案を生成し、GitHubのプルリクエストとして提出するフローが想定されています。対象となる障害カテゴリは、外部API仕様変更、一時的なネットワーク障害、データフォーマット変更、依存ライブラリの互換性問題、環境変数・設定値の変更などです。

安全性の担保として、AIが修正を試みてよいコード範囲の事前定義、ジョブの優先度設定、段階的な自律性レベル（確信度に応じたPR作成やエスカレーション）が設けられています。これにより、深夜・休日の障害に対しても即座に復旧プロセスが開始され、エンジニアは翌営業日の出社時にAIが作成したプルリクエストをレビューするだけで障害対応が完了する運用スタイルを目指しています。

技術アーキテクチャと今後の展望

本システムはAzureのクラウドインフラストラクチャ上に構築されており、ジョブ実行基盤（Azure App Service, Azure Container Apps Jobs）、データ永続化層（Azure Cache for Redis, Azure Database for MySQL）、監視レイヤー、AI分析・復旧レイヤーの4層構成で各層が疎結合に設計されています。デプロイメントはGitHub ActionsによるCI/CDパイプラインとブルーグリーンデプロイメント方式を採用し、ダウンタイムを排除しています。

renueは今後、この統合モニタリングシステムをさらに進化させ、AIを活用したジョブ運用の完全自律化に向けて機能拡張を進める予定です。具体的には、「障害予測機能」によるプロアクティブな監視、インフラレベルの自動スケーリングやフェイルオーバーを含む「自動復旧のカバレッジ拡大」、そして「社外向けソリューションへの展開」や「障害対応ナレッジの自動蓄積」などが視野に入れられています。

renueは、AIエージェント技術を活用した業務自動化ソリューションの開発を通じて、エンジニアリングチームが創造的な開発業務に集中できる環境づくりに貢献していくとしています。