マルチモーダルXAI「根拠強化デコーディング」技術をNTTが確立

NTT株式会社は、画像と言語を扱うマルチモーダルAI基盤モデルの出力信頼性を高める新たな推論の仕組みとして、「根拠強化デコーディング」技術を確立したと2026年6月1日に発表しました。この技術は、大規模視覚言語モデル(LVLM)が段階的な思考による推論(Chain-of-Thought, CoT)を行う際に、自身が生成した推論根拠を無視する傾向があるという課題を解決します。
大規模視覚言語モデル(LVLM)における推論の課題
近年、大規模言語モデル(LLM)と画像エンコーダを統合したLVLMの開発が進み、動画分析や文書読解など、複雑なマルチモーダル推論が可能になっています。LLMと同様に、LVLMでもCoTは推論能力の向上や説明可能な推論手法として有効だと考えられてきました。
しかし、既存のCoTメカニズムでは、画像と根拠を一つの系列として入力するため、推論根拠に含まれる情報を必ず使用するという因果的な構造がありませんでした。つまり、CoTによる最終出力が根拠の内容に基づくことが保証されていなかったのです。

NTTの実験と分析により、既存のLVLMがマルチモーダルCoT推論において、生成した推論根拠の内容を無視して最終的な回答を生成してしまうことが明らかになりました。例えば、質問と無関係な根拠にすり替えても最終出力が変わらない場合があり、このときモデルは画像のみから最終出力を生成していると考えられます。

これらの発見は、通常のLVLMによる推論では、根拠と最終的な回答の一貫性が制限されており、説明可能な推論が行えないという根本的な課題を示しています。
根拠強化デコーディングの概要
この課題を解決するため、本研究成果では、既存のLVLMの推論方法を見直し、追加のデータセットやコストのかかる再学習を必要としないプラグアンドプレイ型の推論時デコーディング技術「根拠強化デコーディング」を確立しました。
根拠強化デコーディングは、LVLMが次のトークンを予測する確率を、画像に条件付けられた分布と推論の根拠に条件付けられた分布に分離し、これらをかけ合わせることで、画像から得られる情報と根拠から得られる情報を調和させて回答を出力します。

この方式では画像と根拠が別々にLVLMに入力されるため、根拠の使用を保証できます。具体的には、マルチモーダルCoTをKLダイバージェンス制約付きの報酬最大化問題として定式化し、この問題を閉形式で解くことで、推論時のみの計算でLVLMが画像情報と根拠情報の双方に明示的に基づく最適な次トークン予測を実現しています。
技術のポイント
1. マルチモーダルCoTの最適化問題としての定式化
本研究では、通常のマルチモーダルCoTが画像と根拠を同時に条件付けた単一の次トークン予測分布を利用しており、これが必ずしも根拠の内容に確実にもとづいて回答を生成していない点に着目しました。そこで、画像と根拠の両方にもとづいて推論を行うため、この推論プロセスを新たな最適化問題として再定式化しています。
具体的には、推論の根拠に条件付けられた予測確率を「報酬」として最大化しつつ、画像に条件付けられた予測確率から大きく逸脱しないように制約(KLダイバージェンス制約)を遵守するようにトークン生成を行います。

2. 追加学習不要のプラグアンドプレイ実装
上記の最適化問題はLVLMを追加学習することでも解けますが、これには訓練データセットや計算機環境など多大なコストがかかります。本研究では、この最適化問題の最適解となる分布が、画像に条件付けられた分布と根拠に条件付けられた分布の積で表現される分布と等しいことを数学的に証明しました。
これにより、実際の実装ではモデルが出力するロジットの重み付き和を計算するだけで済むため、追加学習が一切不要です。既存のあらゆるLVLMにそのまま組み込める(プラグアンドプレイな)極めて実用性の高い手法となっています。
実験では、さまざまなLVLMに対して根拠強化デコーディングを適用することで、一貫して推論性能(正答率など)を大幅に向上させることに成功しています。さらに、高品質なテキスト(例: GPT-4によって生成された根拠)を与えた場合、根拠強化デコーディングの優位性がさらに増幅され、LVLMが根拠の内容を忠実に解釈・活用できていることが実証されました。


今後の展開と国際会議での発表
本研究成果は、画像と推論の根拠の双方を明示的に使用して最終回答を生成する新しい推論の枠組み「根拠強化デコーディング」技術を確立しました。この技術は、これまでブラックボックスだったLVLMの推論過程に解釈性を与えられる可能性を示唆しています。
これにより、医療画像診断や人間の意思決定に関わる重大なケースを扱う対話エージェントなど、より確実で信頼性の高い推論システムが求められる分野へのLVLMの社会実装が加速することが期待されます。NTTは今後もAIの信頼性改善や、多数のAIを連携させるAIコンステレーションの具現化につながる次世代技術の開発に貢献していくとしています。
本成果は、2026年6月3日から6月7日まで米国・デンバーで開催されるコンピュータビジョン分野における最難関国際会議 Computer Vision and Pattern Recognition (CVPR) 2026で発表されます。
用語解説
-
CVPR 2026: コンピュータビジョンに関するトップレベルの国際会議です。
- 詳細はこちら: https://cvpr.thecvf.com/
-
AIコンステレーション: NTTが提唱する、多数のAIが連携し、複雑な課題解決を行う構想です。
AI Workstyle Lab編集部コメント
NTTが開発した「根拠強化デコーディング」は、AIのビジネス活用を大きく後押しする技術です。これまでブラックボックスとされがちだった大規模視覚言語モデル(LVLM)が、自らの判断根拠を明確に説明できるようになることで、企業はAIの意思決定に対する信頼性を飛躍的に高めることができます。特に、医療診断や金融、法務といった高度な判断が求められる分野では、AIの導入がさらに加速し、業務の効率化はもちろん、より正確で倫理的な意思決定を支援する新たなビジネス価値が生まれるでしょう。
「AIニュースは追っているけど、何から学べばいいか分からない…」 そんな初心者向けに、編集部が本当におすすめできる無料AIセミナーを厳選しました。
- 完全無料で参加できるAIセミナーだけを厳選
- ChatGPT・Geminiを基礎から体系的に学べる
- 比較しやすく、あなたに合う講座が一目で分かる
ChatGPTなどの生成AIを使いこなして、仕事・収入・時間の安定につながるスキルを身につけませんか?
AI Workstyle LabのAIニュースをチェックしているあなたは、すでに一歩リードしている側です。あとは、 実務で使える生成AIスキルを身につければ、「知っている」から「成果を出せる」状態へ一気に飛べます。
講師:栗須俊勝(AI総研)
30社以上にAI研修・業務効率化支援を提供。“大阪の生成AIハカセ”として企業DXを牽引しています。
- 日々の業務を30〜70%時短する、実務直結の生成AI活用法を体系的に学べる
- 副業・本業どちらにも活かせる、AI時代の「稼ぐためのスキルセット」を習得
- 文章・画像・資料作成など、仕事も趣味もラクになる汎用的なAIスキルが身につく
ニュースを読むだけで終わらせず、
「明日から成果が変わるAIスキル」を一緒に身につけましょう。
本記事は、各社の公式発表および公開情報を基に、AI Workstyle Lab編集部が 事実確認・再構成を行い作成しています。一次情報の内容は編集部にて確認し、 CoWriter(AI自動生成システム)で速報性を高めつつ、最終的な編集プロセスを経て公開しています。

