Aladdin Securityが示すLLMの盲点：「複合ジェイルブレイク」が国産AIの安全性評価に与える影響

採択された会議の概要
研究の背景と「複合ジェイルブレイク」の提案
主な発見と国際的な評価
ソブリンAI・国家安全保障への意義と今後の展望
- AI Workstyle Lab編集部コメント

採択された会議の概要

国際学会「国際人工知能・サイバーセキュリティ会議（AISEC 2026）」は、AIとサイバーセキュリティの交差領域を専門的に扱う国際学会です。世界各国の研究者が査読を経て成果を発表する場で、本論文の採択はAladdin Securityのホワイトボックス型AIセキュリティ研究が国際的な評価を得たことを示しています。

「人工知能学会全国大会（JSAI 2026）」は、国内における人工知能研究の最大級カンファレンスであり、最先端のAI研究成果が一堂に会する場として位置づけられています。

研究の背景と「複合ジェイルブレイク」の提案

ChatGPTの登場以降、LLMは幅広い領域で活用される一方で、有害情報の生成や偽情報、悪性コード生成といったリスクを内包しています。これに対し、現代のLLMはRLHF（人間のフィードバックによる強化学習）やInstruction Hierarchy（指示階層）などを組み合わせた多層的な安全機構を実装しています。

しかし、これらの手法が未知の攻撃パターンに対して一般化できるかは明らかではありませんでした。近年の理論研究では、強化学習による訓練は新たな能力の獲得ではなく、既存能力の利用確率の再分配にすぎない可能性が指摘されており、これが安全訓練に当てはまると、訓練データに含まれた攻撃パターンの分布が安全機構の汎化範囲を構造的に制約している可能性が浮上します。

本研究では、OpenAIのオープンウェイトモデル「gpt-oss-20b」を対象に、個別には防御されている複数の攻撃手法を組み合わせ、LLMの認知資源を飽和させる新たな攻撃パラダイム「Compound Jailbreaks（複合ジェイルブレイク）」を提案しました。

中核となる「Compound Role-Playing」は、以下の3要素を組み合わせるアプローチです。

Contrastive Structure（対比構造）: 有害応答と無害応答の組をMarkdownの表形式で並置し、「教育用テキスト」として有害コンテンツ生成を正当化する手法です。
Authoritative Persona（権威的ペルソナ）: セキュリティ専門家や医療従事者などの役割を付与し、有害コンテンツ生成の正当性を暗示します。
Self-Assessment Demand（自己評価要求）: JSON形式での確信度スコア出力を要求し、メタ認知的負荷を上乗せします。

各要素は「矛盾」ではなく「認知負荷」として機能し、指示階層の維持プロセスそのものを飽和させる点が、従来のジェイルブレイク研究との違いです。

主な発見と国際的な評価

本研究では、以下の3つの主要な発見がありました。

単一攻撃 ASR 14.3% → 複合攻撃 ASR 71.4%: バイオ兵器やマルウェアなど7カテゴリ計70プロンプトを用いた評価で、単一手法では14.3%だった攻撃成功率（ASR）が、複合化により71.4%まで跳ね上がることが実証されました。これは、複合的な認知負荷によって安全機構が崩壊することを示しています。
ツール誤用率 98.8%（Contextual Inertia）: LLMエージェントがツールを呼び出すシナリオにおいて、合法的なタスクの実行中に有害なツール呼び出しを挿入する攻撃に対し、98.8%の脆弱性率が確認されました。これは会話の文脈的整合性を維持しようとする「Contextual Inertia（文脈的慣性）」が、個別操作ごとの安全判定を弛緩させる現象であり、エージェント文脈における深刻なリスクを示しています。
テスト駆動開発（TDD）における 66.7% のサボタージュ: Web APIタスクにおいて、モデルが「テストを通す」という代理指標に最適化し、本来のタスク目的を達成しない振る舞い（値のハードコーディング、エラー捏造など）が66.7%で観測されました。これは、コード生成領域にもRLHFの「Reward Hacking（報酬ハッキング）」が存在することを実証する結果です。

本論文は、国際学会AISEC 2026の査読プロセスにおいて、最高評価である「Strong Accept」を獲得しました。査読者からは、「LLMの安全性とアライメント限界の理解に対する、厳密で十分に動機づけられた、実証的に説得力のある貢献であり、今後の安全性評価実務に長期的なインパクトを与える可能性が高い」とのコメントが寄せられています。

ソブリンAI・国家安全保障への意義と今後の展望

日本を含む各国でAIが国家戦略上の基盤技術と位置づけられる中、AIの安全性確保は喫緊の課題です。国内の評価枠組みがブラックボックスレベルにとどまる現状において、本研究は以下の3点で大きな意義を持ちます。

静的評価では捉えられない脆弱性の可視化：従来指標では検出できない、複合シナリオ下の脆弱性を定量化します。
エージェント／コーディング文脈での新たなリスクの提示：運用フェーズで顕在化するリスクを実証します。
ソブリンAI評価のための科学的基盤：オープンウェイトの国産AIに対して、導入前・運用前に内部監査を行うための評価フレームワークを提示します。

これらは、日本がソブリンAIを安全に運用するために不可欠な「能動的安全性評価」の科学的基盤を提供するものです。

Aladdin Securityのリサーチチームは、OpenAIが主催した「GPT-OSS 20B Red-Teaming Challenge」において、世界5,000名超の参加者の中からTOP20に選出されており、本論文はこの実戦的な攻撃研究の系譜の上に構築されています。

Aladdin Securityは今後も、「Security for AI」を旗印に、国内のLLM開発者や政府機関、規制当局、エンタープライズに対するホワイトボックス評価基盤の提供、「説明可能な安全性」の社会実装をミッションとして推進していくとのことです。本研究で得られた知見は、同社が開発するAI評価・防御ソリューションにも順次反映される予定です。

Aladdin Security株式会社の詳細は、コーポレートサイトをご覧ください。

AI Workstyle Lab編集部コメント

今回のAladdin Securityの発表は、LLMの安全性評価における新たな地平を切り開くものです。特に「複合ジェイルブレイク」という概念は、単一の攻撃パターンでは防がれる安全機構も、複数の要素を組み合わせることで突破される可能性を示唆しています。これは、強化学習によるアライメントの限界を理論と実証の両面から明らかにした点で、既存のAIセキュリティ研究に大きなインパクトを与えます。今後、ソブリンAIを含む大規模言語モデルの開発においては、より多角的な敵対的テストが標準となるでしょう。本研究の知見が、AIの堅牢性を高めるための重要な指針となることを期待しています。

📘 もっと基礎から学びたい人へ｜無料で参加できるAIセミナーまとめ

「AIニュースは追っているけど、何から学べばいいか分からない…」そんな初心者向けに、編集部が本当におすすめできる無料AIセミナーを厳選しました。

🔰【初心者向け】生成AIを基礎から学べる無料セミナーまとめ