LegalRikai: Open Benchmarkとは?日本の企業法務向けLLM評価の新基準と主要モデルの性能を解説

📰 AIニュース

「LegalRikai: Open Benchmark」の概要

「LegalRikai」は、日本の法規制に基づき、LLMが法的タスクを適切に解決・処理できるかを評価するベンチマークデータセットです。これまで企業法務におけるAIの評価基準は曖昧でしたが、本データセットは「弁護士のように正確」で「実務で通用する」品質の回答を評価する基準として開発されました。

今回公開された「LegalRikai: Open Benchmark」では、以下の4つの法的タスクについてLLMの性能を検証できます。

  1. 法改正の説明能力: 法改正の趣旨と実務への影響を正確に理解し、社内伝達用の要約を作成する能力を検証します。
  2. 法令に準拠した契約書修正: 古い法令に対応した契約書を現行法令に準拠した形に修正できるかを検証します。
  3. 契約書への要望反映: 関係者からの意見や要望を忠実に契約書に反映する能力を検証します。
  4. 契約書のリスク検出および修正文生成: 契約書に潜在するリスクを検出し、そのリスクを低減するための修正案を提案する能力を検証します。

これらのタスク検証により、LLMの知識量だけでなく「実務適合性」を多角的に評価することが可能となります。これにより、AI開発企業や研究機関は、自社のLLM性能を公正に比較・検証し、より実践的で高品質なモデル開発を効率的に進めることができるでしょう。

「LegalRikai: Open Benchmark」の概要および各モデルの分析結果は、arXivにて公開されています。

データソースはHugging Face Hubにて公開されています。

主要LLMの検証結果

「LegalRikai: Open Benchmark」を用いて、GPT-5、Gemini-2.5-pro、Claude Opus 4.1といった主要LLMの検証が行われ、各モデルの得意分野と特徴が分析されました。特に複雑なタスクである「現行法令に準拠した契約書を出力するタスク」の結果が注目されます。

この棒グラフは、GPT-5、Gemini-2.5-pro、Claude Opus 4.1という3つのAIモデルの契約書レビューにおけるパフォーマンスを比較しています。指示通りの修正、契約書構造の整合性、不要な修正の有無、専門用語の正確さ、契約書特有の言い回しの適切さといった5つの評価基準で各モデルのスコアが示されており、特に専門用語の正確さでは全モデルが1.00と高いスコアを出しています。

このタスクは、法令の把握から契約書の構造理解、修正まで多岐にわたる複雑なフローを要します。検証の結果、以下の特性が明らかになりました。

  • Gemini-2.5-proは、「指示通りの修正が行われているか」で0.73、「不要な修正がされていないか」で0.44と高スコアを記録し、網羅性と正確性に優れていることが示されました。

  • Claude Opus 4.1は、「契約書構造が整合しているか」で0.40、「契約書特有の言い回しが適切に使用されているか」において1.0と最高スコアを記録し、契約書としての体裁を維持することに長けていることがわかりました。しかし、「不要な修正がされていないか」は0.20と最も低く、指示にない余分な変更を行う傾向が見られます。

  • GPT-5は、Gemini-2.5-proとClaude Opus 4.1の中間的な性能結果となりました。

  • 全てのモデルで「専門用語が正しく使用されているか」において最高スコアの1.0を記録しており、専門用語の扱いに問題は見られませんでした。

これらの結果は、法務実務でLLMを選定する際には、単一の総合スコアだけでなく、タスクの性質やモデルの得意な側面を考慮することの重要性を示しています。他の3つのタスクの検証結果については、論文で詳細を確認できます。

LegalOn Technologiesは、今後も「LegalRikai: Open Benchmark」の継続的な改善と検証を通じて、法務AIの進化をリードし、企業がより安全で効果的なAIを実装できるよう貢献していく方針です。

LegalOn Technologiesについて

株式会社LegalOn Technologiesは、AI分野における高度な技術力と法律・契約の専門知識を兼ね備えたグローバルリーガルAIカンパニーです。2017年の設立以来、AIを活用したリーガルAIサービスの開発に注力し、現在は「LegalOn: World Leading Legal AI」を展開しています。グローバルでの有償導入社数は2025年9月末時点で7,500社を突破しています。

2025年1月からは、AIカウンセル「CorporateOn」の提供も開始し、事業領域をコーポレート全体に拡大しています。大規模言語モデル(LLM)やAIエージェントなどの最先端AI技術を製品開発に取り入れ、多様な企業課題に応えるソリューションを通じてビジネスを支援しています。

「LegalOn: World Leading Legal AI」の詳細については、以下のURLをご覧ください。

株式会社LegalOn Technologiesに関する情報は、以下のURLで確認できます。


AI Workstyle Lab編集部コメント

今回の「LegalRikai: Open Benchmark」の公開は、日本の企業法務分野におけるAI活用の大きな一歩となります。特に、弁護士による評価基準を取り入れたベンチマークである点は、実務でのAI導入を検討する企業にとって非常に価値が高いでしょう。これにより、法務部門はLLMの得意分野を正確に把握し、契約書のレビューや法改正対応といった高度な業務にAIを戦略的に組み込むことが可能になります。結果として、法務業務の品質向上と大幅な効率化が期待され、企業の競争力強化に直結するでしょう。AIを活用した新たな業務プロセスの構築が、今後ますます加速すると予測されます。

📘 もっと基礎から学びたい人へ|無料で参加できるAIセミナーまとめ

「AIニュースは追っているけど、何から学べばいいか分からない…」 そんな初心者向けに、編集部が本当におすすめできる無料AIセミナーを厳選しました。

🔰【初心者向け】生成AIを基礎から学べる無料セミナーまとめ
  • 完全無料で参加できるAIセミナーだけを厳選
  • ChatGPT・Geminiを基礎から体系的に学べる
  • 比較しやすく、あなたに合う講座が一目で分かる
無料で学べるAIセミナー一覧を見る
生成AI学習に取り残されないために…
ChatGPTなどの生成AIを使いこなして、仕事・収入・時間の安定につながるスキルを身につけませんか?

AI Workstyle LabのAIニュースをチェックしているあなたは、すでに一歩リードしている側です。あとは、 実務で使える生成AIスキルを身につければ、「知っている」から「成果を出せる」状態へ一気に飛べます。

ChatGPT無料セミナー|ゼロから2時間で学べる生成AI活用講座
PR|生成AIスクール
🧠 実践型 生成AIスクール「スタートAI」

講師:栗須俊勝(AI総研)
30社以上にAI研修・業務効率化支援を提供。“大阪の生成AIハカセ”として企業DXを牽引しています。

  • 日々の業務を30〜70%時短する、実務直結の生成AI活用法を体系的に学べる
  • 副業・本業どちらにも活かせる、AI時代の「稼ぐためのスキルセット」を習得
  • 文章・画像・資料作成など、仕事も趣味もラクになる汎用的なAIスキルが身につく

ニュースを読むだけで終わらせず、
「明日から成果が変わるAIスキル」を一緒に身につけましょう。

【編集ポリシー】

本記事は、各社の公式発表および公開情報を基に、AI Workstyle Lab編集部が 事実確認・再構成を行い作成しています。一次情報の内容は編集部にて確認し、 CoWriter(AI自動生成システム)で速報性を高めつつ、最終的な編集プロセスを経て公開しています。

この記事の情報
記事の著者
AI Workstyle Lab 編集部

ChatGPTやAIツールを中心に、AI時代の「学び・働き方・キャリア」をアップデートする情報を発信。
AI Workstyle Labは、AIと共に進化する働き方を提案するメディアです。
AI Workstyle Lab編集部は、人間の編集者が監修し、150本以上の記事をChatGPT × 校正AIで制作しています。

AI Workstyle Lab 編集部をフォローする
📰 AIニュース
スポンサーリンク
AI Workstyle Lab 編集部をフォローする
タイトルとURLをコピーしました