医療現場の事務作業を支援する高性能な日本語LLMが開発
NEDOが推進する「AIの安全性確保に関する研究開発・検証等の推進事業」において、10の連名機関が、医療現場の事務作業を支援する高性能な日本語大規模言語モデル(LLM)を開発しました。
このLLMは、医療機関のオンプレミス環境や国内クラウド環境など、患者情報を安全に管理できる環境で運用可能です。世界最先端の商用LLMに匹敵する性能を有し、独自に構築されたベンチマークによる検証では、専門医試験を模した学術試験で最大90.8%の正答率を達成。これは比較対象の主要な商用LLM(91.4%)に迫る水準です。さらに、日本の医療特性を踏まえた安全性検証も実施され、医療現場で求められる性能と安全性の両立が確認されています。
本研究開発の成果は、医療現場の業務効率化と医療の質向上に貢献することを目指し、今後段階的に社会実装が進められる予定です。
医療機関におけるAI活用の構造的課題
医療機関がAIを活用する際には、以下の3つの構造的課題が存在していました。
- 患者情報の管理に関する課題: 多くのAIサービスでは患者情報が国外サーバーや外部事業者の管理下で処理され、医療機関での把握・管理が困難でした。
- データ標準化の課題: 医療機関ごとに用語やコード体系が異なり、データの相互運用性が十分に確保されていませんでした。
- 安全性基準の課題: 医療現場でのLLM活用に関する安全性基準が未整備であり、導入判断の根拠が不足していました。
本事業では、これらの課題解決を目指し、「LLM開発」「安全性検証」「ユースケース検証」の3点に取り組んでいます。
高性能日本語LLMの開発と安全性検証
1. 患者情報を安全に管理できる環境で運用可能な高性能日本語LLMの開発
公開されているオープンなLLMをベースモデルとし、日本の診療ガイドラインや専門医試験問題、臨床事例といった医療分野の教材から生成されたデータを追加学習※1させることで、高性能なモデルが開発されました。これにより、患者情報を安全に管理できる環境で運用しながらも、主要な商用LLMに迫る性能を実現しています。
特に、外部文書を参照しながら回答する方式(RAG)を用いた専門医試験を模した学術試験では、最大90.8%の正答率を達成し、主要な商用LLM(91.4%)に肉薄する結果を示しました。また、日本の診療ガイドラインに沿った応答ができるかを評価する指標では、ベースモデルと比較して最大10.8ポイントの性能向上が確認されています。

さらに、独自アーキテクチャによる国産のフルスクラッチ開発※2モデルも構築され、同規模のオープンモデルと比較して競争力のある性能を示し、将来的な国産基盤モデル開発に向けた技術的知見が蓄積されました。
2. 日本の医療特性を踏まえた独自の安全性検証
LLMが医療情報を扱う上で重要となる安全性の検証として、以下の多面的な取り組みが実施されました。
-
学習データに含まれる患者情報がLLMに記憶されるリスクを定量的に評価する手法の確立
-
患者情報を自動で検出・マスキングする機能の実装
-
日本の医療特性を踏まえた対話型安全性ベンチマーク(5万件超)の策定・公開およびモデル評価
-
攻撃耐性を評価する試験(6000件規模のレッドチーミング※3)の実施
検証の結果、追加学習を行った後もベースモデルと同等の高い安全性を維持できることが確認されています。同時に、ベースとなるLLMの選択が安全性維持を大きく左右することも明らかになり、医療分野でより安全なAIを開発する上での重要な知見が得られました。


3. 医療業務支援を想定したユースケース検証
医療従事者の事務的・文書的業務を支援することを目的として、複数のユースケースにおいて技術的な実現可能性が検証されました。
-
検査名称からJLAC11コードへの自動変換: 3医療機関のマスタデータで検証し、最大80.3%の精度を達成しました。
-
症例データの自動整理(脳卒中レジストリ構築): 人間の作業精度(94〜95%)に対し、LLMで92.2%を記録しました。
-
退院時サマリーの下書き作成: 専門医9名による品質評価で、本事業の追加学習モデルが商用LLM相当の品質(5点満点で4.748、GPT-5.2比 -0.06ポイント)を達成しました。
-
電子カルテへの自然言語による問い合わせ: 複数の電子カルテシステムとの接続方法を確立し、自然言語による問い合わせが可能であることを確認しました。
これらの機能は、いずれも医療従事者の事務作業・文書作成を補助するものであり、疾病の診断・治療そのものを行うものではありません。最終的な判断は医師および医療従事者が行います。
今後の予定
本研究開発で得られた医療業務支援向けLLMは、医療現場の業務効率化および医療の質向上に資することを目指し、今後、関係機関と連携しながら段階的に社会実装を進めていく予定です。
社会実装にあたっては、安全性・信頼性の確保を最優先に取り組むとともに、医療機関をはじめとする関係機関との丁寧な対話を重ねながら進められます。
関連情報
-
NEDO「AIの安全性確保に関する研究開発・検証等の推進事業」概要:
-
国立研究開発法人新エネルギー・産業技術総合開発機構(NEDO):
※1 追加学習: 既存のLLMに特定分野のデータを追加で学習させ、当該分野に特化させる手法のことです。
※2 フルスクラッチ開発: 既存モデルを基にせず、設計から学習までを一から行うLLM開発手法のことです。
※3 レッドチーミング: 攻撃者視点で意図的に攻撃を仕掛け、システムの脆弱(ぜいじゃく)性を体系的に評価する手法のことです。
AI Workstyle Lab編集部コメント
今回の日本語医療LLM開発は、医療現場におけるAI活用の大きな転換点となりそうです。医療機関にとって、事務作業の効率化は長年の課題であり、人手不足が深刻化する中で、このLLMは大きな助けとなるでしょう。検査名称からのコード変換、症例データの自動整理、退院時サマリーの下書き作成、電子カルテへの自然言語での問い合わせなど、具体的なユースケースが検証されており、医療従事者がより専門性の高い業務に集中できる環境が整備されることが期待されます。これにより、医療サービスの質の向上と運営の効率化が同時に実現され、医療機関の持続可能な経営にも貢献すると考えられます。
「AIニュースは追っているけど、何から学べばいいか分からない…」 そんな初心者向けに、編集部が本当におすすめできる無料AIセミナーを厳選しました。
- 完全無料で参加できるAIセミナーだけを厳選
- ChatGPT・Geminiを基礎から体系的に学べる
- 比較しやすく、あなたに合う講座が一目で分かる
ChatGPTなどの生成AIを使いこなして、仕事・収入・時間の安定につながるスキルを身につけませんか?
AI Workstyle LabのAIニュースをチェックしているあなたは、すでに一歩リードしている側です。あとは、 実務で使える生成AIスキルを身につければ、「知っている」から「成果を出せる」状態へ一気に飛べます。
講師:栗須俊勝(AI総研)
30社以上にAI研修・業務効率化支援を提供。“大阪の生成AIハカセ”として企業DXを牽引しています。
- 日々の業務を30〜70%時短する、実務直結の生成AI活用法を体系的に学べる
- 副業・本業どちらにも活かせる、AI時代の「稼ぐためのスキルセット」を習得
- 文章・画像・資料作成など、仕事も趣味もラクになる汎用的なAIスキルが身につく
ニュースを読むだけで終わらせず、
「明日から成果が変わるAIスキル」を一緒に身につけましょう。
本記事は、各社の公式発表および公開情報を基に、AI Workstyle Lab編集部が 事実確認・再構成を行い作成しています。一次情報の内容は編集部にて確認し、 CoWriter(AI自動生成システム)で速報性を高めつつ、最終的な編集プロセスを経て公開しています。

