医療現場の事務作業を効率化！日本語医療LLMの性能と安全性、社会実装への道筋を解説

医療現場の事務作業を支援する高性能な日本語LLMが開発
医療機関におけるAI活用の構造的課題
高性能日本語LLMの開発と安全性検証
今後の予定
- 関連情報
AI Workstyle Lab編集部コメント

医療現場の事務作業を支援する高性能な日本語LLMが開発

NEDOが推進する「AIの安全性確保に関する研究開発・検証等の推進事業」において、10の連名機関が、医療現場の事務作業を支援する高性能な日本語大規模言語モデル（LLM）を開発しました。

このLLMは、医療機関のオンプレミス環境や国内クラウド環境など、患者情報を安全に管理できる環境で運用可能です。世界最先端の商用LLMに匹敵する性能を有し、独自に構築されたベンチマークによる検証では、専門医試験を模した学術試験で最大90.8％の正答率を達成。これは比較対象の主要な商用LLM（91.4％）に迫る水準です。さらに、日本の医療特性を踏まえた安全性検証も実施され、医療現場で求められる性能と安全性の両立が確認されています。

本研究開発の成果は、医療現場の業務効率化と医療の質向上に貢献することを目指し、今後段階的に社会実装が進められる予定です。

医療機関におけるAI活用の構造的課題

医療機関がAIを活用する際には、以下の3つの構造的課題が存在していました。

患者情報の管理に関する課題: 多くのAIサービスでは患者情報が国外サーバーや外部事業者の管理下で処理され、医療機関での把握・管理が困難でした。
データ標準化の課題: 医療機関ごとに用語やコード体系が異なり、データの相互運用性が十分に確保されていませんでした。
安全性基準の課題: 医療現場でのLLM活用に関する安全性基準が未整備であり、導入判断の根拠が不足していました。

本事業では、これらの課題解決を目指し、「LLM開発」「安全性検証」「ユースケース検証」の3点に取り組んでいます。

高性能日本語LLMの開発と安全性検証

1. 患者情報を安全に管理できる環境で運用可能な高性能日本語LLMの開発

公開されているオープンなLLMをベースモデルとし、日本の診療ガイドラインや専門医試験問題、臨床事例といった医療分野の教材から生成されたデータを追加学習※1させることで、高性能なモデルが開発されました。これにより、患者情報を安全に管理できる環境で運用しながらも、主要な商用LLMに迫る性能を実現しています。

特に、外部文書を参照しながら回答する方式（RAG）を用いた専門医試験を模した学術試験では、最大90.8％の正答率を達成し、主要な商用LLM（91.4％）に肉薄する結果を示しました。また、日本の診療ガイドラインに沿った応答ができるかを評価する指標では、ベースモデルと比較して最大10.8ポイントの性能向上が確認されています。

さらに、独自アーキテクチャによる国産のフルスクラッチ開発※2モデルも構築され、同規模のオープンモデルと比較して競争力のある性能を示し、将来的な国産基盤モデル開発に向けた技術的知見が蓄積されました。

2. 日本の医療特性を踏まえた独自の安全性検証

LLMが医療情報を扱う上で重要となる安全性の検証として、以下の多面的な取り組みが実施されました。

学習データに含まれる患者情報がLLMに記憶されるリスクを定量的に評価する手法の確立
患者情報を自動で検出・マスキングする機能の実装
日本の医療特性を踏まえた対話型安全性ベンチマーク（5万件超）の策定・公開およびモデル評価
攻撃耐性を評価する試験（6000件規模のレッドチーミング※3）の実施

検証の結果、追加学習を行った後もベースモデルと同等の高い安全性を維持できることが確認されています。同時に、ベースとなるLLMの選択が安全性維持を大きく左右することも明らかになり、医療分野でより安全なAIを開発する上での重要な知見が得られました。

3. 医療業務支援を想定したユースケース検証

医療従事者の事務的・文書的業務を支援することを目的として、複数のユースケースにおいて技術的な実現可能性が検証されました。

検査名称からJLAC11コードへの自動変換: 3医療機関のマスタデータで検証し、最大80.3％の精度を達成しました。
症例データの自動整理（脳卒中レジストリ構築）: 人間の作業精度（94〜95％）に対し、LLMで92.2％を記録しました。
退院時サマリーの下書き作成: 専門医9名による品質評価で、本事業の追加学習モデルが商用LLM相当の品質（5点満点で4.748、GPT-5.2比－0.06ポイント）を達成しました。
電子カルテへの自然言語による問い合わせ: 複数の電子カルテシステムとの接続方法を確立し、自然言語による問い合わせが可能であることを確認しました。

これらの機能は、いずれも医療従事者の事務作業・文書作成を補助するものであり、疾病の診断・治療そのものを行うものではありません。最終的な判断は医師および医療従事者が行います。

今後の予定

本研究開発で得られた医療業務支援向けLLMは、医療現場の業務効率化および医療の質向上に資することを目指し、今後、関係機関と連携しながら段階的に社会実装を進めていく予定です。

社会実装にあたっては、安全性・信頼性の確保を最優先に取り組むとともに、医療機関をはじめとする関係機関との丁寧な対話を重ねながら進められます。

AI Workstyle Lab編集部コメント

今回の日本語医療LLM開発は、医療現場におけるAI活用の大きな転換点となりそうです。医療機関にとって、事務作業の効率化は長年の課題であり、人手不足が深刻化する中で、このLLMは大きな助けとなるでしょう。検査名称からのコード変換、症例データの自動整理、退院時サマリーの下書き作成、電子カルテへの自然言語での問い合わせなど、具体的なユースケースが検証されており、医療従事者がより専門性の高い業務に集中できる環境が整備されることが期待されます。これにより、医療サービスの質の向上と運営の効率化が同時に実現され、医療機関の持続可能な経営にも貢献すると考えられます。

📘 もっと基礎から学びたい人へ｜無料で参加できるAIセミナーまとめ

「AIニュースは追っているけど、何から学べばいいか分からない…」そんな初心者向けに、編集部が本当におすすめできる無料AIセミナーを厳選しました。

🔰【初心者向け】生成AIを基礎から学べる無料セミナーまとめ