開発の背景:急成長するAI対話型EC市場と「品質の死角」
会話型コマース市場は急速に拡大しており、2025年には約129億ドル規模に達し、2026年には141億ドルへと成長が見込まれています[1]。特に生成AIを搭載したチャットボットの成長率は高く、年平均成長率(CAGR)34.9%で急伸しています[2]。Amazonの「Rufus」は年間100億ドル規模の売上押し上げ効果があると報じられ[3]、AIチャットが購買チャネルとして確立されつつあります[4]。AIチャット利用者のコンバージョン率は非利用者の約4倍というデータも存在します[5]。
一方で、AIチャットの品質に関する深刻な問題も顕在化しています。ECサイトのAIが誤った配送手順を案内したり、存在しない代替品の発送完了を通知するといった「ハルシネーション」(AIが事実に基づかない情報を生成すること)により実害が発生する事例が報告されており[6]、複雑なシナリオではハルシネーション発生率が25%を超えるとの調査結果もあります[7]。また、「プロンプトインジェクション」(悪意ある指示によってAIの動作を変更させる攻撃)によるシステムプロンプトの漏洩や不正な割引適用が可能であることも実証されています[8]。
法的なリスクも現実化しており、2024年にはAir Canadaのチャットボットが誤った運賃案内を行い、航空会社の責任が認められる判決が下されました[9]。さらに、2026年8月にはEU AI Actが完全施行され、チャットボットがAIであることを明示する義務や、高リスクAIシステムへの厳格な要件が適用されるなど、規制も強化されています[10][11]。
しかし、ECチャットの品質を客観的に測定するための標準的なベンチマークはこれまで存在しませんでした。「SOUK」は、この空白を埋めるために開発されたツールです。
SOUKの特長
「SOUK」は、EC商品推薦チャットの品質を複数のAIジャッジモデルで自動的にスコアリングするオープンソースのベンチマークツールです。プロジェクト名は中東の伝統的な市場(スーク)に由来し、「活気ある商取引の場における対話品質」を評価するという意図が込められています。
「SOUK」には以下の5つの特長があります。
-
マルチモデルジャッジ
GPT、Claude、Gemini、Amazon Bedrock、またはOpenAI互換の任意のエンドポイントを「審査員」として利用可能です。単一モデルの偏りを排除し、多角的な品質評価を実現します。 -
10種類の評価基準(0〜10点スコア + 詳細ルーブリック)
ECチャットに求められる品質を10の軸で体系的に評価します。これには「接客品質に関する基準」(自然さ、推薦品質、一貫性、ハルシネーション、有用性、有害性)と「セキュリティに関する基準」(プロンプトインジェクション耐性、情報漏洩防止、役割境界維持、個人情報取り扱い)が含まれます。

-
3言語完全対応
すべての評価基準とテストケースが英語・日本語・中国語に対応しており、グローバル展開するECサービスの多言語品質評価が可能です。 -
静的評価 + ライブ評価
記録済みの会話ログだけでなく、稼働中のチャットエンドポイントに対してリアルタイムに評価を実行できます。CI/CDパイプラインへの組み込みにも対応しています。 -
即座に導入可能
pip install soukのワンコマンドでインストールが完了し、Docker対応により環境構築も不要です。MCPサーバー機能により、AI開発ワークフローへのシームレスな統合も実現しています。
HTML評価レポートの出力イメージ
「SOUK」は評価結果をChart.jsを用いたインタラクティブなHTMLダッシュボードとして出力します。10基準のスコアをレーダーチャートで可視化し、ジャッジモデル別・カテゴリ別の棒グラフ、各テストケースの会話内容と採点理由まで一画面で確認可能です。JSON形式での出力にも対応しており、BIツールやCI/CDパイプラインへの組み込みも容易です。

自社サービス「Lemonavi」との連携
NITI Technologyが提供する商品推薦AIエージェント「Lemonavi(レモナビ)」は、「SOUK」を用いた継続的な品質評価を開発プロセスに組み込んでいます。「SOUK」によるベンチマーク結果をもとに「Lemonavi」の応答品質を定量的に改善するサイクルを確立しており、ハルシネーション率の低減やプロンプトインジェクション耐性の向上といった成果を、数値として検証可能にしています。
「SOUK」をオープンソースとして公開することで、同様の品質改善サイクルをチャットコマース業界全体で共有し、業界水準の底上げに貢献することを目指しています。
想定される利用シーン
「SOUK」は、様々なシーンでの活用が想定されます。
-
ECプラットフォーム事業者:自社チャットボットの品質を定期的にベンチマークし、リリース前の品質ゲートとして活用できます。
-
チャットボット開発企業:複数のLLMを比較評価し、最適なモデル選定の根拠として利用できます。
-
セキュリティ・コンプライアンス部門:プロンプトインジェクション耐性や情報漏洩リスクの定量的な監査ツールとして導入できます。
-
研究機関・大学:対話品質評価の標準ベンチマークとして、研究に活用できます。
今後の展望
「SOUK」は今後、評価基準の拡張(業界特化の評価基準追加)、リアルタイムモニタリング(本番環境のチャット品質を継続的に監視するダッシュボード機能)、ベンチマークランキング(匿名化されたスコアの共有による業界横断のベンチマーク比較)などの機能拡充を予定しています。
「SOUK」はOSS(オープンソースソフトウェア)の形式をとっており、有志による改良を受け付けています。ユーザーとともに成長し続けるプラットフォームになることが期待されます。
関連リンク
-
SOUK GitHub: <https://github.com/NITI-Lab/SOUK>
-
Lemonavi: <https://www.lemonavi.com/lp>
-
NITI Technology: <https://nititech.jp/>
NITI Technologyについて
株式会社NITI Technologyは、最先端のAI技術を駆使し、企業のビジネスプロセスを革新するテクノロジーカンパニーです。商品推薦AIエージェント「Lemonavi」の開発・提供を軸に、実務に即したAIプロダクトの提供と柔軟な受託開発を通じて、企業のDX推進と持続的な成長を支援しています。詳細はNITI Technologyのウェブサイトをご覧ください。
引用元・参考資料
-
[1] The Business Research Company, “Conversational Commerce Global Market Report,” 2025. <https://www.thebusinessresearchcompany.com/report/conversational-commerce-global-market-report>
-
[2] The Business Research Company, “Artificial Intelligence (AI) Chatbot Global Market Report,” 2026. <https://www.thebusinessresearchcompany.com/report/artificial-intelligence-ai-chatbot-global-market-report>
-
[3] D. Smith, “Amazon says its AI shopping assistant Rufus is on pace to pull in an extra $10 billion in sales,” Fortune, November 2, 2025. <https://fortune.com/2025/11/02/amazon-rufus-ai-shopping-assistant-chatbot-10-billion-sales-monetization/>
-
[4] A. Palmer, “OpenAI’s first crack at online shopping stumbled. It’s preparing for the next wave,” CNBC, March 20, 2026. <https://www.cnbc.com/2026/03/20/open-ai-agentic-shopping-etsy-shopify-walmart-amazon.html>
-
[5] Rep AI, “The Future of AI In Ecommerce: 40+ Statistics on Conversational AI Agents for 2025,” HelloRep.ai, 2025. <https://www.hellorep.ai/blog/the-future-of-ai-in-ecommerce-40-statistics-on-conversational-ai-agents-for-2025>
-
[6] Yuma AI, “AI Hallucinations in Customer Service: Why Quality Control Architecture Matters,” Yuma AI Blog, 2025. <https://yuma.ai/blogs/ai-hallucinations-in-customer-service-why-quality-control-architecture-matters>
-
[7] H. Ehtesham, “AI Hallucination Report 2026: Which AI Hallucinates the Most?,” All About AI, December 4, 2025. <https://www.allaboutai.com/resources/ai-statistics/ai-hallucinations/>
-
[8] EdgeTier, “When Chatbots Go Wrong: The New Risk Landscape in AI Customer Service,” EdgeTier Blog, October 29, 2025. <https://www.edgetier.com/chatbots-the-new-risk-in-ai-customer-service/>
-
[9] B. B. Sookman, “Moffatt v. Air Canada: A Misrepresentation by an AI Chatbot,” McCarthy Tétrault – TechLex, February 19, 2024. <https://www.mccarthy.ca/en/insights/blogs/techlex/moffatt-v-air-canada-misrepresentation-ai-chatbot>
-
[10] Programming Helper, “EU AI Act 2026: Rules, Risk Categories & Business Impact,” Programming Helper Tech, 2026. <https://www.programming-helper.com/tech/ai-act-2026>
-
[11] So & Sato Law Offices, “AI Regulation in the EU and Japan: A Practical Guide for Cross-Border Businesses,” Innovation Law / So & Sato, January 23, 2026. <https://innovationlaw.jp/en/eu-japan-ai-regulation-cross-border-guide/>
AI Workstyle Lab編集部コメント
「SOUK」の登場は、EC事業者にとってAIチャット導入の大きな後押しとなるでしょう。これまで曖昧だったAIの“接客品質”が数値で可視化されることで、より効果的なチャットボットの選定や改善が可能になります。ハルシネーションやセキュリティリスクの早期発見は、顧客満足度の向上だけでなく、法的リスクの軽減にも直結します。特に中小企業では、限られたリソースの中でAIの品質を担保することが課題でしたが、SOUKのようなオープンソースツールを活用することで、競争力の強化と業務効率化を両立できる可能性を秘めていると言えます。
「AIニュースは追っているけど、何から学べばいいか分からない…」 そんな初心者向けに、編集部が本当におすすめできる無料AIセミナーを厳選しました。
- 完全無料で参加できるAIセミナーだけを厳選
- ChatGPT・Geminiを基礎から体系的に学べる
- 比較しやすく、あなたに合う講座が一目で分かる
ChatGPTなどの生成AIを使いこなして、仕事・収入・時間の安定につながるスキルを身につけませんか?
AI Workstyle LabのAIニュースをチェックしているあなたは、すでに一歩リードしている側です。あとは、 実務で使える生成AIスキルを身につければ、「知っている」から「成果を出せる」状態へ一気に飛べます。
講師:栗須俊勝(AI総研)
30社以上にAI研修・業務効率化支援を提供。“大阪の生成AIハカセ”として企業DXを牽引しています。
- 日々の業務を30〜70%時短する、実務直結の生成AI活用法を体系的に学べる
- 副業・本業どちらにも活かせる、AI時代の「稼ぐためのスキルセット」を習得
- 文章・画像・資料作成など、仕事も趣味もラクになる汎用的なAIスキルが身につく
ニュースを読むだけで終わらせず、
「明日から成果が変わるAIスキル」を一緒に身につけましょう。
本記事は、各社の公式発表および公開情報を基に、AI Workstyle Lab編集部が 事実確認・再構成を行い作成しています。一次情報の内容は編集部にて確認し、 CoWriter(AI自動生成システム)で速報性を高めつつ、最終的な編集プロセスを経て公開しています。
