フィジカルAIのための新たなアーキテクチャ
Cosmos 3は、ロボット、自動運転車(AV)、ビジョンエージェントが、限られた学習データと断片化されたシミュレーションスタックを用いて現実世界での汎化を目指すという、フィジカルAIの基本的な課題に取り組んでいます。
このモデルのmixture-of-transformersアーキテクチャは、リーズニングのためのトランスフォーマーとエキスパート生成型トランスフォーマーを組み合わせることで、Cosmos 3が動画や動作軌跡を生成する前に、オブジェクトの相互作用、動き、空間と時間的な関係を理解できるように設計されています。
本モデルは、テキスト、画像、動画、サウンド、動作軌跡から得られた数十億ものサンプルを含む、最大規模のマルチモーダルなフィジカルAIデータセットの一つを用いて学習されています。これにより、開発者はより少ないデータと低い学習コストでフィジカルAIシステムを構築するための、強力な事前学習済み基盤モデルとして活用できます。
開発者にとってのCosmos 3の用途
開発者はCosmos 3を以下の用途で利用できます。
-
さまざまなモダリティを理解し、リーズニングする:視覚言語モデルとして機能します。
-
物理環境をシミュレートし、学習と評価のために未来の世界状態を予測する:世界基盤モデルまたは動画基盤モデルとして利用できます。
-
ロボットが特定のタスクの実行を学習するのに役立つ:世界行動モデルのバックボーンとして活用されます。
Cosmos 3は、フィジカルAIベンチマークでトップクラスの結果を実現しており、世界生成の精度、アクションポリシー、視覚理解において多くのリーダーボードで1位にランクされています。
Cosmos 3のラインナップ
Cosmos 3は、フィジカルAI開発のさまざまな段階に対応するオプションを開発者に提供します。
-
Cosmos 3 Super:最高レベルの物理精度と生成品質が求められるロボティクスおよび自動運転向けモデルのポストトレーニングに最適です。
-
Cosmos 3 Nano:わずか数分の1秒で高品質な動画生成とアクションリーズニングを実現します。
-
Cosmos 3 Edge:近日公開予定であり、エッジにおけるリアルタイム推論に最適です。
Cosmos Coalitionがオープンな世界基盤モデルの開発を加速
NVIDIAは、世界基盤モデルの開発者、AI開発者、そしてフィジカルAIのリーダーによるグローバルなエコシステム構想である「Cosmos Coalition」を立ち上げました。その目的は、あらゆる業界でオープンな世界モデルを推進することにあります。設立メンバーには、Agile Robots、Black Forest Labs、Generalist、LTX、Runway、Skild AIが含まれます。
メンバーは、Cosmos 3の技術、トレーニングツール、大規模トレーニング用のNVIDIA DGX™ Cloudインフラを使用しながら、モデル、研究、評価手法を提供できます。Coalitionは、オープンに構築し、共有エコシステム全体で貢献することで、フィジカルAIのより迅速なイノベーション、より広範な相互運用性、そしてより急速な進歩を実現することを目指しています。
開発者はCosmosを活用
Cosmosプラットフォームは、NVIDIAのフィジカルAIスタックを強化し、業界を問わず学習と評価のためのワークフローを迅速化します。このプラットフォームには、ロボティクス、物理学、人間の動作、自動運転、倉庫安全、空間リーズニングのための新しいデータセットに加え、ニューラルシーン再構成、欠陥画像生成、動画拡張のための新しいフィジカルAIエージェントスキルが含まれています。
フィジカルAIの開発者は、業界を問わずCosmosプラットフォームを活用して開発を進めています。例えば、ロボティクス領域ではAgile Robots、Doosan Robotics、LG Electronics、Samsung、Skild AI、自動運転領域ではLiAuto、そして産業AIやスマート空間向けアプリケーションを強化するビジョンAIエージェントの分野ではCentific、Fogsphere、Linker Vision、Milestone Systems、Yuanなどの企業がCosmosプラットフォームを活用しています。
利用方法
Cosmos 3 SuperとCosmos 3 Nanoは現在利用可能であり、リアルタイム推論向けのCosmos 3 Edgeもまもなく登場します。
開発者は以下の方法でCosmos 3を試すことができます。
-
build.nvidia.comでCosmos 3を試す
-
Hugging Faceからオープンモデルをダウンロードする
-
Hugging Face DiffusersとGitHubのリソースを使用してモデルをカスタマイズしたり合成データを生成したりする
-
NVIDIA NIM™マイクロサービスとしてモデルを展開する
また、モデルビルダーとソフトウェアプロバイダーは、リーズニングサービスや以下のクラウドインフラパートナーを通じて、GitHub上のフィジカルAIエージェントスキルを使用して、主要なリーズニングと合成データ生成ワークロード向けにCosmosにアクセスし、カスタマイズおよび導入を迅速化できます。
NVIDIA GTC Taipeiにおけるジェンスン・フアン氏の基調講演はこちらから、フィジカルAIのセッションはこちらからご覧いただけます。
AI Workstyle Lab編集部コメント
NVIDIA Cosmos 3の発表は、フィジカルAI開発における大きな転換点となりそうです。特に、mixture-of-transformersアーキテクチャによるビジョンリーズニングとマルチモーダル生成能力は、従来のAIモデルが抱えていた物理世界での汎化の課題を解決する鍵を握っています。テキスト、画像、動画、環境音、アクションといった多様なデータをネイティブに処理できるオムニモデルとしての特性は、ロボットや自動運転車の学習プロセスを飛躍的に効率化し、現実世界でのAIの認識、リーズニング、計画、行動能力を向上させるでしょう。これにより、AIがより複雑な物理タスクをこなし、実社会への応用が加速することが期待されます。
「AIニュースは追っているけど、何から学べばいいか分からない…」 そんな初心者向けに、編集部が本当におすすめできる無料AIセミナーを厳選しました。
- 完全無料で参加できるAIセミナーだけを厳選
- ChatGPT・Geminiを基礎から体系的に学べる
- 比較しやすく、あなたに合う講座が一目で分かる
ChatGPTなどの生成AIを使いこなして、仕事・収入・時間の安定につながるスキルを身につけませんか?
AI Workstyle LabのAIニュースをチェックしているあなたは、すでに一歩リードしている側です。あとは、 実務で使える生成AIスキルを身につければ、「知っている」から「成果を出せる」状態へ一気に飛べます。
講師:栗須俊勝(AI総研)
30社以上にAI研修・業務効率化支援を提供。“大阪の生成AIハカセ”として企業DXを牽引しています。
- 日々の業務を30〜70%時短する、実務直結の生成AI活用法を体系的に学べる
- 副業・本業どちらにも活かせる、AI時代の「稼ぐためのスキルセット」を習得
- 文章・画像・資料作成など、仕事も趣味もラクになる汎用的なAIスキルが身につく
ニュースを読むだけで終わらせず、
「明日から成果が変わるAIスキル」を一緒に身につけましょう。
本記事は、各社の公式発表および公開情報を基に、AI Workstyle Lab編集部が 事実確認・再構成を行い作成しています。一次情報の内容は編集部にて確認し、 CoWriter(AI自動生成システム)で速報性を高めつつ、最終的な編集プロセスを経て公開しています。
