← 用語集

VLAとVLM

視覚言語アクションモデルと視覚言語モデル — 言語条件付きロボット制御。

VLA と VLM とは何ですか?

VLM (視覚言語モデル) — 画像とテキストの両方を理解するマルチモーダル モデル。 キャプション、VQA、およびグラウンディングに使用されます。

VLA (視覚-言語-行動) — ロボットのアクションを出力するために拡張された VLM。 画像 + 言語指示を取得し、制御コマンド (関節の位置、グリッパーなど) を出力します。 「赤いブロックを拾う」スタイル コントロールを有効にします。

主要モデル

  • OpenVLA — 7B オープンソース VLA、970K デモ
  • RT-2 / RT-X — Google の VLA ファミリー
  • オクト — 言語条件付けによる普及政策
  • ロボフラミンゴ — OpenFlamingo ベースのロボット用 VLM

関連リソース