VLAとVLM

視覚言語アクションモデルと視覚言語モデル — 言語条件付きロボット制御。

VLA と VLM とは何ですか?

VLM (視覚言語モデル) — 画像とテキストの両方を理解するマルチモーダルモデル。キャプション、VQA、およびグラウンディングに使用されます。

VLA (視覚-言語-行動) — ロボットのアクションを出力するために拡張された VLM。画像 + 言語指示を取得し、制御コマンド (関節の位置、グリッパーなど) を出力します。「赤いブロックを拾う」スタイルコントロールを有効にします。

主要モデル

OpenVLA — 7B オープンソース VLA、970K デモ
RT-2 / RT-X — Google の VLA ファミリー
オクト — 言語条件付けによる普及政策
ロボフラミンゴ — OpenFlamingo ベースのロボット用 VLM

関連リソース

オープンソースの VLA および VLM モデル — リンク付きの完全なカタログ
データセット — 言語ラベル付き操作データ