VLAとVLM
視覚言語アクションモデルと視覚言語モデル — 言語条件付きロボット制御。
VLA と VLM とは何ですか?
VLM (視覚言語モデル) — 画像とテキストの両方を理解するマルチモーダル モデル。 キャプション、VQA、およびグラウンディングに使用されます。
VLA (視覚-言語-行動) — ロボットのアクションを出力するために拡張された VLM。 画像 + 言語指示を取得し、制御コマンド (関節の位置、グリッパーなど) を出力します。 「赤いブロックを拾う」スタイル コントロールを有効にします。
主要モデル
- OpenVLA — 7B オープンソース VLA、970K デモ
- RT-2 / RT-X — Google の VLA ファミリー
- オクト — 言語条件付けによる普及政策
- ロボフラミンゴ — OpenFlamingo ベースのロボット用 VLM
関連リソース
- オープンソースの VLA および VLM モデル — リンク付きの完全なカタログ
- データセット — 言語ラベル付き操作データ