ロボット工学用語集

模倣学習、VLA モデル、遠隔操作、運動学、および身体化された AI をカバーする 60 以上の用語 - 研究者、エンジニア、企業チーム向けに書かれています。

65 条項 A ～ Z 整頓された更新されました 2026

A

ACT (トランスフォーマーによるアクションチャンク)

ACT は、Tony Zhao らによって導入された模倣学習アルゴリズムです。 (2023) これは、各タイムステップでの単一のアクションではなく、将来のアクションの固定長のチャンクを予測するトランスフォーマーベースのポリシーをトレーニングします。 ACT はアクションシーケンスをワンショットで予測することにより、ステップバイステップの動作クローニングに典型的な複合エラーを軽減し、時間的に一貫したモーションを生成します。このアーキテクチャは、CVAE スタイルのエンコーダーを通じて RGB 観察と固有受容状態をエンコードし、トランスフォーマーを使用してアクションチャンクをデコードします。 ACTは、 ALOHA 両手操作のプラットフォームで、袋を開けたり卵を移したりするなどの作業で優れたパフォーマンスを発揮します。以下も参照してください。アクションチャンキング (詳細).

ポリシートランス模倣学習

アクションスペース

アクションスペースは、ロボットポリシーが各タイムステップで生成できる出力の完全なセットです。ロボットアームの場合、通常、ジョイントの位置、ジョイントの速度、またはエンドエフェクターのポーズ (デカルト位置 + クォータニオン) が含まれます。移動ロボットの場合、車輪速度やステアリングコマンドが含まれます。アクション空間は、離散 (アクションの有限メニュー) または連続 (実数値ベクトル) として記述されます。アクション空間の次元と表現は、安定したポリシーのトレーニングのしやすさに強く影響します。多くの場合、エンドエフェクターのデルタポーズ空間は模倣学習にとって容易ですが、関節トルク空間はより精細な力の制御を可能にしますが、より慎重な正規化が必要です。

ポリシーコントロール

ALOHA (両手遠隔操作のための低コストのオープンソースハードウェアシステム)

ALOHA は、スタンフォード大学で開発されたオープンソースの両手遠隔操作システムで、リストカメラが統合された共有フレームに取り付けられた 2 つの ViperX 300 ロボットアームと 2 つの WidowX 250 リーダーアームで構成されています。これは、低コスト (オリジナルのビルドは 20,000 ドル未満) で高品質のデモンストレーションデータを収集するように設計されており、 ACT 政策実験。モバイル ALOHA は、車輪付きのベースでプラットフォームを拡張し、調理や掃除などの全身の運動器操作タスクを可能にします。 ALOHA データセットは公的に利用可能であり、両手操作研究の事実上のベンチマークとなっています。詳細については、こちらをご覧ください SVRC データサービス.

ハードウェア遠隔操作両面マニュアル

AMR (自律移動ロボット)

自律移動ロボットは、SLAM、経路計画、および障害物回避アルゴリズムと組み合わせた搭載センサー (LiDAR、カメラ、IMU) を使用して、固定軌道や人間の誘導なしで環境内を移動します。磁気ストリップに従う AGV (無人搬送車) とは異なり、AMR は地図をリアルタイムで構築および更新し、人や物体の周囲を動的に再ルートします。 Boston Dynamics、Locus Robotics、6 River Systems などの企業が提供する最新の倉庫 AMR は、物流分野での幅広い採用を推進しています。 AMR はマニピュレーターアームと組み合わせて作成されることがよくあります。 モバイルマニピュレーター 大規模なピックアンドプレイスが可能です。

モバイルロボティクスナビゲーションSLAM

B

行動のクローニング（紀元前）

行動クローニングは最も単純な形式です。模倣学習: 観察された各状態でのポリシーの出力と専門家のアクションの間の予測誤差を最小限に抑えることによって、専門家のデモンストレーションを模倣するようにポリシーがトレーニングされる教師付き回帰問題。 BC は実装が簡単で、データに応じて適切に拡張できますが、次のような問題があります。 分布シフト — 修正フィードバックを決して受け取らないため、小さなエラーによってロボットはトレーニングデータに存在しない状態に陥り、タスクの失敗に連鎖する可能性があります。 DAgger (データセット集約) や GAIL などの技術は、BC の複合エラー問題に対処するために特別に開発されました。

模倣学習教師あり学習

両手操作

両手操作とは、人間が両手を同時に使うのと同様に、2 つのロボットアームが協調して動作する必要があるタスクを指します。例としては、洗濯物をたたむ、結び目を作る、瓶を開ける、片手で安定させながらもう一方の手で細かい作業を行う必要がある部品の組み立てなどが挙げられます。両手タスクは片腕タスクよりもかなり困難です。これは、ポリシーが腕間の物理的制約を尊重しながら 2 つの高次元のアクションストリームを調整する必要があるためです。の ALOHA このプラットフォームは、バイマニュアルのデモンストレーションを収集することを目的として構築されました。 ACT は、両手操作制御の主要な政策の 1 つです。

操作ハードウェア

BOM (部品表)

ロボットハードウェアの場合、BOM には、システムの構築に必要なすべてのコンポーネント、サブアセンブリ、部品番号、数量、および単価がリストされます。正確な BOM は、生産のスケールアップ、調達、サプライチェーンのリスク管理、コストモデリングにとって重要です。 OpenArm や ALOHA などのオープンソースロボットプラットフォームの場合、公開された BOM により、外部チームは独自の依存関係なしでハードウェアを再現できます。ロボットの導入を評価する企業チームは、多くの場合、リースまたはサービスとしてのロボットの代替案と比較して総所有コストをベンチマークするための BOM を要求します。 SVRC リースオプション.

ハードウェア製造業

C

デカルト空間 (タスクスペース)

デカルト空間 (タスク空間または操作空間とも呼ばれます) は、ワールドまたはベースフレームに対するエンドエフェクターの位置と方向の観点からロボットの構成を記述し、通常は (x、y、z、ロール、ピッチ、ヨー) または (x、y、z、四元数) として表されます。デカルト空間でロボットを制御することは、人間のデモンストレーションがエンドエフェクターの軌道に自然にマッピングされるため、多くの場合、模倣学習にとってより直観的です。からの変革ジョイントスペースデカルト空間への変換はと呼ばれます順運動学; 逆は逆運動学.

運動学コントロール

共同トレーニング

ロボット工学における共同トレーニングとは、複数のロボットの実施形態、タスク、または環境からのデータに対して単一のポリシーを同時にトレーニングすることを指します。仮説は、多様なデータソースがポリシーに、新しい環境へのより適切な移行を可能にする堅牢な視覚的および行動的表現を教えるというものです。のオープン X の実施形態データセットは、22 種類を超えるロボットの共同トレーニングを可能にするために特別に組み立てられました。 RT-2 や OpenVLA などの大規模な基盤モデルは、一般化をブートストラップするために、ロボットデモンストレーションデータと並行してインターネットスケールのビジョン言語データを使用した共同トレーニングに依存しています。

トレーニング一般化基礎モデル

接触が多い操作

接触の多い操作タスクとは、穴にペグを挿入する、ボルトをねじ込む、生地を折りたたむ、生地をこねるなど、ロボットと環境との間の目的を持った継続的な接触がタスクの成功に不可欠であるタスクです。これらのタスクは、小さな位置誤差が大きな力のスパイクを生成し、固い位置コントローラーでは部品が損傷したりロボットが不安定になる可能性があるため、困難です。成功したアプローチは、準拠した制御 (インピーダンスまたはアドミタンス制御) を組み合わせたものです。力・トルク感知、接触を予測して悪用する政策を学びました。

操作コントロール力の感知

連続制御

連続制御とは、離散的な一連の動作から選択するのではなく、実数値の動作ベクトル (関節トルク、速度、デカルトデルタなど) を出力するロボットポリシーを指します。滑らかで正確な動きは有限のアクションメニューでは適切に表現できないため、ほとんどの物理的なロボット操作タスクでは継続的な制御が必要です。連続制御のための標準的なディープ RL アルゴリズムには、DDPG、TD3、および SAC が含まれます。模倣学習、行動クローニング、普及政策連続アクションスペースでよく使用されます。

コントロール強化学習

D

データ拡張 (ロボット用)

ロボット学習におけるデータ拡張では、トレーニング観察にランダムな変換を適用して、追加のデモンストレーションを収集することなくポリシーの堅牢性を向上させます。一般的な画像拡張には、ランダムトリミング、カラージッター、ガウスぼかし、カットアウトなどがあります。より洗練された拡張機能は、気を散らす背景をオーバーレイしたり、照明条件を変更したり、センサーノイズを挿入したりして、トレーニング環境の特定の視覚的特徴への過剰適合を防ぎます。アクションを強化するアプローチもあります。たとえば、関節の軌道にノイズを追加して、摂動から回復する方法をポリシーに教えるなどです。拡張は、トレーニングデータが高価な場合 (各デモンストレーションに人間のオペレーターの時間が必要な場合) に特に重要です。

トレーニング堅牢性データ

自由度 (自由度)

自由度は、機械システムの構成を指定するために必要な独立したパラメーターの数を表します。 6 つの回転ジョイントを備えたロボットアームには 6 自由度があり、(特異点を除いて) 到達可能なワークスペース内でエンドエフェクターを任意に配置および方向付けるのに十分です。 7-DOF アームには冗長ジョイントが 1 つ追加されており、障害物回避や快適なポーズのためのヌルスペースの最適化が可能です。人間の腕には肩、肘、手首のチェーンでおよそ 7 自由度があるため、擬人化操作には 7 自由度のロボットが自然な選択肢となります。モバイルベースは 2 ～ 3 DOF を追加します。完全なヒューマノイドは 30 DOF を超えます。

運動学ハードウェア

デモンストレーション

デモンストレーション (模倣学習のコンテキストでは軌跡またはエピソードとも呼ばれます) は、タスクの実行方法を示す、人間または専門家のコントローラーによって提供される、記録された一連の観察とアクションです。デモンストレーションは、行動クローニングやその他の模倣学習アルゴリズムの主要なデータソースです。それらは次の方法で収集できます。遠隔操作, 運動感覚の指導、またはモーションキャプチャ。データの品質 (スムーズな動き、一貫したタスクの実行、タスクの状態空間の適切なカバレッジ) は、下流のポリシーのパフォーマンスにとって量と同じくらい重要です。 SVRC は、当社を通じて製品品質のロボットのデモンストレーションを収集します。データサービス.

データ模倣学習

普及政策

Chiらによって導入された拡散政策。 (2023) は、ロボットアクションの生成を、画像生成で使用される生成モデルと同じクラスのノイズ除去拡散プロセスとして定式化します。推論時に、ポリシーは、学習されたスコアネットワーク (通常は CNN またはトランスフォーマー) を使用して、ガウスノイズのサンプルを現在の観測に条件付けされた一連のアクションに繰り返し精製します。決定論的な行動クローニングと比較すると、拡散ポリシーは当然のことながら、 マルチモーダル アクションの分散 (タスクを実行するための複数の有効な方法) を実現し、接触が多い操作のベンチマークで最先端の結果を達成します。を参照してください。詳細記事.

ポリシー生成モデル模倣学習

器用な操作

器用な操作とは、ロボットハンドの運動学的および感覚的機能を最大限に活用する、複数の指を使った細かい操作タスクを指します。つまり、手に持ち直す、指先で物体を転がす、カードを扱う、外科的縫合などのタスクです。器用さには高度な能力が必要ですDOF エンドエフェクター (5 本以上の指、それぞれに 3 以上の関節がある)、高密度の触覚センシング、および複雑な接触形状を推論できるポリシー。シミュレーションで訓練された強化学習 (OpenAI の Dactyl など) と最近の拡散ベースの政策は最前線を押し広げていますが、人間レベルの信頼性での巧みな操作は未解決の研究課題のままです。

操作ハードウェア研究フロンティア

E

身体化されたAI

身体化型 AI とは、純粋にテキストや画像を単独で操作するのではなく、現実世界にある物理的な身体を通じて認識して動作する人工知能システムを指します。具現化仮説では、真の知能には感覚運動のグラウンディング、つまり静的なデータセットでのパターンマッチングだけでなく、インタラクションを通じた学習が必要であると考えられます。実際には、身体化型 AI 研究にはロボット学習が含まれます。 VLAモデル、シミュレーションからリアルへの転送、および物理基盤モデル。 Google DeepMind (RT シリーズ)、Physical Intelligence (pi0)、NVIDIA (GR00T) などの企業が主な産業推進力です。 SVRC 独自のデータプラットフォームは、具体化された AI データワークフロー向けに構築されています。

基礎モデル物理AI

エンドエフェクター

エンドエフェクターは、環境と直接対話するロボットアームの遠位端にあるデバイスです。これには、平行ジョーグリッパー、吸盤、マルチフィンガーハンド、溶接トーチ、ペイントノズル、またはタスク固有のツールが含まれます。エンドエフェクタのポーズ (空間内での位置と方向) は、ほとんどの操作ポリシーの主な制御出力です。ツール中心点 (TCP) は、デカルト制御に使用されるエンドエフェクタ上の基準点です。適切なエンドエフェクターの選択は、展開上の重要な決定です。1 つのオブジェクトクラス (例: 硬いボックス) に最適化されたグリッパーは、柔らかいアイテムや不規則なアイテムでは失敗する可能性があります。ブラウズ SVRCハードウェアオプション.

ハードウェア操作

エピソード

エピソードとは、初期状態からタスクの成功、失敗、またはタイムアウトに至るまでの、タスクに対する 1 回の完全な試行です。強化学習では、エージェントは 1 つのエピソードの間環境と対話し、報酬を蓄積した後、環境がリセットされます。模倣学習では、記録された各デモンストレーションが 1 つのエピソードを構成します。エピソードはロボット学習データセットの基本単位です。1,000 エピソードのデータセットには、関連する観察、アクション、結果を伴う 1,000 件のタスク試行が含まれます。一貫したデータ収集を確保するには、エピソードの長さ、リセット条件、成功基準を正確に定義する必要があります。

データ強化学習模倣学習

外部機能（カメラ）

カメラの外部機能は、基準フレーム (通常はロボットのベースまたはエンドエフェクター) に対するカメラの位置と向き (6-DOF ポーズ) を定義します。内部パラメーター (焦点距離、主点、レンズの歪み) と併せて、外部パラメーターを使用すると、3D ワールドポイントを画像平面に投影したり、逆に 2D 検出を 3D 空間に持ち上げたりすることができます。一貫した座標系で視覚観察をロボットの動作にマッピングする必要がある視覚運動ポリシーでは、正確な外部キャリブレーションが重要です。アイ・イン・ハンド (手首装着型) カメラでは、エンドエフェクターまたはカメラを交換するときに再キャリブレーションが必要です。

感知較正

F

力トルクセンサー (FTセンサー)

力-トルクセンサーは、ロボットの手首またはエンドエフェクターにかかる 6 軸レンチ (3 つの力 Fx、Fy、Fz と 3 つのトルク Tx、Ty、Tz) を測定します。 FT センサーは、純粋な位置制御では接触を見逃したり、過剰な力を加えたりする接触が多い作業や組み立て作業に不可欠です。これらは、インピーダンスとアドミタンスの制御ループを有効にし、スリップと衝突を検出し、学習したポリシーに豊富な感覚入力を提供します。 ATI と Robotiq の高精度 FT センサーは研究機関の標準です。 MEMS ベースの低コストセンサーは、実稼働環境での導入にますます実用的になってきています。

ハードウェアセンシングコントロール

基礎モデル (ロボット工学)

基礎モデルは、広範囲で多様なデータに基づいて事前トレーニングされた大規模なニューラルネットワークであり、微調整やプロンプトを介して多くの下流タスクに適応できます。ロボット工学では、基礎モデルは通常、アクション出力を拡張した大規模なビジョン言語モデル (VLM) です。 VLA、またはクロス実施形態データセットで訓練された大規模な視覚運動ポリシー。例としては、RT-2 (Google DeepMind)、OpenVLA、Octo、pi0 (Physical Intelligence) などがあります。ロボット工学の基礎モデルは、インターネット規模の事前トレーニングを活用し、言語条件付けをサポートし、タスクごとに最初から再トレーニングすることなくタスク全体に汎用化できるため、魅力的です。見る SVRCモデルカタログ.

VLA事前トレーニング一般化

順運動学 (FK)

順運動学は、ロボットの関節角度 (または直動関節の変位) を考慮して、デカルト空間でのエンドエフェクターの姿勢を計算します。シリアルチェーンロボットの場合、FK は、通常、Denavit-Hartenberg (DH) パラメータまたは URDF 記述から導出される一連の同次変換行列 (ジョイントごとに 1 つ) を乗算することによって計算されます。逆問題 (IK)、解がゼロ、1 つ、または多数の場合があります。 FK は、シミュレーション、衝突チェック、可視化、およびリアルタイムのロボット状態監視に使用されます。

運動学コントロール

G

一般化 (ロボットポリシー)

一般化では、ロボットポリシーがトレーニング中に確認されていないオブジェクト、シーン、またはタスクに対してどの程度うまく機能するかを測定します。これはロボット学習の中心的な課題です。トレーニングのデモンストレーションを記憶しても、新しいインスタンスでは失敗するポリシーには実用的な価値がありません。研究者は、オブジェクトの一般化 (既知のカテゴリの新しいインスタンス)、カテゴリの一般化 (まったく新しいオブジェクトクラス)、およびタスクの一般化 (新しい指示の表現や目標構成) を区別します。一般化を改善するには、通常、より大規模で多様なトレーニングデータ、インターネットデータとの共同トレーニング、シミュレーションでのドメインのランダム化、および基礎モデル先例。

ポリシー研究フロンティア

掴むポーズ

把握ポーズは、グリッパーが物体を閉じてしっかりと保持できるように、物体に対するロボットハンドまたはグリッパーの 6 自由度の位置と方向を指定します。把握ポーズの推定は、通常、解析手法 (対蹠的把握サンプリングなど) または GraspNet-1Billion、GQ-CNN、AnyGrasp などの学習検出器を使用して、深度データまたは点群データから行われます。有効な把握ポーズは、ロボットが到達可能であり、アプローチ中に衝突がなく、予想されるタスク負荷の下で安定していなければなりません。把握品質の指標には、力による閉鎖、接触の安定性、タスク固有のレンチ抵抗が含まれます。

操作感知

グリッパー

グリッパーは最も一般的なクラスのロボットですエンドエフェクター、物体を掴んで保持するように設計されています。平行ジョーグリッパーは、モーターまたは空気圧によって駆動される 2 つの対向するフィンガーを備えた、最も単純で最も広く使用されています。吸引グリッパーは真空を利用して滑らかで平らな表面をつまみます。ソフトグリッパーは、不規則な物体の周りに適合するよう、適合性のある素材 (シリコン、布地) を使用しています。多指ハンド (3 ～ 5 本の指) が可能器用な操作しかし、制御が難しく、より高価になります。グリッパーの選択は、オブジェクトの形状、表面特性、必要な積載量、および手の中での再配向が必要かどうかに大きく依存します。

ハードウェアエンドエフェクター

H

HDF5 (階層データ形式 v5)

HDF5 は、大規模で構造化された科学データセットを効率的に保存およびアクセスするためのバイナリファイル形式およびライブラリです。ロボット工学では、HDF5 はロボットデモンストレーションデータセットの標準コンテナです。単一のファイルに、同期されたカメラ画像、関節角度、グリッパーの状態、力の測定値、メタデータが階層グループに保存され、チャンク I/O によりトレーニング中の高速ランダムアクセスが可能になります。 LeRobot と ALOHA エコシステムは両方とも HDF5 をネイティブに使用します。代替案ザールこの形式は、同時書き込みのサポートが向上したクラウドネイティブのチャンクストレージを提供します。 SVRCのデータ収集パイプラインデフォルトでは HDF5 を出力します。

データストレージエンジニアリング

人型ロボット

ヒューマノイドロボットは、人間とほぼ同様の身体構造 (通常は胴体、2 本の脚、2 本の腕、1 つの頭) を持ち、人間用に設計された環境で動作し、人間のツールを使用できるようにします。注目すべきヒューマノイドには、Boston Dynamics Atlas、Agility Robotics Digit、Figure 01、Tesla Optimus などがあります。ヒューマノイドには極端なエンジニアリング上の課題があります。二足歩行にはリアルタイムのバランス制御が必要であり、移動操作タスクの要求に合わせて 30 以上の自由度を調整する必要があります。全身コントロール。この複雑さにもかかわらず、ヒューマノイドはそのフォームファクタがインフラストラクチャを変更することなく多様な職場に汎用されるため、巨額の投資を集めています。

ハードウェア移動両面マニュアル

人間とロボットのインタラクション (HRI)

人間とロボットのインタラクションは、人間とロボットがどのようにコミュニケーションし、協力し、効果的かつ安全に物理空間を共有するかを研究する学際的な分野です。 HRI の研究は、安全基準 (協働ロボットの ISO/TS 15066)、遠隔操作のためのユーザーインターフェイス設計、自然言語による指示、読みやすいロボットの動作 (ロボットの意図を傍観者に読み取れるようにする)、およびソーシャルロボット工学 (非言語コミュニケーションに視線、ジェスチャー、および音声を使用する) に及びます。産業用協働ロボットの導入において、HRI は作業員がロボットを受け入れ、一緒に効果的にロボットを使用するかどうかを直接判断します。優れた HRI 設計は、事故を減らし、スループットを向上させ、人間側のトレーニングの負担を軽減します。

安全性コラボレーション

I

模倣学習 (イリノイ州)

模倣学習は、人工的な報酬関数ではなく人間のデモンストレーションからロボットポリシーを訓練する機械学習手法の一種です。最も単純な形式は行動のクローニング (状態と行動のペアに関する教師あり回帰)。より高度なバリアントである DAgger (反復補正)、GAIL (敵対的模倣)、IRL (報酬関数の回復) は、純粋な BC を悩ませる分布シフトと報酬仕様の問題に対処します。 IL は、複雑な操作に対する報酬工学が非常に難しいのに対し、人間によるデモンストレーションを大規模に収集するのは容易であるため、器用な操作を教えるための主要なパラダイムとなっています。遠隔操作。を参照してください。完全な詳細記事.

コアコンセプトポリシーデータ

逆運動学（私）

逆運動学は、ロボットのエンドエフェクターを望ましいデカルト姿勢に配置する関節角度を解決します。とは異なり順運動学, IK には、ロボットの運動学的構造とターゲットの姿勢に応じて、0、1、または無限に多くの解が存在する場合があります。解析 IK ソルバーは、標準の 6-DOF 構成用に存在します。数値手法 (ヤコビアン擬似逆行列、ニュートンラフソン、最適化ベース) は、任意のジオメトリと冗長ロボットを処理します。 IK は、モーションプランニング、遠隔操作マッピング (オペレーターの手のポーズを関節コマンドに変換)、および任意のデカルト空間コントローラーで使用されます。 KDL、IKFast、track-ik などのライブラリは、ROS 環境でよく使用されます。

運動学コントロール企画

アイザック・シム

NVIDIA Isaac Sim は、Omniverse USD フレームワーク上に構築されたロボティクスシミュレーションプラットフォームで、高忠実度の物理 (PhysX 5 経由)、写真のようにリアルなレンダリング (RTX パストレーシング経由)、すぐに使える ROS 2 統合を提供します。これは、合成トレーニングデータの生成、ロボットポリシーのテスト、およびシミュレーションから現実への移行研究を目的として構築されています。 Isaac Sim は、大規模なテクスチャ、ライティング、オブジェクトポーズのドメインランダム化をサポートし、NVIDIA の Isaac Lab 強化学習フレームワークと統合します。 GPU で高速化された物理により、数千の並列シミュレーションインスタンスを使用して RL ポリシーをトレーニングできます。詳細については、 SVRC Isaac Sim リソースページ.

シミュレーション合成データ道具

J

ジョイントスペース (設定スペース)

関節空間 (構成空間または C 空間とも呼ばれる) は、ロボットのすべての可能な関節角度ベクトルの空間です。関節空間内の点は、ロボットの完全な構成を一意に指定します。 RRT や PRM などのモーションプランニングアルゴリズムは、ジョイントスペースで動作して構成間の衝突のないパスを見つけます。これは、ジョイントスペースでは衝突チェックがデカルト空間よりも簡単であるためです。多くの RL ポリシーは関節の位置または速度を関節空間で直接出力しますが、模倣学習ポリシーは多くの場合、デカルト空間人間とデモンストレーターの調整を容易にするため。を参照してください。ジョイントスペースの記事.

運動学企画

関節トルク

ジョイントトルクは、モーターによってロボットのジョイントに加えられる回転力で、ニュートンメートル (Nm) 単位で測定されます。 (位置制御ロボットとは対照的に) トルク制御ロボットは接触力を直接調整できるため、押されたときに降伏するなどの準拠した動作が可能になり、組み立て力を正確に制御できます。各関節のトルク感知は、Franka Panda、Universal Robots UR シリーズ、Kuka iiwa などの協働ロボット (コボット) の重要な機能であり、人間とロボットの安全なコラボレーションと全身準拠の制御を可能にします。位置ではなく関節トルクを出力する学習ポリシーでは、不安定な振動を避けるために慎重なトレーニングが必要です。

コントロールハードウェア力

K

運動連鎖

キネマティックチェーンは、ロボットの機械構造を形成するジョイントによって接続された一連の剛体リンクです。オープンチェーン (シリアルロボットアーム) には 1 つの自由端 (エンドエフェクター) があるため、FK が簡単になります。閉じたチェーン (パラレルロボット、ヘキサポッド) には複数のループがあり、より高い剛性と速度を提供しますが、より複雑な運動学が必要です。運動連鎖は、ロボットのワークスペース、特異点、およびデカルト制御に使用されるヤコビアン行列を決定します。 URDF ファイルは、シミュレーションおよび制御ソフトウェア用のリンクとジョイントのツリーとして運動チェーンを記述します。

運動学力学

運動感覚の指導

運動感覚教育 (リード・バイ・ノーズまたは直接誘導とも呼ばれる) は、ロボットが軌道を記録しながら、人間がロボット・アームを物理的につかみ、目的の動作パスに沿って動かします。オペレーターが最小限の労力でロボットを移動できるように、ロボットがバックドライブ可能であること (関節の摩擦とコンプライアンスが低いこと) が必要です。運動感覚の指導は直観的で外部ハードウェアを必要としませんが、オペレーターが物理的に実演できるタスクに限定されており、カメラが同時録画されない限り固有受容データのみが生成されます (手首カメラによる観察はありません)。 Franka Panda のようなトルク制御ロボットの重力補償モードにより、運動感覚の教育が実践的になります。

データ収集模倣学習

L

言語条件付きポリシー

言語条件付きポリシーは、視覚的観察に加えて追加の入力として自然言語命令 (例: 「赤いカップを持ち上げてトレイに置きます」) を受け取り、単一のポリシーネットワークが実行時に選択された複数のタスクを再トレーニングすることなく実行できるようにします。言語条件付けは通常、事前トレーニングされた言語モデル (CLIP、T5、PaLM) を使用して命令をエンコードし、結果の埋め込みを画像特徴と融合することによって実装されます。 VLAモデル RT-2、OpenVLA、pi0 などは、設計により言語条件が設定されています。このアプローチにより、タスクごとに個別のポリシーをトレーニングする必要性が減り、新しい命令フレージングへのゼロショット一般化がサポートされます。

VLA基礎モデル一般化

潜在空間

潜在空間は、ニューラルネットワークによって学習されたデータの圧縮された低次元表現です。これは、観測の最もタスクに関連する特徴を捕捉するエンコーダーの出力です。ロボット学習では、潜在空間は、ビジュアルシーンの構造化表現を学習するための VAE (変分オートエンコーダー)、将来の状態を予測するためのワールドモデル、およびマルチモーダルアクション分布をエンコードするための CVAE ベースのポリシー (ACT など) で使用されます。適切に構造化された潜在空間では、意味的に類似した観測値が近くに配置され、生のピクセル空間ではなく潜在領域での補間、計画、およびデータ拡張が可能になります。

表現学習ポリシー

ルロボット

LeRobot は、ロボット学習用の Hugging Face のオープンソースライブラリであり、模倣学習アルゴリズムの標準化された実装を提供します (ACT, 普及政策、TDMPC）、統一されたデータセット形式、視覚化ツール、および事前トレーニングされたモデルの重み。 Transformers が NLP に対して行ったのと同様の、単一の一貫したフレームワークを提供することで、ロボット学習研究への参入障壁を下げることを目的としています。 LeRobot は、データセットとモデル共有のために Hugging Face Hub と統合し、シミュレートされたロボット環境 (体育館ロボット工学、MuJoCo) と物理的なロボット環境の両方をサポートします。同時に、コンパニオンの低価格ロボットキット「SO-100」も発売されました。

道具オープンソース模倣学習

LeRobot HF データセット

LeRobot データセット形式は、Hugging Face Hub でホストされるロボットデモンストレーションデータの標準化されたスキーマです。各データセットは、Parquet ファイル (スカラー時系列の場合: ジョイントの位置、アクション、報酬、完了フラグ) とカメラストリームの圧縮 MP4 ビデオチャンクで構成され、すべてエピソードとフレームによってインデックスが付けられます。あ meta/info.json ファイルには、カメラ名、ロボットのタイプ、fps、および正規化に使用されるデータ統計が記述されています。この形式を使用すると、LeRobot 互換アルゴリズムで公開されたデータセットを 1 行のコードで読み込むことができるため、データセット間の迅速な実験が可能になります。すでに数十の操作およびモバイル操作データセットがこの形式で公開されています。

データ標準オープンソース

M

操作

操作とは、物を選ぶ、配置する、組み立てる、折りたたむ、挿入する、注ぐなどの、目的を持った物理的な操作を指します。ロボット操作は、身体化 AI の中で最も活発な研究分野の 1 つです。なぜなら、単純な日常作業 (食器洗い機に荷物を入れる、荷物を開ける) でさえ、豊かな知覚、正確なモーター制御、および堅牢な把握計画が必要だからです。操作の難易度は、固定セットアップでの既知のオブジェクトの単純なピックアンドプレースから、接触が多い組み立てを経て、構造化されていないシーンでの新しいオブジェクトの完全に器用な手の向きの変更まで、スケールが異なります。 SVRCのデータサービストレーニングと評価のための操作デモンストレーションの収集を専門としています。

コアコンセプトタスク

移動してください

MoveIt は、ロボットアーム用に最も広く使用されているオープンソースの動作計画フレームワークで、当初は Willow Garage で開発され、現在は PickNik Robotics によって保守されています。 MoveIt 2 は ROS 2 上で実行され、プランナー (OMPL、CHOMP、PILZ)、デカルト軌道計画、MoveIt の計画シーンに対する衝突チェック、運動学プラグイン (KDL、IKFast、TracIK)、および把握計画の統合を提供します。これは、ロボット学習ポリシー (目的のエンドエフェクターポーズまたはウェイポイントを出力する) と、物理ロボット上で滑らかで衝突のない軌道を実行する低レベルのジョイントコントローラーとの間の標準ミドルウェア層です。

道具企画ROS

マルチタスク学習

マルチタスク学習は、複数の異なるタスクからのデモンストレーションに関する単一のポリシーを同時にトレーニングします。タスク間で学習された共有表現によって、個々のタスクのパフォーマンスが向上し、新しいタスクへの一般化が可能になることが期待されます。ロボット工学では、これは多くの場合、さまざまなオブジェクト、目標、環境を伴う何百ものタスクに関するトレーニングを意味します。主な課題は、さまざまなタスクの勾配寄与 (勾配干渉) のバランスをとり、通常は言語条件付けまたはワンホットタスク識別子を介して、ポリシーが推論時にタスクを区別できるようにすることです。マルチタスクポリシーは、汎用ロボットアシスタントの前提条件です。

ポリシー一般化トレーニング

N

神経政策

ニューラルポリシーは、観察 (画像、固有受容、言語) をアクション (関節位置、デカルトデルタ、グリッパーコマンド) に直接マッピングするニューラルネットワークによってパラメータ化されたロボット制御ポリシーです。従来のモーションプランニングパイプラインとは対照的に、ニューラルポリシーは、手動で設計された中間表現を使用せずに、データからマッピングをエンドツーエンドで学習します。最新のニューラルポリシーは、ビジョンには畳み込みエンコーダーを、シーケンスモデリングにはトランスフォーマーを、アクション生成には ACT、Diffusion Policy、または VLA バックボーンなどのアーキテクチャを使用します。ニューラルポリシーの重要な特性は、デモンストレーションや報酬信号からトレーニングできることで、手動でコーディングしたコントローラーには複雑すぎるタスクを処理できるようになります。

ポリシーディープラーニング

掴みにくい操作

非把握的操作とは、物体を掴まずに操作することを指します。代わりに、重力や表面摩擦を利用した、押す、転がす、旋回、反転、傾斜、またはその他の接触戦略を使用します。たとえば、箱をテーブルの上で押して配置したり、箱をつかむ前にペグを直立させたりします。把握不可能な戦略では、オブジェクトを把握可能な構成に移動したり、大きすぎて把握できないアイテムの位置を変更したり、把握アプローチが実行不可能な乱雑なシーンで機能したりすることができます。把握不可能なアクションを計画するには、準静的または動的物体力学と接触物理学のモデリングが必要であり、操作と動作計画が交わる点で活発な研究トピックとなっています。

操作企画

O

観察スペース

観察空間は、各タイムステップでロボットポリシーに利用可能なすべてのセンサー入力を定義します。一般的なモダリティには、手首またはオーバーヘッドカメラからの RGB 画像、構造化光センサーまたはステレオセンサーからの深度マップ、固有受容状態 (関節の位置、速度、トルク)、グリッパーの状態、エンドエフェクターのポーズ、触覚の読み取り、および言語の埋め込みや目標画像などのタスク仕様の入力が含まれます。観測空間の設計は、ポリシーのパフォーマンスと一般化に大きな影響を与えます。観測が豊富になるとより多くの情報が含まれますが、モデルの複雑さ、トレーニング時間、無関係な視覚的特徴への過剰適合のリスクが増加します。

感知ポリシー

オープンループ制御

開ループ制御は、実行中にセンサーからのフィードバックを使用せずに、事前に計画された軌道を実行します。ロボットは、実際に何が起こったかに関係なく、指示された位置または速度に従うだけです。これは、CNC 加工や固定コンベアでのピックアンドプレイスなど、制御された環境での再現性の高いタスクに適しています。開ループ制御は高速かつシンプルですが、外乱が発生すると修正措置が取られないため機能しません。対照的に、閉ループ (フィードバック) 制御は実際の状態を望ましい状態と継続的に比較し、修正コマンドを適用するため、変化する環境でのロボットの学習に対してはるかに堅牢になります。

コントロール

オープン X の実施形態

Open X-Embodiment (OXE) は、Google DeepMind と 33 の研究機関によって組み立てられた大規模なロボットデモンストレーションデータセットで、22 の異なるロボットの実施形態と 527 以上のスキルからなる 100 万以上のロボットエピソードで構成されています。を可能にするために作成されました。共同トレーニング仮説は、多様なロボットの経験が、単一のロボットのデータセットだけよりも豊かな操作表現を教えるというものです。 OXE でトレーニングされたモデルである RT-X は、単一の実施形態のベースラインと比較して、実施形態間でのポジティブな移行と、保留されたタスクのパフォーマンスの向上を実証しました。 OXE データは公的に利用可能であり、体を越えたロボット工学研究の波を引き起こしました。

データセット基礎モデル複数の実施形態

P

ペイロード

ペイロードとは、定格位置精度と動的性能を維持しながらロボットアームが運ぶことのできる最大質量 (エンドエフェクターやツールの重量を含む) です。通常、可搬質量の仕様は、共同研究ロボットの 1 kg 未満 (WidowX 250: 250 g) から、大型産業用アームの 500 kg 以上までの範囲に及びます。重要なことに、定格ペイロードは通常、アームを完全に伸ばした状態でフルリーチで見積もられています。より近い距離とより好ましい姿勢では、ロボットは多くの場合、はるかに多くの処理を行うことができます。可搬質量の制限を超えると、精度が低下し、摩耗が促進され、安全上の欠陥や物理的損傷が引き起こされる可能性があります。 SVRCのハードウェアカタログ各ロボットのペイロードをリストします。

ハードウェア仕様

ポリシー（ロボット）

ロボット学習では、ポリシー (π と表記) は観察をアクションにマッピングする関数です: π(o) → a。ポリシーは、認識した内容を考慮して各タイムステップで何を行うかを決定するロボットの学習された「脳」です。ポリシーは、ニューラルネットワーク (ニューラルポリシー)、デシジョンツリー、ガウスプロセス、またはルックアップテーブルとして表すことができます。それらは、決定的 (観測ごとに 1 つのアクション) または確率的 (アクション全体の分布) の場合があります。ポリシーの品質は、トレーニングのデモンストレーションだけでなく、さまざまな条件におけるタスクの成功率によって測定されます。ロボット学習の中心的な課題は、トレーニングの分布を超えて確実に一般化するトレーニングポリシーです。

コアコンセプトディープラーニング

ポリシーの展開

ポリシーのロールアウトは、初期状態からタスクの完了またはタイムアウトまで、ロボット上で (またはシミュレーションで) トレーニングされたポリシーを実行する 1 つのエピソードです。ロールアウトは、ポリシーのパフォーマンスの評価、さらなるトレーニング (DAgger または RL の微調整など) のための新しいデータの収集、および障害モードのデバッグに使用されます。信頼性の高いパフォーマンス推定に必要なロールアウトの数は、タスクの変動性に依存します。変動の大きいタスクでは、安定した成功率の推定を得るために 50 回以上のロールアウトが必要になる場合があります。研究では、一般化を特徴付けるために、ロールアウトは初期条件 (ディストリビューション内とディストリビューション外のオブジェクト/シーン) によって分類されることがよくあります。

評価ポリシー

事前トレーニング

事前トレーニングは、タスク固有の微調整の前に、大規模で多様なデータセットでニューラルネットワークをトレーニングするモデル開発のフェーズです。ロボット工学基盤モデルの場合、事前トレーニングは、インターネットスケールのビジョン言語データ (画像、ビデオ、テキスト)、クロス実施形態のロボットデータセット (Open X 実施形態)、合成シミュレーションデータ、またはそれらの組み合わせで行われる場合があります。事前トレーニングされたモデルは、オブジェクト、アクション、概念の豊富な一般表現を学習し、ゼロからトレーニングするよりもはるかに少ないデモンストレーションで下流のロボットタスクに転送します。事前トレーニングは、RT-2 などの VLA モデルの成功の背後にあるメカニズムであり、ロボットとインターネットスケールの両方の事前トレーニングの恩恵を受けます。

基礎モデルトレーニング転移学習

Q

Q関数 (行動価値関数)

Q 関数 Q(s, a) は、状態 s でアクション a を実行し、その後指定されたポリシーに従うことによってエージェントが受け取ると予想される累積割引報酬を推定します。 Q 関数は、DQN (離散アクション) や SAC、TD3、DDPG (連続アクション) などの強化学習アルゴリズムの中心です。ロボット RL では、報酬がまばらで状態アクション空間が高次元であるため、長期の操作タスクで正確な Q 関数を学習するのは困難です。オフライン RL (IQL、CQL) における最近の研究では、Q 関数を使用してオンライン対話なしで固定データセットからポリシーを抽出し、模倣学習と RL の間のギャップを埋めています。

強化学習値関数

準静的操作

準静的操作では、動きが十分に遅いため、慣性力や動的力が無視できる、つまりシステムが各瞬間で事実上静的平衡状態にあることを前提としています。この簡素化により、押す、スライドする、旋回する、手に持つ再掴みのアクションを計画するための扱いやすい接触力学のモデリングが可能になります。多くのロボット操作ベンチマーク (ほとんどの卓上ピックアンドプレースタスクを含む) は準静的領域で動作します。タスクに速いスロー、ダイナミックなキャッチ、または高速アセンブリが含まれる場合、準静的な仮定は崩れ、接触シミュレーション (MuJoCo、Isaac Sim など) を備えた完全な剛体ダイナミクスが必要になります。

操作力学

R

リアルからシムへの転送

リアルからシムへの転送（シミュレーションからリアルへ) には、現実世界にできるだけ一致するようにシミュレーションを構築または調整することが含まれます。つまり、本質的に現実の状況のデジタルツインを構築します。これは、シミュレーションで実際の障害ケースを再現し、実際のセンサー特性に一致する追加の合成トレーニングデータを生成し、展開前にポリシーの更新を安全にテストするために使用されます。技術には、写真測量シーンの再構築、物理パラメータの同定 (システム同定)、およびカメラの外観を一致させるためのニューラルレンダリング手法 (NeRF、3D ガウススプラッティング) が含まれます。正確なリアルからシムへのパイプラインにより、ポリシーの反復に必要な物理実験の数が大幅に削減されます。

シミュレーションデジタルツインデータ

到着

リーチとは、ロボットアームのベースから、ワークスペース内でエンドエフェクターがアクセスできる任意の点までの最大距離です。シリアルアームの場合、最大リーチはすべてのリンク長の合計に等しくなります。展開における有効範囲は、関節の制限、自己衝突の回避、および複数の方向からオブジェクトに接近する必要性を考慮して、より小さくなります。 Reach によって、どのワークステーションレイアウトとオブジェクトの配置が実現可能かが決まります。タスク用のロボットを選択する場合、エンジニアは必要な作業スペース (把握のためのすべてのアプローチ方向を含む) が許容可能な精度でロボットの到達可能な範囲内に収まっていることを確認する必要があります。

ハードウェア仕様運動学

リプレイバッファ

リプレイバッファ (またはエクスペリエンスリプレイメモリ) は、環境インタラクション中に RL エージェントによって収集された過去 (状態、アクション、報酬、次の状態、完了) 遷移のデータセットです。各トレーニングステップで、値関数またはポリシーをトレーニングするためにバッファーからランダムなミニバッチがサンプリングされ、勾配更新を不安定にする一時的な相関関係が解消されます。オフライン RL およびロボット学習では、リプレイバッファーは人間のデモンストレーションまたは以前に収集されたロールアウトの固定データセットに置き換えられます。優先順位付けされたエクスペリエンスリプレイは、時間差エラーによるサンプリングに重みを付け、トレーニングを有益な遷移に集中させます。

強化学習データ

報酬機能

報酬関数は、強化学習エージェントの学習目標を定義します。報酬関数は、各 (状態、アクション、次の状態) 遷移にスカラー報酬信号 r(s, a, s') を割り当て、エージェントにアクションの良し悪しを伝えます。報酬関数の設計は、RL をロボット工学に適用する際に最も難しい部分の 1 つです。まばらな報酬 (成功すると 1、それ以外の場合は 0) はきれいですが、学習が遅くなります。密な報酬（ゴールまでのマイナスの距離など）は学習を導きますが、予期しない方法でゲーム化される可能性があります（報酬ハッキング）。代替案には、デモンストレーションからの報酬学習 (IRL、RLHF)、タスク固有のシミュレーションメトリクス、および学習された嗜好モデルが含まれます。模倣学習は、デモンストレーションから直接学習することで、報酬設計の問題を完全に回避します。

強化学習コアコンセプト

S

Sim-to-Real 転送

シミュレーションからリアルへの転送は、ロボットポリシーを完全にまたは主にシミュレーションでトレーニングし、それを物理ロボットに展開するプロセスであり、追加の実世界データなしで (または最小限で) ポリシーが機能することを目標としています。中心的な課題は、 現実のギャップ — シミュレーションと現実世界の間の物理的忠実度、外観、センサーノイズ、およびモデル化されていないダイナミクスの違い。主な緩和手法には、ドメインのランダム化 (トレーニング中のシミュレーションパラメーターのランダム化)、システムの識別 (実際のハードウェアに一致するシミュレーションのキャリブレーション)、および少量の実データに対する適応微調整が含まれます。を参照してください。詳細記事.

転移学習シミュレーション導入

状態空間

状態空間は、ロボットとその環境が取り得る構成の完全なセットです。RL では、マルコフ状態は、将来の報酬と状態遷移を予測するために必要なすべての情報、理想的には世界の完全な記述をエンコードします。実際には、エージェントは、状態 (例: 遮られた物体、未知の物理パラメータ) を完全には捕捉できない可能性のある部分的な観察 (画像、関節角度) にのみアクセスできます。計算的に扱いやすいままでマルコフ状態をうまく近似する観察空間を設計することは、ロボット学習システムの設計における重要な課題です。

強化学習コントロール

外科用ロボット工学

外科用ロボット工学は、低侵襲腹腔鏡手術用の Intuitive Surgical の da Vinci プラットフォームを介してロボットシステムを医療処置に適用しています。手術用ロボットは、モーションスケーリング (オペレータの大きな動きをサブミリメートルの器具の動きに変換する)、振戦フィルタリング、および患者内部の視覚化の強化を提供します。最新の研究では、自律的な外科サブタスク (縫合、組織切除)、AI 支援ガイダンス、および低遅延 5G リンクを介した遠隔手術を調査しています。規制当局の承認 (米国の場合は FDA 510(k) または PMA) により、検証の負担が大幅に増加します。外科用ロボットは、遠隔操作, HRI、そして接触を伴う操作が多い.

医学遠隔操作応用

T

タスクパラメータ化学習

タスクパラメータ化学習は、固定ワールドフレームではなく、複数の座標フレームまたはタスクパラメータ（オブジェクトの姿勢、ターゲット位置、障害物フレームなど）に関連してデモンストレーションをエンコードします。実行時に、ポリシーはタスク関連の参照に関連したモーションを学習しているため、再トレーニングすることなく新しいオブジェクトとターゲットの構成に自動的に適応します。タスクパラメータ化ガウス混合モデル (TP-GMM) とカーネル化された動きプリミティブは、古典的な実装です。このアプローチは、構造化されたピックアンドプレイスタスクに強力な幾何学的一般化を提供しますが、実行時にタスクフレームを識別して追跡する必要があります。

模倣学習一般化ポリシー

遠隔操作

遠隔操作は、人間のオペレーターによるロボットの遠隔制御であり、直接的なタスクの実行 (手術ロボット、宇宙ロボット、爆弾処理) と、高品質の模倣学習デモンストレーションを収集するための主な方法の両方として使用されます。ロボット学習では、一般的なセットアップでリーダー/フォロワーアーキテクチャが使用されます。オペレーターが軽量のリーダーアームを動かし、ロボット (フォロワー) がリーダーをリアルタイムで追跡します。 VR ベースの遠隔操作システム (ハンドトラッキングまたはコントローラーを使用) は、人間工学に基づいており、より高いデータスループットを可能にするため、ますます人気が高まっています。 SVRC はプロフェッショナルな遠隔操作を提供しますデータ収集サービス企業のロボット学習チーム向け。

データ収集模倣学習ハードウェア

軌跡

軌道は、ロボットが開始構成から目標までどのように移動するかを記述する、時間パラメータ化されたロボットの状態 (関節角度またはデカルトポーズ) のシーケンスです。軌道は、モーションプランナー (衝突のないパスを計画し、それをスムーズに実行するために時間パラメータ化する)、遠隔操作記録 (固定周波数でオペレーターの動きをキャプチャする) によって生成したり、ニューラルポリシーによって直接予測したりすることができます。軌道の滑らかさと速度の連続性は、ロボットの物理的な安全性にとって重要です。突然の不連続性は機械的ストレスを引き起こし、安全停止を引き起こす可能性があります。軌道表現には、スプライン、動的移動プリミティブ (DMP)、および離散ウェイポイントシーケンスが含まれます。

企画コントロールデータ

転移学習

ロボット工学における転移学習には、1 つのドメイン (インターネット視覚言語データ、シミュレーション、または別のロボットなど) で事前トレーニングされたモデルを取得し、それを限られた追加データでターゲットのタスクまたはロボットに適応させることが含まれます。ロボットのデモンストレーションデータに基づいて事前トレーニングされたバックボーンの最終層を微調整するのが最も一般的なアプローチです。十分なロボットデータが利用可能な場合は、すべての重みの完全な微調整が使用されます。転移学習は、基礎モデルロボット工学にとっては実用的です。ロボットデータだけを使ってゼロからトレーニングする代替方法には、何百万ものデモンストレーションが必要です。こちらも参照事前トレーニング, SIMからリアルへの転送.

基礎モデルトレーニング

U

URDF (統一ロボット記述形式)

URDF は、ロボットの運動学的および動的プロパティ、つまりリンク (質量、慣性、および視覚/衝突メッシュを備えた剛体) とジョイント (リンク間の接続、タイプ、軸、制限、および減衰パラメーター) を記述する XML ベースのファイル形式です。 URDF は ROS の標準ロボット記述形式であり、すべての主要なシミュレーションプラットフォーム (Isaac Sim、MuJoCo、Gazebo、PyBullet) でサポートされています。これにより、ロボットの運動学を MoveIt などのモーションプランナーにロードし、RViz でロボットを視覚化し、物理シミュレーションモデルをインスタンス化することができます。 XACRO (XML マクロ言語) は、複雑なロボットの URDF ファイルをパラメータ化およびモジュール化するために一般的に使用されます。 OpenArm とほとんどの SVRC ハードウェアには、公開されている URDF モデルがあります。

道具標準シミュレーション

V

VLA (視覚・言語・行動モデル)

視覚-言語-動作モデルは、視覚観察 (RGB 画像)、自然言語命令、およびロボットの固有受容を共同処理して動作出力を生成するニューラルネットワークです。 VLA は、アクションヘッドを追加することで大規模なビジョン言語モデル (PaLM-E、LLaVA、Gemini などの VLM) を拡張します。つまり、言語予測とともにロボットの関節位置やエンドエフェクターデルタを出力するようにモデルをトレーニングします。注目すべき VLA には、RT-2 (アクションをテキストトークンとしてトークン化し、VLM を微調整する)、OpenVLA (オープンソース、7B パラメーター、Open X-Embodiment でトレーニング済み)、pi0 (Physical Intelligence のフローマッチング VLA) などがあります。を参照してください。 VLA と VLM の記事そして SVRCモデルカタログ.

基礎モデル言語コアコンセプト

バイパーX

ViperX は、Trossen Robotics が製造する 6 自由度ロボットアームのシリーズで、低コスト、ROS サポート、DYNAMIXEL サーボエコシステムとの互換性により、学術ロボット学習研究で広く使用されています。 ViperX 300 (リーチ 300 mm) および ViperX 300-S は、模倣学習セットアップで使用される最も一般的な研究アームの 1 つであり、オリジナルでは後続アームです。 ALOHA システム。 ViperX アームは、産業用ロボットに比べて可搬重量 (約 750 g) と精度が控えめですが、操作研究のためのアクセス可能なエントリーポイントを提供します。 SVRC を参照する金物店可用性のために。

ハードウェア研究ロボット

ビジュアルサーボリング

ビジュアルサーボイングは、閉ループコントローラーでカメラフィードバックを使用して、画像空間 (画像ベースのビジュアルサーボイング、IBVS) または画像から推定された 3D 空間 (位置ベースのビジュアルサーボイング、PBVS) で定義された目標に向かってロボットをガイドします。 IBVS では、コントローラーは、3D ポーズを明示的に計算することなく、検出された画像特徴 (キーポイント、オブジェクト境界ボックス) と画像平面内のそれらの望ましい位置との間の誤差を最小限に抑えます。ビジュアルサーボは、キャリブレーションエラーやカメラロボットの位置ずれを直接補正するため、魅力的です。最新のディープラーニングのバリアントは、生の画像から直接サーボ速度コマンドを出力するようにニューラルネットワークをトレーニングし、新しいオブジェクトへの堅牢な位置合わせを可能にします。

コントロール感知閉ループ

W

ウェイポイント

ウェイポイントは、ロボットの軌道がスタートからゴールまでの途中で通過する必要がある中間構成 (関節角度またはデカルトポーズ) です。ウェイポイントを使用すると、プログラマーやプランナーは、障害物を回避したり、安全な方向からオブジェクトに近づいたり、複数ステップの組み立て手順を順番に実行したりするなど、特定のポーズでロボットの経路をガイドできます。ロボット学習では、高レベルのポリシーがウェイポイントを出力することがあります。これにより、下位レベルのモーションプランナーが滑らかな関節軌道に補間し、学習されたポリシーの一般化の利点と古典的な計画の安全性保証を組み合わせます。

企画軌跡

全身制御 (WBC)

全身制御は、リアルタイムの制約付き最適化問題 (通常は QP) として解決される、複数の競合する目的 (バランスの維持、エンドエフェクターターゲットの追跡、関節制限の回避、接触力の管理) を満たすために脚式ロボットまたは人型ロボットのすべての関節を同時に調整します。 WBC は、ベースが固定されていないため、ヒューマノイドおよび脚式マニピュレータにとって不可欠です。腕の動きにより重心が移動し、脚と胴体の調整によって補正する必要があります。 Drake、Pinocchio、OCS2 などの WBC フレームワークは、ヒューマノイド研究でよく使用されます。 Mobile ALOHA プラットフォームと Boston Dynamics Atlas は、移動操作に全身コントローラーを使用しています。見る WBCの記事.

コントロールヒューマノイド移動

ワークスペース

ロボットのワークスペースは、ロボットの運動学的構造と関節制限を考慮して、エンドエフェクターが到達できるすべての位置 (および方向) のセットです。の 到達可能なワークスペース エンドエフェクタが少なくとも 1 つの向きで到達できるすべての位置です。の 器用なワークスペース は、あらゆる方向で到達可能な小さなサブセットであり、任意のアプローチ角度を必要とする操作タスクに最も有用な領域です。ワークスペース分析は、セルのレイアウト (ロボットと部品をどの程度離す必要があるか)、ロボットの選択 (リーチとタスクのレイアウトの一致)、および動作計画 (ワークスペース全体にわたる特異点のないパスの特定) を提供します。

運動学ハードウェア企画

Z

ザール (データ形式)

Zarr は、n 次元配列をチャンク化された圧縮形式で保存するためのオープンソース形式で、クラウドネイティブの並列 I/O ワークロード向けに設計されています。ロボット工学では、Zarr は大規模なロボットデモンストレーションデータセット (画像、関節状態、アクション) を、ファイル全体をダウンロードせずにオブジェクトストレージ (S3、GCS) から効率的に読み取ることができる形式で保存するために使用されます。とは異なり HDF5, Zarr は同時書き込みをサポートしているため、分散データ収集パイプラインに適しています。 Zarr v3 はフォーマットを標準化し、シャーディング (多数の小さなチャンクを少数の大きなファイルに結合する) のサポートを追加しました。これにより、クラウドストレージの効率が向上します。 LeRobot やいくつかの自動運転車データセットなどのプロジェクトは、大規模なデータセットホスティングに Zarr を採用しています。

データストレージエンジニアリング

ゼロショットの一般化

ゼロショット汎化とは、追加の微調整やデモンストレーションを行わずに、トレーニング中に明示的に確認されたことのないタスク、オブジェクト、または環境に対して、トレーニングされたポリシーが正常に実行できる機能です。真のゼロショット転送は、ロボット基礎モデルの主要な目標です。ゼロショットを新しい家庭用オブジェクトや新しい言語命令に一般化するポリシーは、データ収集の負担を大幅に軽減します。現在の VLA モデルは、有望なゼロショット言語一般化 (既知のタスクタイプの新しい表現の理解) を示していますが、真に新しいオブジェクトカテゴリやまったく新しい操作スキルには依然として苦労しています。ゼロショットのパフォーマンスを向上させることが、ロボットのデータセットとモデルのサイズを拡張する中心的な動機です。こちらも参照ゼロショットトランスファー記事.

一般化基礎モデル研究フロンティア

検索に一致する用語はありません

より短い用語を試すか、スペルを確認してください。検索をクリアすると、65 個の用語すべてが上にリストされます。

学習プロジェクトにロボットデータが必要ですか?

私たちは、卓上の操作からモバイルの両手タスクまで、模倣学習と RL のための、すぐに学習できる高品質のデモンストレーションを収集します。

データサービスお問い合わせ

ロボット工学用語集

A

ACT (トランスフォーマーによるアクションチャンク)

アクションスペース

ALOHA (両手遠隔操作のための低コストのオープンソース ハードウェア システム)

AMR (自律移動ロボット)

B

行動のクローニング （紀元前）

両手操作

BOM (部品表)

C

デカルト空間 (タスクスペース)

共同トレーニング

接触が多い操作

連続制御

D

データ拡張 (ロボット用)

自由度 (自由度)

デモンストレーション

普及政策

器用な操作

E

身体化されたAI

エンドエフェクター

エピソード

外部機能 （カメラ）

F

力トルクセンサー (FTセンサー)

基礎モデル (ロボット工学)

順運動学 (FK)

G

一般化 (ロボットポリシー)

掴むポーズ

グリッパー

H

HDF5 (階層データ形式 v5)

人型ロボット

人間とロボットのインタラクション (HRI)

I

模倣学習 (イリノイ州)

逆運動学 （私）

アイザック・シム

J

ジョイントスペース (設定スペース)

関節トルク

K

運動連鎖

運動感覚の指導

L

言語条件付きポリシー

潜在空間

ルロボット

LeRobot HF データセット

M

操作

移動してください

マルチタスク学習

N

神経政策

掴みにくい操作

O

観察スペース

オープンループ制御

オープン X の実施形態

P

ペイロード

ポリシー （ロボット）

ポリシーの展開

事前トレーニング

Q

Q関数 (行動価値関数)

準静的操作

R

リアルからシムへの転送

到着

リプレイバッファ

報酬機能

S

Sim-to-Real 転送

状態空間

ALOHA (両手遠隔操作のための低コストのオープンソースハードウェアシステム)

行動のクローニング（紀元前）

外部機能（カメラ）

逆運動学（私）

ポリシー（ロボット）

学習プロジェクトにロボットデータが必要ですか?