シミュレーターではありません。 継続的に動作可能な現実世界のセットアップ。
私たちの文脈では、RL 環境は完全に指定された実際のロボット システムです。つまり、物理的なセットアップ、明確に定義されたタスクと成功基準、安定した観察とアクション スペース、決定論的なリセット手順、継続的なログ記録、繰り返される試行と失敗の下での安全な実行です。
これにより、チームは、展開を最初の真のテストとして扱うのではなく、現実世界で学習ベースのポリシーをトレーニング、評価、反復する場所が得られます。
実際のハードウェア、実際のセンサー、RL、評価、反復のための実際の運用サポートに裏付けられた、永続的な学習準備の整ったロボット環境。
私たちの文脈では、RL 環境は完全に指定された実際のロボット システムです。つまり、物理的なセットアップ、明確に定義されたタスクと成功基準、安定した観察とアクション スペース、決定論的なリセット手順、継続的なログ記録、繰り返される試行と失敗の下での安全な実行です。
これにより、チームは、展開を最初の真のテストとして扱うのではなく、現実世界で学習ベースのポリシーをトレーニング、評価、反復する場所が得られます。
タスク、成功基準、プロセスのリセット、観察またはアクションのインターフェイスをロックします。
繰り返し可能な初期化により、何千ものエピソードにわたって同じ実際のセットアップを操作します。
関節の状態、制御コマンド、視覚、触覚または力の信号、および結果を記録します。
実際の障害、実際のエッジケース、回帰追跡を使用して、次のバージョンで反復します。