シミュレーション以上のものを必要とするチームのための現実世界の学習環境

実際のハードウェア、実際のセンサー、RL、評価、反復のための実際の運用サポートに裏付けられた、永続的な学習準備の整ったロボット環境。

リアルハードウェア 制御された障害 繰り返し可能なリセット ベンチマーク対応シグナル
これが何を意味するか

シミュレーターではありません。 継続的に動作可能な現実世界のセットアップ。

私たちの文脈では、RL 環境は完全に指定された実際のロボット システムです。つまり、物理的なセットアップ、明確に定義されたタスクと成功基準、安定した観察とアクション スペース、決定論的なリセット手順、継続的なログ記録、繰り返される試行と失敗の下での安全な実行です。

これにより、チームは、展開を最初の真のテストとして扱うのではなく、現実世界で学習ベースのポリシーをトレーニング、評価、反復する場所が得られます。

1

タスクを定義する

タスク、成功基準、プロセスのリセット、観察またはアクションのインターフェイスをロックします。

2

トライアルを繰り返し実行する

繰り返し可能な初期化により、何千ものエピソードにわたって同じ実際のセットアップを操作します。

3

学習シグナルを捕捉する

関節の状態、制御コマンド、視覚、触覚または力の信号、および結果を記録します。

4

政策を改善する

実際の障害、実際のエッジケース、回帰追跡を使用して、次のバージョンで反復します。

私たちが提供するもの

本番環境のコンポーネント

  • 永続的な現実世界の環境専用のセットアップ、繰り返しのエピソードの実行、長期的なパフォーマンス追跡、運用上の安全性のサポート。
  • 学習準備完了信号関節の状態、制御コマンド、固有受容、RGB および RGB-D 視覚、力および触覚信号、および明示的な結果ラベル。
  • 大規模な障害の制御掴みの失敗、滑り、衝突、回復の試みを第一級のデータとして安全にキャプチャします。
環境例

これが使われる場所

  • 接触が多い操作 - 摩擦の変動、触感を意識した挿入、滑り検出、および回復
  • 遠隔操作ブートストラップ RL - 人間によるデモンストレーションとオンラインまたはオフラインの RL 微調整
  • 回帰環境とベンチマーク環境 - 修正されたタスク、繰り返し可能なリセット、バージョン管理された評価指標
エンゲージメントモデル

SVRC と連携する方法

  • パイロット環境短期間のセットアップ、実現可能性の検証、環境とタスクの共同設計。
  • 永続的な環境毎月または四半期ベースで継続的にアクセスできる専用のハードウェアとタスクのセットアップ。
  • 統合パートナーシップ複数の環境、継続的なデータセットの増加、カスタム メトリクス、レポート ワークフロー。

始める準備はできましたか?

ロボットを入手したり、データをリクエストしたり、連絡したりしてください。私たちがお手伝いいたします。