sim2realは、学習問題に見せかけた計測問題だ

2026/6/20

シミュレーションで完璧に歩いたポリシーが、実機では転ぶ。原因を「学習が足りない/ポリシーが弱い」と捉え、もっと訓練しもっと大きなネットを使う——多くの場合、これは見当違いだ。sim2realのギャップの大半は、未計測・誤計測の力学(遅延・摩擦・接触・アクチュエータ特性・センサ雑音)に由来する。学習問題の顔をした、計測問題なのだ。

(正直に前置きする。2024–25年の総説の主流は「同定と学習は相補的」という立場だ。だから主張は「学習は無関係」ではなく、「律速はたいていモデルの忠実度で、学習が最も効くのは”測れない部分”に向けたときだ」とする。)

ギャップは「測らなかったもの」にある

最新の包括的総説(arXiv:2510.20808, 2025)は、ギャップを力学・知覚・アクチュエーション・系設計の4軸に分け、その中身として摩擦・接触・慣性(質量)・制御遅延・バックラッシュ・アクチュエータ帯域を名指しする。先行する総説(arXiv:2111.00956)も、ギャップの起源を「物理現象の省略、パラメータ推定の不正確さ、数値積分の離散化」——いずれもモデル化の失敗であり、「学習不足」ではない、とする。

彼らは「良いポリシー」でなく「良いアクチュエータ」を学んだ

最も鮮烈な実例が四足ロボット ANYmal だ(Hwangbo ら, Science Robotics 2019, arXiv:1901.08652)。直列弾性アクチュエータは「正確なモデル化が極めて困難」で、解析モデルは約100パラメータを要する。彼らの解は、実機データで小さなMLPを訓練してトルクを予測すること。結果、トルク予測の平均誤差は理想モデルの 3.55 Nm → 0.74 Nm(検証)、テストでは 5.74 → 0.97 Nm と5〜6倍改善し、トルクセンサ分解能(0.2 Nm)に迫った。転倒復帰は実機で一発成功。

ここが核心だ。彼らが学習したのはポリシーではなく、アクチュエータの力学モデルだった。「どう動くか」でなく「現実が何をするか」を学んだ。学習を測れない部分に向けた——これが正しい使い方の形だ。

遅延も記録された殺し屋だ。Minitaur の研究(arXiv:1804.10332)は「遅延はフィードバック制御の不安定の主因」と述べ、遅延をモデル化しなければポリシーは「振動し、発散し、最終的に失敗する」とした。卓球ロボットの事例研究(arXiv:2309.03315)は、観測・動作の遅延を実機で測った平均・分散のガウス分布として注入している(観測~~29–40 ms、動作~~64–71 ms)。

計算では、未計測の2ミリ秒は直せない

「もっと訓練すれば直る」への最も鋭い反証は OpenAI Dactyl だ(arXiv:1808.00177)。摩擦や力学を測らずDRで訓練し回ったため、コストが爆発した——ランダム化なしで物体回転に約3年ぶんのシミュ経験、実機並みの頑健性に達するフルランダム化では約100年ぶん。摩擦を測らない代償が、約30倍の計算だった。DRは「ギャップ自体を縮めず、その周りを学習で回避する」手法で、「実世界がランダム化シミュの分布内に収まる」と仮定する(arXiv:2505.14266)。だが誤った摩擦係数や未モデルの2ミリ秒遅延は、その分布の外にある。シミュレータが生成しなかった遷移関数を、どれだけポリシー容量を積んでも復元できない。間違ったモデルからは、学習で抜け出せない。

正直な但し書き

学習が本当に効く場面はある。接触豊富・変形を伴う操作のように、そもそも正確にモデル化できない領域だ。Young率やポアソン比を精密に測れないなら、ランダム化や残差適応で補うのが筋だ。だから真に正直な主張はこうだ——測れるものは測り、学習は測れない部分に振り向けよ。

このサイトのカオスの記事と地続きでもある。未計測の小さな誤差(2ミリ秒、間違った μ)が、発散軌道へと増幅する。ギャップは、あなたが測らなかったものの中にある。

参考: The Reality Gap in Robotics 総説 (arXiv:2510.20808, 2025); Robot Learning from Randomized Simulations (arXiv:2111.00956); ANYmal/学習アクチュエータ (Hwangbo ら, Science Robotics 2019, arXiv:1901.08652); Minitaur (arXiv:1804.10332); 卓球ロボット事例研究 (arXiv:2309.03315); Dactyl (arXiv:1808.00177); DR vs sysID (arXiv:2505.14266)。総説の主流は「同定と学習は相補的」——本稿は律速がモデル忠実度に偏る点を強調した立場。

この記事はAIが下書きし、人間が編集・公開しています。