Part III: 에이전틱 로보틱스를 향하여

Chapter 9: Sim-to-Real 전이와 평가

집필일: 2026-04-08 최종수정일: 2026-04-08

요약

Agentic Coding에서 테스트 환경과 프로덕션 환경은 거의 동일합니다. Docker가 이를 보장합니다. Agentic Robotics에서는 이 보장이 불가능합니다. 시뮬레이션과 현실 사이에는 시각적·물리적·제어적 간극(sim2real gap)이 존재합니다. 이 챕터는 이 간극을 측정하고 줄이는 연구를 다룹니다. SIMPLER가 시뮬레이션 기반 평가의 표준을 제시하고, Natural Language Sim2Real이 언어를 간극 극복의 도구로 활용합니다.

9.1 도입: 테스트 환경의 충실도 문제

소프트웨어 개발에서 "테스트 환경에서 통과, 프로덕션에서 실패"는 드문 일입니다. CI/CD 파이프라인이 프로덕션과 동일한 환경에서 테스트를 실행하기 때문입니다. 컨테이너 기술이 환경 간 차이를 사실상 제거했습니다.

로봇에서 "시뮬레이션에서 성공, 현실에서 실패"는 일상입니다. 시뮬레이션의 렌더링은 현실의 시각과 다르고, 시뮬레이션의 물리 엔진은 접촉·변형·유체를 근사(approximation)합니다. 제어 명령의 전달과 실행 사이의 지연도 다릅니다. 이 세 차원의 간극이 sim2real gap이며, 이 챕터의 핵심 주제입니다.

이 문제가 왜 중요한지는 Chapter 8에서 드러납니다. 에이전틱 루프의 효율은 반복 속도에 의존하며, 물리 실험의 속도는 수분 단위입니다. 시뮬레이션에서 에이전틱 루프를 수행하고 결과를 현실로 전이할 수 있다면, 루프 속도를 수 자릿수 가속할 수 있습니다. Sim2real gap은 이 가속의 핵심 병목입니다.

9.2 SIMPLER: 시뮬레이션 기반 정책 평가의 표준

[Li et al., 2024]의 SIMPLER는 실세계 로봇 조작 정책을 시뮬레이션에서 신뢰성 있게 평가할 수 있는 오픈소스 환경 모음입니다.

Google Robot 및 WidowX BridgeV2 환경의 시뮬레이션을 구현하고, 제어 불일치(control disparity)와 시각 불일치(visual disparity)를 체계적으로 식별하고 완화합니다. 완전한 digital twin을 구축하지 않고도 신뢰성 있는 평가가 가능하다는 것이 핵심 기여입니다.

시뮬레이션 성능과 실세계 성능 간 강한 상관관계를 입증했으며, 분포 이동(distribution shift)에 대한 정책 민감도도 정확히 반영합니다. RT-1, RT-1-X, Octo 등 generalist policy를 평가하여 비교 가능한 벤치마크를 제공합니다.

SIMPLER는 Agentic Coding의 스테이징 환경에 대응합니다. 코드를 프로덕션에 배포하기 전 테스트 환경에서 검증하듯, 로봇 정책을 실세계에 배포하기 전 시뮬레이션에서 검증합니다. 근본적 차이: 코드 테스트 환경은 Docker로 프로덕션과 거의 동일하게 만들 수 있지만, 로봇 시뮬레이션은 sim2real gap이 존재합니다.

9.3 Natural Language Sim2Real: 언어로 간극을 건너다

[UT Austin, 2024]는 시뮬레이션과 현실의 시각적 간극을 자연어 기술(description)을 공통 의미 표현으로 사용하여 극복하는 접근을 제안합니다.

이미지 인코더를 자연어 기술 예측으로 사전학습하면, 시뮬레이션 이미지와 현실 이미지가 다르게 보여도 같은 자연어로 기술되므로 도메인 불변 표현이 학습됩니다. 소량의 실세계 데모 + 대량의 시뮬레이션 데모를 동시에 활용합니다.

CLIP, R3M 대비 25-40% 향상이라는 결과는 인상적입니다. 수백 개의 이미지-언어 쌍 사전학습만으로 인터넷 규모 사전학습(CLIP, R3M)을 초과한 것입니다.

"언어를 중간 표현으로 사용하여 도메인 간극을 극복한다"는 아이디어는 RT-H의 language motion (→ Chapter 5)과 공명합니다. 자연어가 시각적 도메인뿐 아니라 물리적·제어적 도메인에서도 간극을 줄이는 범용 도구가 될 수 있는지는 열린 질문입니다.

9.4 Sim2Real Gap의 세 차원

sim2real gap은 세 가지 독립적인 차원으로 분해됩니다:

간극 차원 설명 해결 접근
시각적 간극 렌더링 vs 실제 이미지 도메인 랜덤화, 언어 중간표현 (NL Sim2Real)
물리적 간극 시뮬레이션 물리 vs 실제 물리 시스템 식별, 도메인 랜덤화
제어 간극 시뮬레이션 제어 vs 실제 제어 SIMPLER의 제어 불일치 완화

세 차원은 독립적이므로, 하나를 해결해도 나머지가 병목이 됩니다. SIMPLER는 제어 간극과 시각 간극을 모두 다루고, NL Sim2Real은 시각 간극에 집중합니다. 물리적 간극은 가장 어려운 차원으로, 접촉·변형·유체 시뮬레이션의 정확도가 현재 기술의 한계입니다.

9.5 평가 표준의 부재: Agentic Robotics의 SWE-bench는 어디에

SWE-bench가 Agentic Coding의 발전을 가속화한 것처럼, Agentic Robotics에도 표준화된 벤치마크가 필요합니다. 현재 상황은 각 논문이 자체 환경과 메트릭으로 평가하는 파편화 상태입니다.

평가 체계 장점 한계
SIMPLER 재현 가능한 sim 평가 Sim-real 상관 불완전
CaP-X (→ Ch 3) Agentic coding 메트릭 도입 초기 단계
Open X-Embodiment Cross-embodiment 비교 표준화된 프로토콜 부재

평가의 근본적 어려움은 네 가지입니다:

환경 재현 불가: 물리 환경을 정확히 재현하는 것이 원리적으로 불가능합니다. 같은 테이블, 같은 물체, 같은 조명을 100% 재현할 수 없습니다.

메트릭의 다양성: task success rate, execution time, safety violation, generalization 등 다축 평가가 필요합니다.

Embodiment 다양성: 로봇마다 action space가 달라 공정 비교가 어렵습니다. 7-DoF 팔과 5-finger hand의 "잡기" 성공률을 어떻게 비교할 것인가?

비용: 대규모 물리 실험은 시간과 비용이 막대합니다. AutoRT의 77,000 에피소드 수집에 7개월이 소요되었습니다.

9.6 Agentic Coding과의 대비: 테스트 충실도의 근본적 차이

Agentic Coding과 Agentic Robotics의 검증(verification) 차원에서의 간극은 7대 차원 중 가장 심각한 두 개 중 하나입니다 (★★★★★).

코드의 단위 테스트는 수밀리초, 수천 개를 수분 내에 실행합니다. "로봇 단위 테스트"에 해당하는 것은 존재하지 않습니다. 물리 실험 한 번에 수분이 걸리고 인간 감독이 필요합니다.

더 근본적으로, 코드 테스트의 충실도(fidelity)는 거의 100%입니다 — 테스트 환경이 프로덕션과 동일하니까요. 시뮬레이션 테스트의 충실도는 sim2real gap만큼 제한됩니다. SIMPLER가 "강한 상관관계"를 보였지만, 이것은 "동일한 결과"가 아닙니다.

이 간극은 원리적으로 해소 불가능합니다. 시뮬레이션이 아무리 정밀해져도, 접촉 역학의 완벽한 시뮬레이션은 현재 물리학의 근사(approximation) 한계 때문에 달성할 수 없습니다. 따라서 해결 방향은 "완벽한 시뮬레이션"이 아니라 "불완전하지만 유용한 시뮬레이션 + 효율적 실세계 검증"의 조합입니다.

9.7 미해결 문제와 전망

첫째, 통합 벤치마크 스위트의 확립입니다. SIMPLER의 시뮬레이션 환경, CaP-X의 에이전틱 메트릭, Open X-Embodiment의 cross-embodiment 프로토콜을 통합하는 표준이 필요합니다. 이 표준이 확립되면 Agentic Robotics의 발전이 가속될 것이라는 점은 SWE-bench의 사례가 증명합니다.

둘째, 적응적 sim2real 전이입니다. 현재의 접근은 시뮬레이션에서 학습한 정책을 그대로 현실에 배포합니다. 대안은 현실에서의 소량 경험으로 시뮬레이션 정책을 빠르게 적응시키는 것입니다. PragmaBot (→ Chapter 8)의 경험 기반 학습이 이 방향의 단서를 제공합니다.

셋째, Fleet-scale 검증입니다. AutoRT가 보여준 것처럼, 다수의 로봇을 동시에 운영하면 검증 처리량(throughput)을 증가시킬 수 있습니다. 그러나 이는 Google 규모의 인프라를 요구하며, 접근성이 문제입니다. 오픈소스 fleet management 시스템의 개발이 필요합니다.

유망한 수렴 방향은 계층적 검증입니다. 고수준 계획은 씬 그래프 기반으로 검증(VeriGraph, → Chapter 7), 중수준은 코드 기반으로 검증(Code-as-Symbolic-Planner, → Chapter 3, 5), 저수준은 시뮬레이션에서 검증(SIMPLER)하는 다층 검증 파이프라인입니다. 각 수준에서 가장 효율적인 검증 방법을 적용하여, 물리 실험은 최종 확인에만 사용하는 전략입니다.

참고문헌

  1. Li, X. et al., "Evaluating Real-World Robot Manipulation Policies in Simulation (SIMPLER)," arXiv:2405.05941, 2024. scholar
  2. Lang4Sim2Real, "Natural Language Can Help Bridge the Sim2Real Gap," arXiv:2405.10020, 2024. scholar
  3. Brohan, A. et al., "AutoRT: Embodied Foundation Models for Large Scale Orchestration of Robotic Agents," arXiv:2401.12963, 2024. scholar
  4. Fu, M. et al., "CaP-X: A Framework for Benchmarking and Improving Coding Agents for Robot Manipulation," arXiv:2603.22435, 2026. scholar
  5. Open X-Embodiment Collaboration, "Open X-Embodiment: Robotic Learning Datasets and RT-X Models," arXiv:2310.08864, 2023. scholar
  6. Ekpo, D. et al., "VeriGraph: Scene Graphs for Execution Verifiable Robot Planning," arXiv:2411.10446, 2024. scholar
  7. Chen, Y. et al., "Code-as-Symbolic-Planner: Foundation Model-Based Robot Planning via Symbolic Code Generation," arXiv:2503.01700, 2025. scholar
  8. Yardi, Y. et al., "Bridging the Sim2Real Gap: Vision Encoder Pre-Training for Visuomotor Policy Transfer," 2025. scholar