Part I: 기초 — LLM이 로봇을 만나다

Chapter 1: 서론 — Agentic Coding에서 Agentic Robotics로

집필일: 2026-04-08 최종수정일: 2026-04-08

요약

2022년 이후 LLM 기반 에이전트는 소프트웨어 개발을 근본적으로 변화시켰다. 코드 생성, 실행, 오류 분석, 수정의 자율 루프가 실용 수준에 도달한 것이다. 이 책은 동일한 에이전틱 루프를 물리 세계로 확장하려는 시도를 추적한다. LLM Planner에서 VLA, 그리고 Agentic Robotics까지 — 이 여정에서 드러나는 근본적 간극과 그 극복의 경로를 7대 차원으로 분석한다.

1.1 도입: 에이전틱 루프라는 공통 구조

소프트웨어 개발에서 LLM 기반 에이전트의 작동 방식은 놀라울 정도로 단순한 루프를 따른다. 관찰(코드 읽기) → 계획(수정 방향 결정) → 실행(코드 작성·실행) → 검증(테스트·린터) → 반성(에러 분석) → 재시도. Claude Code, Cursor, Devin 같은 도구들은 이 루프를 수초 단위로 반복하며, 인간 개발자와 비견할 만한 자율성을 달성했습니다.

이 루프가 작동하는 이유는 디지털 세계의 세 가지 속성 덕분입니다. 첫째, 결정론적 실행 — 동일한 코드와 입력은 동일한 결과를 보장합니다. 둘째, 즉각적이고 명확한 피드백 — 스택 트레이스와 테스트 출력은 실패의 원인을 정확히 지목합니다. 셋째, 완전한 가역성 — git revert 한 번이면 어떤 변경도 되돌릴 수 있습니다.

이제 이 루프를 물리 세계로 옮겨 봅시다. 로봇이 "주방을 정리해"라는 지시를 받으면, 관찰(카메라·센서) → 계획(행동 시퀀스) → 실행(모터 제어) → 검증(결과 관찰) → 반성(실패 분석) → 재시도의 루프를 돌아야 합니다. 구조는 동일합니다. 그러나 물리 세계에서는 앞서 언급한 세 가지 속성이 모두 무너집니다.

1.2 물리 세계가 부과하는 근본적 제약

확률적 실행과 비가역성

동일한 "컵 잡기" 명령을 두 번 실행해도 결과가 다릅니다. 물체의 미세한 위치 변화, 표면 마찰, 조명 조건이 달라지기 때문입니다. Diffusion Policy ^[6]가 명시적으로 확률적 정책을 모델링하는 것은 이 본질적 불확실성을 인정하는 것입니다. 더 심각한 것은 비가역성입니다. 깨진 컵은 git revert로 되돌릴 수 없습니다. 열역학 제2법칙이 물리 에이전트에게 부과하는 근본 제약입니다.

피드백의 질적 저하

코드 에러는 "파일 X, 라인 Y, TypeError: int와 str을 결합할 수 없음"처럼 명확합니다. 로봇 실패는 그렇지 않습니다. 그리퍼가 컵을 놓쳤을 때 — 힘이 부족했는가? 물체가 미끄러웠는가? 위치 오차인가? REFLECT ^[7]는 VLM으로 실패 원인을 자연어로 설명하려는 시도지만, 정확도는 작업 유형에 따라 69-79% 수준입니다.

검증의 비용과 간극

코드는 단위 테스트를 수밀리초 만에 수천 개 실행할 수 있습니다. 로봇의 "단위 테스트"에 해당하는 것은 물리 실험이며, 한 번에 수분이 걸리고 인간 감독이 필요합니다. 시뮬레이션으로 대체하려는 시도(SIMPLER ^[11])가 있지만, 시뮬레이션과 현실 사이의 간극(sim2real gap)이 항상 남습니다.

1.3 네 번의 패러다임 전환

이 책이 추적하는 2022~2026년의 연구 흐름은 네 번의 패러다임 전환으로 구조화됩니다.

전환 1: LLM as External Planner (2022). LLM이 자연어 지시를 행동 계획으로 분해할 수 있음이 입증되었습니다. LLM as Zero-Shot Planners ^[1]가 기점이고, SayCan ^[2]이 물리 세계에 접지(ground)시켰으며, Code as Policies ^[3]가 코드를 제어 인터페이스로 확립했습니다 (→ Chapter 2, 3).

전환 2: Multimodal VLA (2023). PaLM-E ^[4]과 RT-2 ^[5]가 Vision-Language-Action 모델을 탄생시켰습니다. 하나의 모델이 보고, 이해하고, 행동하는 end-to-end 패러다임입니다 (→ Chapter 4).

전환 3: Open VLA Ecosystem (2024). OpenVLA ^[8], Octo ^[9], pi0 ^[10]가 VLA를 민주화했습니다. RT-2(55B, 비공개)에서 OpenVLA(7B, 오픈소스)로의 전환은, GPT-4에서 Llama로의 전환과 정확히 대응합니다 (→ Chapter 4, 5, 6).

전환 4: Agentic Closed-Loop (2025-2026). BUMBLE ^[13], PragmaBot [2025], AutoRT ^[12]가 폐루프 에이전틱 시스템을 구축하기 시작했습니다. 계획-실행-반성-기억의 완전한 루프가 물리 세계에서 작동하는 프로토타입입니다 (→ Chapter 7, 8, 9).

1.4 7대 차원 비교 프레임워크

이 책의 분석 축은 Agentic Coding과 Agentic Robotics를 가르는 7대 차원입니다.

차원	Agentic Coding	Agentic Robotics	간극 심각도
Error Feedback	스택 트레이스, 테스트 출력	센서 노이즈, 부분 관측	★★★★★
Execution Determinism	결정론적, 재현 가능	확률적, 비재현	★★★★☆
State Representation	코드, 파일 시스템, AST	씬 그래프, 포인트 클라우드	★★★★☆
Memory Architecture	롱 컨텍스트, 영구 파일	실시간 제약, 공간 메모리	★★★☆☆
Action Space	API 호출, 코드 편집 (이산적)	연속 모터 명령	★★★★☆
Verification	단위 테스트, CI/CD	물리 실험, sim2real gap	★★★★★
Recoverability	git revert, undo	불가역 (물리적 결과)	★★★★★

세 개의 차원 — Error Feedback, Verification, Recoverability — 은 물리 세계의 근본 속성에서 비롯되어 완전 해소가 원리적으로 불가능합니다. 이 차원들은 "극복"이 아닌 "적응" 전략이 필요하며, 이것이 Agentic Robotics가 Agentic Coding의 발전 궤적을 그대로 따라가지 않고 독자적 경로를 개척하는 이유입니다.

1.5 이 책의 구성

Part I (Chapter 1-3)에서는 LLM이 로봇 계획에 처음 활용된 2022년의 연구들을 다룹니다. LLM Planner의 가능성과 한계, 그리고 코드가 자연어보다 나은 제어 인터페이스가 되는 이유를 살펴봅니다.

Part II (Chapter 4-6)에서는 VLA 혁명을 추적합니다. End-to-end 모델이 어떻게 등장하고 민주화되었는지, 고수준 계획과 저수준 제어를 어떻게 연결하는지, 그리고 확산 정책과 3D 표현이 어떻게 저수준 제어의 최전선을 형성하는지 분석합니다.

Part III (Chapter 7-9)에서는 Agentic Robotics의 핵심 구성요소를 다룹니다. 메모리와 세계 표현, 폐루프 시스템, 그리고 시뮬레이션과 현실 사이의 간극을 극복하는 전략입니다.

Part IV (Chapter 10)에서는 7대 차원을 종합하여, 디지털 에이전트와 물리 에이전트 사이의 근본적 차이를 최종 분석하고 미래를 전망합니다.

1.6 Agentic Coding과의 대비: 왜 이 프레임워크인가

이 책이 Agentic Coding을 일관된 비교 축으로 사용하는 이유는 단순합니다. Agentic Coding은 에이전틱 루프가 이미 작동하는 세계이기 때문입니다. Claude Code가 코드를 생성하고, 실행하고, 에러를 분석하고, 수정하는 루프는 이미 production-ready입니다. 이 성공의 조건을 정확히 이해하면, 물리 세계에서 무엇이 추가로 필요한지가 명확해집니다.

Agentic Coding이 작동하는 네 가지 핵심 조건과 이를 Robotics에 이식하려는 시도는 다음과 같습니다:

빠르고 정확한 피드백 → VLM 기반 실패 진단 강화 (REFLECT)
저비용 실험 → 시뮬레이션 환경 고도화 (SIMPLER)
쉬운 복구 → Safety-first 설계 (AutoRT의 Robot Constitution)
구조화된 상태 → 씬 그래프 채택 (SayPlan, KARMA)

이 네 가지 이식의 성공 여부가 Agentic Robotics의 성숙도를 결정합니다. 각 챕터에서 해당 논문들이 이 이식을 어떻게 시도하고, 어디까지 성공했으며, 무엇이 남았는지를 추적합니다.

1.7 미해결 문제와 전망

Agentic Robotics가 연구실 데모를 넘어 실용화되기 위해 반드시 해결해야 할 세 가지 문제가 있습니다.

첫째, 물리적 피드백의 의미 변환입니다. 센서 데이터를 LLM이 이해할 수 있는 구조적 피드백으로 변환하는 것은 가장 시급한 과제입니다. Counterfactual reasoning("더 세게 잡았다면?")과 failure RAG(유사 실패 경험 검색)가 유망한 방향입니다.

둘째, Safety와 Autonomy의 균형입니다. AutoRT ^[12]의 Robot Constitution은 시작이지만, long-tail 위험에 대한 보장은 없습니다. 계층적 안전 아키텍처 — 하드웨어 수준의 반사적 안전과 소프트웨어 수준의 추론적 안전의 결합 — 가 필요합니다.

셋째, 평가 표준의 확립입니다. SWE-bench가 Agentic Coding의 발전을 가속화한 것처럼, CaP-X ^[16]류의 표준화된 벤치마크가 Agentic Robotics에도 필요합니다. 현재 각 논문이 자체 환경과 메트릭으로 평가하는 상황은 공정한 비교와 재현을 불가능하게 만들고 있습니다.

Agentic Robotics는 Agentic Coding 대비 약 1-2년의 패러다임 지연을 보이고 있습니다. 그러나 이 지연은 단순한 기술 성숙의 시간이 아니라, 물리 세계가 부과하는 근본적 제약의 반영입니다. 이 책은 그 제약의 정확한 지도를 그리고, 극복의 경로를 탐색합니다.

참고문헌

Huang, W. et al., "Language Models as Zero-Shot Planners: Extracting Actionable Knowledge for Embodied Agents," arXiv:2201.07207, 2022. scholar
Ahn, M. et al., "Do As I Can, Not As I Say: Grounding Language in Robotic Affordances," arXiv:2204.01691, 2022. scholar
Liang, J. et al., "Code as Policies: Language Model Programs for Embodied Control," arXiv:2209.07753, 2022. scholar
Driess, D. et al., "PaLM-E: An Embodied Multimodal Language Model," arXiv:2303.03378, 2023. scholar
Brohan, A. et al., "RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control," arXiv:2307.15818, 2023. scholar
Chi, C. et al., "Diffusion Policy: Visuomotor Policy Learning via Action Diffusion," arXiv:2303.04137, 2023. scholar
Liu, Z. et al., "REFLECT: Summarizing Robot Experiences for Failure Explanation and Correction," arXiv:2306.15724, 2023. scholar
Kim, M. J. et al., "OpenVLA: An Open-Source Vision-Language-Action Model," arXiv:2406.09246, 2024. scholar
Ghosh, D. et al., "Octo: An Open-Source Generalist Robot Policy," arXiv:2405.12213, 2024. #55 scholar
Black, K. et al., "π0: A Vision-Language-Action Flow Model for General Robot Control," arXiv:2410.24164, 2024. scholar
Li, X. et al., "Evaluating Real-World Robot Manipulation Policies in Simulation (SIMPLER)," arXiv:2405.05941, 2024. scholar
Brohan, A. et al., "AutoRT: Embodied Foundation Models for Large Scale Orchestration of Robotic Agents," arXiv:2401.12963, 2024. scholar
Shah, M. et al., "BUMBLE: Unifying Reasoning and Acting with Vision-Language Models for Building-wide Mobile Manipulation," arXiv:2410.06237, 2024. scholar
Wang, Z. et al., "KARMA: Augmenting Embodied AI Agents with Long-and-short Term Memory Systems," arXiv:2409.14908, 2024. scholar
Rana, K. et al., "SayPlan: Grounding Large Language Models using 3D Scene Graphs for Scalable Robot Task Planning," arXiv:2307.06135, 2023. scholar
Fu, M. et al., "CaP-X: A Framework for Benchmarking and Improving Coding Agents for Robot Manipulation," arXiv:2603.22435, 2026. scholar