Part III: 에이전틱 로보틱스를 향하여

Chapter 7: 메모리와 세계 표현

집필일: 2026-04-08 최종수정일: 2026-04-08

요약

단발성 조작("컵을 집어")과 장기 작업("주방을 정리해")의 차이는 메모리에 있습니다. 수십 단계에 걸쳐 환경의 변화를 추적하고, 과거 행동을 기억하며, 시야 밖의 정보를 유지해야 합니다. 이 챕터는 로봇이 물리 세계를 어떻게 표현하고 기억해야 하는지를 다룹니다. 3D 씬 그래프에서 시작하여 장기/단기 기억 분리, 공간-의미 검색, 행동 조건 그래프, 실행 검증으로 진화한 이 흐름은 Agentic Coding의 파일 시스템과 컨텍스트 윈도우에 대응하면서도 근본적으로 다른 요구를 가집니다.

7.1 도입: 물리 세계가 요구하는 기억

Agentic Coding에서 "기억"은 간단합니다. 장기 기억은 파일 시스템에 영구 보존되고, 단기 기억은 컨텍스트 윈도우에 유지됩니다. grep이나 find로 즉시 검색 가능하고, git log로 모든 변화의 이력을 추적합니다. 코드베이스는 완전 관측 가능(fully observable)하며, 혼자 작업하면 환경이 저절로 변하지 않습니다.

물리 세계는 네 가지 고유한 메모리 요구를 부과합니다.

부분 관측성: 로봇은 카메라 시야 내의 것만 봅니다. 시야 밖으로 사라진 물체의 위치를 기억해야 합니다. 환경 동적성: 다른 사람이나 로봇이 물건을 옮깁니다. 변화를 감지하고 기억을 갱신해야 합니다. 작업 장기성: 20단계 작업에서 이미 한 것과 아직 할 것을 추적해야 합니다. 비가역성: 실행 전 검증이 중요하므로, 환경 상태에 대한 정확한 기억이 안전한 행동의 전제 조건입니다.

7.2 KARMA: 장기 기억과 단기 기억의 분리

[Wang et al., 2024]의 KARMA는 인간 인지의 장기/단기 기억 구분을 로봇에 이식합니다.

장기 기억(Long-term Memory)은 환경 전체의 3D 씬 그래프로 구현됩니다. 공간 구조, 객체 관계("컵은 테이블 위에", "접시는 싱크대 안에")를 포착합니다. 단기 기억(Short-term Memory)은 객체의 위치/상태 변화를 실시간으로 기록합니다. 두 기억 시스템의 정보로 LLM 프롬프트를 보강하는 Memory-augmented Prompting이 핵심 기법입니다.

AI2-THOR 시뮬레이터에서의 결과는 극적이었습니다. Composite Tasks에서 성공률 1.3배, 실행 효율 3.4배 향상. Complex Tasks에서 성공률 2.3배, 실행 효율 62.7배 향상. 장기 작업에서 메모리의 가치가 압도적으로 입증되었습니다.

KARMA는 SayPlan (→ Chapter 2)의 3D 씬 그래프 개념을 기억 시스템으로 확장한 것이며, Embodied-RAG와 함께 "로봇을 위한 기억 아키텍처"의 양축을 형성합니다.

7.3 Embodied-RAG: 물리 세계의 검색-증강 생성

[Xie et al., 2024]의 Embodied-RAG는 텍스트 문서 RAG를 물리 세계로 확장합니다. 핵심은 공간-의미 계층(spatial-semantic hierarchy)입니다.

Topological Map이 환경의 위상 구조(방-복도-건물)를 표현하고, Semantic Forest가 계층적 의미 표현(전체 분위기 → 영역 → 개별 객체)을 담습니다. 쿼리에 따라 적절한 공간-의미 수준에서 정보를 검색합니다. "빨간 컵이 어디 있어?"는 객체 수준에서, "편안한 분위기의 방은?"은 영역 수준에서 검색합니다.

Agentic Coding의 RAG — 코드베이스를 벡터 임베딩으로 인덱싱하고 관련 코드를 검색 — 와 구조적으로 유사하지만, 근본적 차이가 있습니다. 코드 RAG는 텍스트 임베딩 기반이고 파일 경로로 위치를 정확히 지정합니다. Embodied RAG는 3D 공간 좌표와 의미 계층을 결합하며, 정보를 얻으려면 로봇이 물리적으로 탐색해야 할 수 있습니다.

7.4 RoboEXP: 행동 조건 씬 그래프

[Jiang et al., 2024]의 RoboEXP는 정적 씬 그래프의 한계를 넘어섭니다. 단순히 "보이는 것"의 그래프가 아니라 "어떻게 조작할 수 있는가"까지 포함한 Action-Conditioned Scene Graph (ACSG)를 로봇이 자율적 탐색을 통해 구축합니다.

ACSG는 저수준 기하학·의미론 정보에 고수준 행동 조건 관계를 통합합니다. "이 서랍은 열 수 있다", "이 물체는 잡을 수 있다" 같은 affordance 정보가 그래프에 포함됩니다. Rigid, articulated, nested, deformable 객체를 포괄하며, 가려진 객체와 다단계 추론이 필요한 시나리오도 처리합니다.

이것은 Agentic Coding에서의 동적 분석(dynamic analysis)에 대응됩니다. 코드를 읽기만 하는 정적 분석이 아니라, 실제 실행하며 런타임 정보를 수집하는 것처럼, RoboEXP는 "만져봐야 안다"는 물리 세계의 동적 분석입니다.

7.5 VeriGraph: 실행 전 검증

[Ekpo et al., 2024]의 VeriGraph는 씬 그래프를 계획 검증 도구로 활용합니다. VLM이 생성한 행동 시퀀스가 씬 그래프 제약을 위반하면 재생성하고, 아니면 실행하는 반복 검증 루프를 형성합니다.

Language-based tasks에서 +58%, Image-based tasks에서 +30%의 성능 향상을 달성했습니다. AutoTAMP (→ Chapter 5)의 "LLM을 checker로 쓰기" 아이디어를 씬 그래프 도메인으로 확장한 것이며, "실행 전 검증"의 중요성을 입증했습니다.

이것은 Agentic Coding의 CI/CD 파이프라인에 정확히 대응합니다: 코드 생성 → 테스트 실행 → 실패 시 수정 → 재시도. 차이점은 코드 테스트가 밀리초 단위인 반면, 로봇 행동 검증은 시뮬레이션 또는 실행이 필요하여 훨씬 느리다는 것입니다.

7.6 씬 그래프의 진화 경로

이 챕터의 논문들을 관통하는 진화는 명확합니다:

단계	대표	핵심 추가
정적 3D 씬 그래프	SayPlan (2023)	계층적 탐색으로 스케일링
행동 조건 씬 그래프	RoboEXP (2024)	Affordance 정보 포함
기억 시스템으로서의 씬 그래프	KARMA (2024)	LTM/STM 분리
검증 도구로서의 씬 그래프	VeriGraph (2024)	실행 전 계획 검증
검색 시스템과의 결합	Embodied-RAG (2024)	공간-의미 계층 검색

씬 그래프는 단순한 환경 표현에서 시작하여, 동시에 계획 인터페이스, 장기 기억, 검증 도구, 검색 인덱스의 역할을 수행하는 핵심 데이터 구조로 발전했습니다.

7.7 Agentic Coding과의 대비: 관측 비용의 차이

메모리와 세계 표현에서 Agentic Coding과 Agentic Robotics의 가장 근본적인 차이는 관측 비용입니다.

차원	Agentic Coding	Embodied Robotics
장기 기억	CLAUDE.md, 프로젝트 문서 (무비용 접근)	3D 씬 그래프 (구축 비용 높음)
단기 기억	Context window (자동 유지)	Short-term state changes (실시간 추적 필요)
검색	텍스트 임베딩, grep (즉시)	공간-의미 계층 (탐색 필요)
탐색	파일 읽기 (즉시, 무비용)	물리 탐색 (시간, 에너지 소요)
갱신	파일 수정 시 자동	재탐색/재관찰 필요
검증	테스트 실행 (ms)	물리 시뮬레이션/실행 (s~min)

코드베이스의 모든 파일을 읽는 데 수밀리초가 걸립니다. 건물 전체의 3D 씬 그래프를 구축하려면 로봇이 물리적으로 모든 방을 돌아다녀야 합니다. 이 비용 차이가 메모리 아키텍처 설계의 근본적 제약을 결정합니다.

KARMA의 LTM/STM 분리는 이 비용을 관리하는 전략입니다. 전체 환경의 포괄적 표현(LTM)을 한 번 구축하고, 변화만 추적(STM)하여 재탐색 비용을 최소화합니다. Embodied-RAG의 계층적 검색은 쿼리에 필요한 수준의 정보만 검색하여 불필요한 탐색을 줄입니다.

7.8 미해결 문제와 전망

첫째, 실시간 씬 그래프 업데이트입니다. 현재 대부분의 접근은 초기 탐색으로 씬 그래프를 구축하고, 이후 업데이트가 제한적입니다. 다른 에이전트나 사람이 환경을 지속적으로 변경하는 동적 환경에서 씬 그래프를 효율적으로 갱신하는 것이 과제입니다. MoMa-LLM [2024]의 language-grounded dynamic scene graph가 이 방향의 초기 시도입니다.

둘째, 메모리 용량과 속도의 트레이드오프입니다. 풍부한 3D 씬 그래프는 정보량이 많지만 저장/검색이 비쌉니다. 압축하면 정보가 손실됩니다. 특히 로봇의 실시간 제어 루프(10-100Hz) 안에서 메모리를 조회해야 한다는 시간 제약이 병목입니다.

셋째, 다중 메모리 시스템의 통합입니다. RoboMemory [2025]는 brain-inspired multi-memory(episodic, semantic, procedural)를 제안했지만, 아직 초기 단계입니다. 에피소드 기억("지난번에 빨간 컵은 싱크대에 있었다"), 의미 기억("컵은 보통 선반에 둔다"), 절차 기억("컵을 잡으려면 손잡이를 잡는다")의 효과적 결합은 열린 문제입니다.

가장 유망한 방향은 씬 그래프의 표준화와 모듈화입니다. 현재 각 논문이 자체 씬 그래프 형식을 사용하고 있어 호환이 불가합니다. KARMA의 기억 시스템, VeriGraph의 검증 루프, Embodied-RAG의 검색 엔진이 공통 씬 그래프 표준 위에서 모듈로 동작할 수 있다면, 진정한 에이전틱 로보틱스의 "운영체제"가 될 수 있습니다.

참고문헌

Wang, Z. et al., "KARMA: Augmenting Embodied AI Agents with Long-and-short Term Memory Systems," arXiv:2409.14908, 2024. scholar
Xie, Q. et al., "Embodied-RAG: General Non-parametric Embodied Memory for Retrieval and Generation," arXiv:2409.18313, 2024. scholar
Jiang, H. et al., "RoboEXP: Action-Conditioned Scene Graph via Interactive Exploration for Robotic Manipulation," arXiv:2402.15487, 2024. scholar
Ekpo, D. et al., "VeriGraph: Scene Graphs for Execution Verifiable Robot Planning," arXiv:2411.10446, 2024. scholar
Rana, K. et al., "SayPlan: Grounding Large Language Models using 3D Scene Graphs for Scalable Robot Task Planning," arXiv:2307.06135, 2023. scholar
MoMa-LLM, "Language-Grounded Dynamic Scene Graphs for Interactive Object Search with Mobile Manipulation," arXiv:2403.08605, 2024. scholar
3D-Mem, "3D Scene Memory for Embodied Exploration and Reasoning," arXiv:2411.17735, 2024. scholar
RoboMemory, "RoboMemory: A Brain-inspired Multi-memory Agentic Framework for Interactive Environmental Learning in Physical Embodied Systems," arXiv:2508.01415, 2025. scholar
Chen, Y. et al., "AutoTAMP: Autoregressive Task and Motion Planning with LLMs as Translators and Checkers," arXiv:2306.06531, 2023. scholar