Appendix

Chapter 11: 참고 — Agentic Coding 시스템의 구조

집필일: 2026-04-08 최종수정일: 2026-04-08

요약

Chapter 10은 Agentic Coding과 Agentic Robotics의 7대 차원 간극을 분석했습니다. 이 부록은 그 비교의 한쪽 축 — Agentic Coding 시스템 — 의 내부 구조를 상세히 해부합니다. 2025년 말 유출된 Claude Code 소스코드와 OpenAI Codex의 공개 아키텍처를 분석하여, "왜 이 구조가 작동하는가"를 규명하고, 동일한 구조 원리가 Agentic Robotics에 어떻게 이식될 수 있는지 전망합니다.

11.1 도입: 왜 코딩 에이전트의 내부를 들여다보는가

이 책의 핵심 주장은 에이전틱 루프가 보편적이라는 것입니다 (→ Chapter 1). 관찰 → 계획 → 실행 → 검증 → 반성 → 기억 → 재시도. Claude Code와 OpenAI Codex는 이 루프를 소프트웨어 엔지니어링에서 production 수준으로 구현한 시스템입니다. 이들의 성공이 순전히 모델 능력 덕분인지, 아니면 모델을 감싸는 하네스(harness) 엔지니어링 덕분인지를 구분하는 것이 중요합니다.

2025년 12월, Anthropic이 @anthropic-ai/claude-code npm 패키지의 2.1.88 버전에 59.8MB의 소스맵 파일을 실수로 포함하면서 약 512,000줄의 TypeScript 코드베이스가 공개되었습니다 [The Register, 2026]. 이 유출은 의도치 않은 것이었으나, 에이전틱 시스템 설계의 가장 상세한 참조 구현을 연구 커뮤니티에 제공했습니다. 분석 결과, 시스템 경험의 60%는 모델의 원시 역량에서, 나머지 40%는 정교하게 엔지니어링된 하네스에서 비롯됩니다 [MindStudio, 2026].

이 40%의 하네스 엔지니어링이야말로 Agentic Robotics에 이식할 수 있는 구체적 청사진입니다.

11.2 Claude Code의 아키텍처

11.2.1 3층 메모리 시스템

Claude Code의 가장 정교한 설계는 메모리 아키텍처입니다. 세 개의 층이 서로 다른 시간 범위를 담당합니다 [MindStudio, 2026; Rajiv Pant, 2025]:

Layer 1 — 영속 메모리 (CLAUDE.md). 프로젝트 루트에 위치하는 CLAUDE.md 파일은 모든 세션에서 자동으로 읽힙니다. 코딩 컨벤션, 아키텍처 결정, 자주 발생하는 실수 패턴 등 프로젝트의 "장기 기억"을 담습니다. 이 파일은 컨텍스트 압축이 일어나도 매 턴마다 재주입되므로, 긴 세션에서도 핵심 정보가 유실되지 않습니다. 에이전트 자신이 이 파일에 쓰기도 하며, 학습한 패턴을 영구 저장합니다.

Layer 2 — 세션 컨텍스트. 현재 대화의 전체 컨텍스트 윈도우(200K+ 토큰). 작업 중인 파일의 내용, 실행 결과, 에러 메시지가 실시간으로 누적됩니다. memory.md라는 포인터 인덱스 파일이 더 큰 구조화된 메모리 파일 네트워크를 탐색하는 역할을 합니다.

Layer 3 — 도구 기반 검색. Grep, Glob, Read 도구를 통해 전체 코드베이스를 on-demand로 검색합니다. 컨텍스트 윈도우에 적재되지 않은 정보를 필요할 때 끌어옵니다.

이 3층 구조의 핵심 원리는 적절한 회상(appropriate recall)입니다. 모든 것을 기억하는 것이 아니라, 올바른 기억을 올바른 시점에 표면화하는 것입니다 [MindStudio, 2026].

11.2.2 도구 오케스트레이션

유출된 소스코드는 Claude Code의 핵심 도구 세트를 드러냅니다: Read (파일 읽기), Edit (정확한 문자열 치환), Write (파일 생성), Bash (셸 명령 실행), Grep (ripgrep 기반 내용 검색), Glob (파일 패턴 매칭), Agent (서브에이전트 생성) [Penligent, 2025].

주목할 점은 도구 선택의 라우팅 로직입니다. 시스템 프롬프트가 명시적으로 "Bash로 grep을 실행하지 말고, 내장 Grep 도구를 사용하라"고 지시합니다. 각 도구는 특정 작업에 최적화되어 있으며, 모델이 범용 도구(Bash)로 모든 것을 해결하려는 경향을 하네스가 교정합니다. 이것은 단순한 효율성이 아닌 안전성 문제입니다 — Bash는 임의 명령 실행이 가능하므로, 전용 도구로 라우팅하면 위험한 명령의 실행 가능성이 줄어듭니다.

11.2.3 서브에이전트와 병렬 실행

Claude Code의 Agent 도구는 전문화된 서브에이전트를 생성합니다 [code.claude.com, 2026]. 각 서브에이전트는 독립된 컨텍스트 윈도우, 맞춤형 시스템 프롬프트, 제한된 도구 접근 권한을 갖습니다. Git worktree를 활용하여 파일시스템 격리를 제공하므로, 병렬 편집이 충돌 없이 이루어집니다.

실제 사례: 16개의 에이전트가 2,000개 세션에 걸쳐 100,000줄의 Rust 기반 C 컴파일러를 구축했습니다 [Morphllm, 2026]. Claude Code Review(2026년 3월 출시)는 병렬 에이전트를 파견하여 PR을 리뷰하고, 1,000줄 이상 변경의 84%에서 문제를 탐지합니다.

이 구조는 오케스트레이터 + 전문가 팀 패턴입니다. 메인 에이전트가 작업을 분해하고, 각 서브에이전트가 전문 영역을 담당합니다.

11.2.4 피드백 루프: 에러에서 수정까지

Claude Code의 핵심 실행 패턴은 다음과 같습니다:

  1. 코드 수정 (Edit/Write)
  2. 테스트 실행 (Bash: npm test)
  3. 에러 출력 수신 (구조화된 텍스트: 파일명, 줄 번호, 에러 유형)
  4. 에러 분석 (LLM이 스택 트레이스를 해석)
  5. 관련 코드 검색 (Grep/Read)
  6. 수정 적용 (Edit)
  7. 재테스트 (Bash)

이 루프가 테스트가 통과할 때까지 반복됩니다 [Anthropic, 2025]. PR에서 CI 실패가 발생하면, 클라우드에서 실행 중인 에이전트가 자동으로 실패를 감지하고, 수정하고, 푸시합니다 [Paddo.dev, 2026].

이 피드백 루프의 위력은 에러의 구조성에서 비롯됩니다. "File X, Line Y, TypeError: cannot read property Z of undefined" — 이 한 줄이 정확한 위치, 정확한 원인, 정확한 수정 방향을 제공합니다. Chapter 10에서 분석한 Error Feedback 차원(★★★★★)의 핵심입니다.

11.2.5 권한 모델과 안전 장치

Claude Code는 deny-first 평가 방식의 세분화된 권한 시스템을 사용합니다 [MindStudio, 2026]. 도구별, 패턴별, 디렉터리별로 권한을 설정할 수 있으며, 위험한 작업(파일 삭제, git push --force 등)은 기본적으로 사용자 승인을 요구합니다.

내장 분류기가 안전한 행동과 위험한 행동을 자동 구분하며, 기본 설정은 보수적입니다 [Anthropic, 2025]. 이것은 AutoRT의 Robot Constitution (→ Chapter 8)과 구조적으로 동일한 패턴입니다 — 사전에 정의된 규칙이 에이전트의 행동 공간을 제한합니다.

11.3 OpenAI Codex의 아키텍처

11.3.1 컨테이너 기반 샌드박스

Codex는 근본적으로 다른 접근을 취합니다. 각 작업이 클라우드의 격리된 컨테이너에서 실행되며, 작업 중에는 인터넷 접속이 차단됩니다 [OpenAI, 2025]. 에이전트는 GitHub 리포지터리를 통해 명시적으로 제공된 코드와 사전 설치된 의존성만 사용할 수 있습니다.

이 설계 철학은 격리를 통한 안전입니다. Claude Code가 사용자의 로컬 환경에서 실행되며 권한 모델로 안전을 보장하는 반면, Codex는 아예 격리된 환경에서 실행하여 위험을 원천 차단합니다. Landlock과 seccomp를 사용하며, 주요 에이전트 중 유일하게 샌드박싱이 기본 활성화되어 있습니다 [Wikipedia, 2026].

11.3.2 AGENTS.md — Claude Code의 CLAUDE.md에 대응

Codex는 AGENTS.md 파일로 프로젝트별 지침을 전달합니다 [OpenAI, 2025]. 코드베이스 탐색법, 테스트 실행 명령, 프로젝트 관행을 기술합니다. CLAUDE.md와 기능적으로 동일하지만, 명칭이 다릅니다. 두 시스템 모두 영속 프로젝트 메모리의 필요성에 독립적으로 수렴했다는 점이 주목할 만합니다.

11.3.3 codex-1에서 GPT-5.3-Codex로

Codex의 최초 모델 codex-1은 소프트웨어 엔지니어링에 최적화된 o3 변형이었습니다 [OpenAI, 2025]. 실제 코딩 작업에서 강화학습으로 훈련되었으며, 테스트가 통과할 때까지 반복적으로 코드를 실행합니다. 2026년 2월에는 GPT-5.3-Codex로 업그레이드되었고, 곧이어 실시간 대화형 코딩을 위한 저지연 변형인 GPT-5.3-Codex-Spark가 출시되었습니다 [OpenAI, 2026].

11.3.4 통합 서버 아키텍처

2026년 2월 기준으로 Codex는 CLI, VS Code 확장, 웹 앱, macOS 데스크톱 앱, JetBrains/Xcode 통합을 단일 "App Server" 아키텍처로 통합했습니다 [OpenAI, 2026]. 장시간 세션과 승인 요청이 클라이언트 인터페이스 간에 일관되게 유지됩니다. 이것은 다중 인터페이스에서의 세션 연속성 문제를 해결합니다.

11.4 공통 성공 패턴 분석

Claude Code와 Codex, 그리고 넓게는 2026년 에이전틱 코딩 생태계 전체에서 반복적으로 나타나는 성공 패턴을 종합합니다 [Springer, 2025; Anthropic, 2026].

패턴 1: 3층 메모리 — 영속 / 세션 / 검색

Claude Code Codex 기능
영속 (프로젝트) CLAUDE.md AGENTS.md 프로젝트 지식, 컨벤션
세션 (대화) 컨텍스트 윈도우 컨테이너 상태 현재 작업 맥락
검색 (온디맨드) Grep/Read/Glob 파일시스템 접근 코드베이스 탐색

두 시스템이 독립적으로 같은 3층 구조에 수렴한 것은 이것이 에이전틱 시스템의 필수 아키텍처임을 시사합니다.

패턴 2: 구조화된 피드백 루프

에러 → 구조화된 텍스트(스택 트레이스) → LLM 분석 → 표적 수정 → 재실행. 이 루프의 효율은 피드백의 구조성과 정확성에 정비례합니다. 컴파일러 에러는 정확한 파일과 줄을 지시하므로, LLM이 수정 대상을 즉시 식별합니다.

패턴 3: 도구 오케스트레이션

범용 도구(Bash/터미널) 대신 전문 도구(Read, Edit, Grep)를 라우팅합니다. 전문 도구는 (1) 안전하고, (2) 출력이 구조화되어 있으며, (3) 사용자 경험이 일관됩니다. 모델이 도구를 선택하고, 하네스가 도구 사용을 검증합니다.

패턴 4: 오케스트레이터 + 전문가 팀

범용 에이전트 하나가 모든 것을 처리하는 대신, 오케스트레이터가 작업을 분해하고 전문화된 서브에이전트에 위임합니다 [Springer, 2025]. 2024년 Q1에서 2025년 Q2 사이에 다중 에이전트 시스템 관련 문의가 1,445% 증가했습니다. "퍼펫티어(puppeteer)" 오케스트레이터가 전문가 에이전트를 조율하는 패턴이 표준으로 자리잡고 있습니다.

패턴 5: Test-Time Computation

codex-1은 테스트가 통과할 때까지 반복 실행합니다. Claude Code는 CI 실패 시 자동 수정을 시도합니다. 추론 시점에서의 반복 시도가 단일 패스보다 품질을 크게 향상시킵니다. 이것은 CaP-X (→ Chapter 3)가 로봇에 적용하려는 바로 그 원리입니다 — 에이전틱 스캐폴딩을 통한 시행착오 개선.

패턴 6: Human-in-the-Loop

두 시스템 모두 완전 자율과 완전 수동 사이의 스펙트럼을 제공합니다. Claude Code의 권한 모델, Codex의 승인 요청. 사용자가 자율성 수준을 조절할 수 있으며, 기본값은 보수적입니다. 신뢰가 쌓이면 자율성을 점진적으로 확대합니다.

11.5 Agentic Robotics로의 이식

이 6가지 패턴이 물리 세계에서 어떻게 대응되는지 매핑합니다.

3층 메모리 → 로봇의 기억 시스템

Agentic Coding Agentic Robotics 대응 시스템
CLAUDE.md (영속) 환경 지도 + 물체 속성 DB KARMA의 LTM (→ Ch.7)
컨텍스트 윈도우 (세션) 현재 작업의 씬 그래프 KARMA의 STM (→ Ch.7)
Grep/Read (검색) 공간-의미 검색 Embodied-RAG (→ Ch.7)

KARMA가 62.7배 효율 향상을 달성한 것은 이 3층 구조의 위력을 물리 세계에서 입증합니다. 그러나 근본적 차이가 있습니다: CLAUDE.md는 텍스트 파일이므로 읽기/쓰기가 밀리초 단위인 반면, 3D 씬 그래프의 실시간 업데이트는 센서 노이즈, 가림, 동적 변화와 싸워야 합니다.

구조화된 피드백 → VLM 기반 실패 진단

코딩의 스택 트레이스에 대응하는 것이 REFLECT의 VLM 기반 실패 요약입니다 (→ Chapter 8). 그러나 정확도가 69-79%로, "File X, Line Y, TypeError"의 사실상 100% 정확도와는 큰 간극이 있습니다. VeriGraph (→ Chapter 7)가 씬 그래프로 피드백을 구조화하려 하지만, 세밀한 조작 실패는 여전히 포착하지 못합니다.

핵심 연구 방향: 물리적 에러를 "코드 에러 수준"의 구조성으로 변환하는 것. 촉각 센서 데이터의 의미 변환, 힘-토크 프로파일의 자연어 기술, 멀티모달 실패 RAG가 유망합니다.

도구 오케스트레이션 → 스킬 라이브러리 + VLM 라우팅

Claude Code의 도구 라우팅은 BUMBLE의 스킬 라이브러리 + VLM 라우팅과 구조적으로 동일합니다 (→ Chapter 8). VLM이 상황을 관찰하고 적절한 스킬(내비게이션, 그래스핑, 서랍 열기 등)을 선택합니다. SayCan의 어포던스 함수 (→ Chapter 2)도 같은 원리입니다.

차이점: 코딩 도구는 결정론적이고 결과가 예측 가능하지만, 로봇 스킬은 확률적이고 실패할 수 있습니다. 따라서 로봇의 도구 오케스트레이션에는 실패 감지와 대안 선택 메커니즘이 추가로 필요합니다.

오케스트레이터 + 전문가 → Fleet 오케스트레이션

Claude Code의 서브에이전트 패턴은 AutoRT의 fleet 오케스트레이션 (→ Chapter 8)과 대응합니다. 중앙 오케스트레이터가 20대 이상의 로봇을 동시에 조율하며, 각 로봇은 전문화된 작업을 수행합니다. Robot Constitution이 안전 가드레일을 제공합니다.

차이점: 코딩의 서브에이전트는 git worktree로 격리되어 충돌이 없지만, 물리 로봇은 같은 공간을 공유하므로 충돌 회피, 자원 경쟁, 물리적 간섭을 추가로 관리해야 합니다.

이식의 핵심 교훈

공통점은 구조이고, 차이점은 매체입니다. 3층 메모리, 피드백 루프, 도구 오케스트레이션, 전문가 팀 — 이 구조적 원리는 매체에 무관하게 유효합니다. 그러나 디지털 매체의 세 가지 속성(결정론, 즉각성, 가역성)이 물리 매체에서 무너지므로, 각 구조적 원리의 구현 난이도가 근본적으로 달라집니다 (→ Chapter 10).

11.6 미래 전망: 물리 세계의 Claude Code

Agentic Coding의 성공 구조가 완전히 로봇에 이식된 시스템은 어떤 모습일까요?

영속 환경 메모리: 로봇이 CLAUDE.md처럼 환경의 "사용 설명서"를 유지합니다. "이 서랍은 왼쪽으로 당겨야 열린다", "거실 조명 스위치는 문 오른쪽에 있다" — 경험에서 학습한 환경 지식이 영구 저장되고 매 작업 시작 시 로드됩니다.

구조화된 물리 피드백: 촉각, 힘-토크, 시각을 융합하여 "스택 트레이스 수준"의 실패 보고서를 생성합니다. "Grasp failure at step 3: insufficient grip force (measured 2.1N, required 4.5N) due to wet surface — retry with increased force and slower approach."

전문가 로봇 팀: 내비게이션 전문 로봇, 정밀 조작 전문 로봇, 검사 전문 드론이 오케스트레이터의 조율 하에 협업합니다. 각 전문가가 실패하면 오케스트레이터가 대안을 선택합니다.

테스트-타임 시행착오: 시뮬레이션에서 여러 전략을 병렬로 시도하고, 가장 성공 확률이 높은 전략을 물리 세계에서 실행합니다. 실패 시 시뮬레이션으로 돌아가 재계획합니다.

이 비전의 각 요소는 이미 개별 연구에서 시연되었습니다. 통합이 남은 과제입니다.

11.7 결론

Agentic Coding 시스템의 성공은 모델 능력만으로 설명되지 않습니다. 40%의 하네스 엔지니어링 — 3층 메모리, 구조화된 피드백 루프, 전문 도구 오케스트레이션, 서브에이전트 팀, 권한 모델 — 이 성공의 필수 조건입니다.

이 구조적 원리는 매체에 무관합니다. KARMA의 메모리, REFLECT의 피드백, BUMBLE의 스킬 라우팅, AutoRT의 fleet 오케스트레이션은 모두 같은 원리의 물리 세계 구현입니다. 간극은 구조가 아닌 매체의 속성 — 비결정론, 지연, 비가역성 — 에서 비롯됩니다.

"물리 세계의 Claude Code"를 구축하는 것은 새로운 구조를 발명하는 것이 아닙니다. 이미 입증된 구조를 물리 세계의 제약 안에서 적응시키는 것입니다. 이 적응의 경로를 그리는 것이 이 책의 핵심 기여이며, 이 부록은 그 적응의 출발점 — 원본 구조의 상세한 청사진 — 을 제공합니다.

참고문헌

  1. The Register, "Claude Code's innards revealed as source code leaked online," theregister.com, April 2026. scholar
  2. MindStudio, "Claude Code Source Leak: The Three-Layer Memory Architecture and What It Means for Builders," mindstudio.ai/blog, 2026. scholar
  3. Rajiv Pant, "How Claude's Memory Actually Works (And Why CLAUDE.md Matters)," rajiv.com/blog, December 2025. scholar
  4. Penligent, "Inside Claude Code: The Architecture Behind Tools, Memory, Hooks, and MCP," penligent.ai, 2025. scholar
  5. VentureBeat, "Claude Code's source code appears to have leaked: here's what we know," venturebeat.com, 2026. scholar
  6. Anthropic, "Claude Code Best Practices," anthropic.com/engineering, 2025. scholar
  7. OpenAI, "Introducing Codex," openai.com/index/introducing-codex, May 2025. scholar
  8. OpenAI, "Introducing the Codex App," openai.com/index/introducing-the-codex-app, February 2026. scholar
  9. OpenAI, "Introducing upgrades to Codex," openai.com/index/introducing-upgrades-to-codex, 2026. scholar
  10. Wikipedia, "OpenAI Codex (AI agent)," en.wikipedia.org, 2026. scholar
  11. Morphllm, "Claude Code as Orchestrator: Inter-Agent Communication Protocols," morphllm.com, 2026. scholar
  12. Morphllm, "Claude Code Subagents: How They Work, What They See & When to Use Them," morphllm.com, 2026. scholar
  13. Paddo.dev, "Claude Code Auto-Fix: The PR That Fixes Itself," paddo.dev/blog, 2026. scholar
  14. Springer, "Agentic AI: A Comprehensive Survey of Architectures, Applications, and Future Directions," Artificial Intelligence Review, 2025. scholar
  15. Anthropic, "2026 Agentic Coding Trends Report," resources.anthropic.com, 2026. scholar
  16. Claude Code Docs, "Create custom subagents," code.claude.com/docs/en/sub-agents, 2026. scholar
  17. Claude Code Docs, "How Claude remembers your project," code.claude.com/docs/en/memory, 2026. scholar
  18. Dbreunig, "How Claude Code Builds a System Prompt," dbreunig.com, April 2026. scholar
  19. Liu, Z. et al., "REFLECT: Summarizing Robot Experiences for Failure Explanation and Correction," arXiv:2306.15724, 2023. scholar
  20. Wang, Z. et al., "KARMA: Augmenting Embodied AI Agents with Long-and-short Term Memory Systems," arXiv:2409.14908, 2024. scholar
  21. Xie, Q. et al., "Embodied-RAG: General Non-parametric Embodied Memory for Retrieval and Generation," arXiv:2409.18313, 2024. scholar
  22. Brohan, A. et al., "AutoRT: Embodied Foundation Models for Large Scale Orchestration of Robotic Agents," arXiv:2401.12963, 2024. scholar
  23. Shah, M. et al., "BUMBLE: Unifying Reasoning and Acting with VLMs for Building-wide Mobile Manipulation," arXiv:2410.06237, 2024. scholar
  24. Fu, M. et al., "CaP-X: A Framework for Benchmarking and Improving Coding Agents for Robot Manipulation," arXiv:2603.22435, 2026. scholar