코딩 에이전트는 어떻게 실패하는가
코딩 에이전트를 실무에 붙여 보면 실패는 대개 세 가지 모양입니다. 첫째, 절반만 구현하고 완료라고 선언합니다. 테스트를 건너뛰거나 엣지 케이스를 잊은 채로 끝났다고 보고합니다. 둘째, 충분히 합의되지 않은 설계로 곧장 코드를 쏟아낸 뒤에야 방향이 틀렸음을 깨닫습니다. 셋째, 한 모델의 판단을 그대로 믿었다가 그 모델의 사각지대에 함께 빠집니다.
세 가지 모두 모델의 지능 문제가 아닙니다. 일을 시키는 방식, 곧 하네스의 문제입니다. oh-my-claudecode(OMC)는 이 세 구멍에 각각 대응하는 워크플로를 제공합니다.
ralplan은 코드를 짜기 전에 합의를 강제한다
ralplan은 합의 기반 계획 워크플로입니다. Planner가 원칙과 결정 동인, 둘 이상의 선택지를 정리하면 Architect가 가장 강한 반론을 세우고, Critic이 검증 기준과 테스트 가능한 수용 조건을 따집니다.
핵심은 루프입니다. Critic이 승인할 때까지 Planner와 Architect, Critic을 최대 다섯 번 다시 돕니다. 그리고 계획이 통과하기 전에는 파일 한 줄 건드리지 않습니다. 설계 단계의 실수를 코드로 옮기기 전에 잡는 구조입니다.
ralph는 검증을 통과해야 완료다
ralph는 지속성 루프입니다. 작업을 테스트 가능한 유저 스토리로 쪼개 prd.json에 적고, 스토리마다 통과할 때까지 반복합니다. 진행과 학습은 세션 사이에 보존되어, 중간에 멈춰도 이어서 일합니다.
가장 중요한 차이는 완료의 정의입니다. ralph는 자기 자신이 '다 했다'고 말하는 것으로 끝나지 않습니다. 별도의 리뷰어가 수용 조건에 맞춰 검증한 뒤에야 완료를 인정합니다. 부분 구현을 완료로 둔갑시키거나 테스트를 지워 통과시키는 일을 구조가 막습니다.
ccg는 한 모델에 기대지 않는 교차 리뷰다
ccg는 Claude·Codex·Gemini 세 모델을 묶는 교차 리뷰입니다. 같은 문제를 Codex에는 아키텍처와 정합성, 리스크와 테스트 전략 관점으로, Gemini에는 사용성과 대안, 문서 명료성 관점으로 동시에 묻습니다.
그다음 Claude가 두 답을 종합합니다. 특히 두 모델의 결론이 갈리는 지점이 가장 값집니다. 한 모델이 놓친 맹점을 다른 모델이 드러내기 때문입니다. 단일 모델 리뷰의 확증 편향을 구조적으로 깎아냅니다.
설치와 AX 관점
설치는 두 경로입니다. 플러그인은 /plugin install oh-my-claudecode, npm은 npm i -g oh-my-claude-sisyphus@latest로 받은 뒤 /oh-my-claudecode:omc-setup으로 설정합니다. 교차 리뷰를 쓰려면 Codex CLI(npm install -g @openai/codex)와 Gemini CLI(npm install -g @google/gemini-cli)를 함께 설치합니다.
기업 AX 현장에서 'AI 써 봤는데 별로던데요'라는 말의 대부분은 모델이 아니라 하네스에서 나옵니다. 같은 모델이라도 합의 없이 달리면 헛돌고, 검증 없이 멈추면 거짓 완료가 쌓이고, 한 모델만 믿으면 사각지대를 못 봅니다. 모델을 바꾸기 전에 일하는 방식을 먼저 바꿔야 합니다.