AI 코딩 에이전트의 숨겨진 진짜 비용은 AI가 아닌 '의도 어긋남'

해당 블로그는 Gur Singh의 글 'Misalignment: The hidden cost of AI coding agents isn't from AI at all'을 번역한 것입니다. 더 나은 이해를 위해서 약간의 의역이 반영되었습니다.

AI 에이전트를 둘러싼 열띤 논쟁은 마치 축구 운영 시뮬레이션 게임에서의 이적시장과도 같습니다. 어떤 모델이 더 똑똑한지, 이번 주 벤치마크 1위가 누군지, 어떤 모델이 더 잘 "추론"하는지를 두고 벌이는 끝없는 토론이 블로그와 SNS를 가득 채우고 있죠. 하지만 실제 개발 현장에서는 이런 차이보다 훨씬 중요한 문제가 있습니다. 바로 시간과 비용을 조용히 갉아먹는 '의도 어긋남(Misalignment)'입니다.

모든 사람이 놓치고 있는 진짜 문제

개발자들은 트위터에서 AI 결과물을 한 줄씩 비교하고, 추론 품질의 미세한 차이로 논쟁하며, 새 옷으로 갈아입듯 모델을 바꿔가며 사용합니다. 이번에야말로 이 모델이 모든 문제를 해결해 줄 거라는 믿음으로요. 하지만 대부분의 팀에게 이런 차이가 AI로 개발이 빨라지는지를 좌우하지는 않습니다.

AI가 생성한 코드가 엉망이 될 때, 보통 모델이 충분히 똑똑하지 않아서가 아닙니다. 에이전트가 개발자의 실제 의도를 전혀 몰랐기 때문입니다. 코드는 완벽하게 유효하고, 논리적으로 탄탄하고, 솔직히 인상적일 수도 있습니다. 하지만 여전히 당신의 팀, 코드베이스, 제품에는 완전히 틀렸을 수 있죠.

이런 차이는 재작업으로, 반복되는 프롬프트 수정으로, 의도를 뒤늦게 설명하는 긴 리뷰 스레드로 나타납니다. 더 심한 경우에는 개발자가 직접 코드를 작성하는 시간보다 AI 아웃풋을 수정하는 시간을 더 많이 쓰게 됩니다.

AI 에이전트 사용 시 성공을 좌우하는 가장 중요한 요소는 어떤 모델을 선택했느냐가 아니라 팀이 어떻게 도입하느냐입니다. 이런 "어긋난 의도"는 조용히 누적되는 문제라서, 모든 사람이 벤치마크 논쟁에 몰두하는 사이 천천히 시간을 갉아먹습니다.

AI의 속도가 기존 문제를 증폭시켰습니다

AI 에이전트가 등장하기 전에는 의도가 어긋나는 일이 짜증나긴 했지만 견딜 만했습니다. 코드 작성에는 시간이 걸렸고, 요구사항이 애매하거나 가정이 틀렸다면 보통 코드를 작성하다가 중간에 발견하거나 리뷰 과정에서 알아차렸습니다. 피드백 루프는 느렸지만 관대했습니다.

하지만 지금은 다릅니다. 에이전트가 몇 초 만에 수백, 수천 줄의 코드를 생성할 수 있지만, 요구사항이 애매한지 확인하고 멈추지는 않습니다. 확인 질문을 하지도, "이거 좀 명세가 부족한 것 같은데요"라고 말하지도 않습니다. 그냥 진행합니다. 자신만만하게, 당신이 의도했을 거라고 추측하는 방향으로요.

작은 오해였던 것이 거대한 diff가 되어 리뷰해야 할 대상이 됩니다. 간단한 확인이었던 것이 전면 재작성이 됩니다. 그리고 갑자기 PR을 보며 "기술적으로는 맞다. 실용적으로는 쓸 수 없다"고 생각하게 됩니다. 팀들이 AI 때문에 동시에 더 빨라지기도, 더 느려지기도 한다고 느끼는 이유가 바로 이것입니다.

실행은 바로 됩니다. 하지만 수정은 다릅니다. 에이전트가 빠를수록, 불분명한 의도는 더 큰 비용이 됩니다.

간과된 비용: 끝없는 AI 재작업

AI 아웃풋이 안 좋을 때, 실패처럼 보이는 경우는 거의 없습니다. 대신 반복작업처럼 보이죠. 에이전트를 실행하고, 결과가 거의 맞지만 뭔가 부족해서 프롬프트를 수정합니다. 그리고 또 수정합니다. 맥락을 더 추가하고, 엣지 케이스를 명확히 하고, 에이전트를 다시 실행합니다. 요즘은 이게 진전이라고 여겨집니다.

각 사이클은 별것 아닌 것처럼 느껴집니다. 하지만 이런 사이클이 쌓이다 보면 어느새 프롬프트를 다시 쓰고, 생성된 코드를 검토하고, 의도를 설명하는 데 한 시간을 썼는데 정작 작업은 전혀 진전되지 않았다는 걸 깨닫게 됩니다.

게다가 이런 비용은 팀 내에서 고르게 발생하지도 않습니다. 모든 사람이 코딩 에이전트용 프롬프트를 잘 작성하는 건 아니거든요. 어떤 사람은 효율적으로 프롬프트를 작성하지만, 다른 사람은 결과물을 수정하느라 몇 시간을 허비하기도 합니다.

재작업은 다양한 형태로 나타납니다. 명시적으로 내려지지 않은 결정을 해명하느라 길어진 PR 스레드. 기술적으로는 테스트를 통과하지만 팀 컨벤션을 위반하는 코드. 엔지니어가 속으로 *'차라리 내가 직접 짜는 게 나았을 텐데'*라고 생각하며 다음번에는 AI 사용을 포기하고, 결국 팀 전체의 AI 도입률이 떨어지는 현상.

의도 전달이 부정확할수록 비용이 높아집니다. 놓친 가정 하나하나가 재프롬프팅, 리뷰, 재작성으로 이어집니다. 더 심한 경우에는 프로덕션에서 버그나 다운타임으로 이어지기도 하죠.

"어긋난 의도"의 연쇄반응

워크플로우 초기에 발생한 의도 어긋남은 단 하나의 문제만 일으키지 않습니다. 연쇄반응을 일으키죠. 처음부터 의도가 명확하지 않으면 에이전트가 빈틈을 임의로 채웁니다. 그러면 거의 맞는 코드가 나오는데, 그럴듯해 보이지만, 다른 곳에서 추가 작업을 만들어낼 만큼은 틀려 있습니다.

갑자기 리뷰가 어려워지고, 테스트가 복잡해지고, PR의 절반을 직접 다시 작성해야 하는 상황이 벌어지죠. 간단한 해명이었을 것이 긴 리뷰 스레드가 되고, 빠른 결정이었을 것이 후속 미팅이 됩니다. 깔끔한 한 줄 변경이었을 것이, 코드의 동작과 팀의 의도를 맞추기 위한 연쇄 패치가 됩니다.

"어긋난 의도"는 일찍 발견하면 비용이 적게 들지만, 늦게 발견하면 비쌉니다. 코드가 일단 존재하면 모든 수정의 영향 범위가 넓어집니다. 단순히 의도를 수정하는 게 아니라 구조를 되돌리고, 가정을 리팩토링하고, 애초에 누구도 명시적으로 내리지 않은 결정들을 설명해야 합니다.

AI가 이런 문제를 새로 만들어내는 것은 아닙니다. 원래 소프트웨어 개발에 있던 문제들, 즉 불분명한 의도와 엇갈린 기대를 더 빠르게 증폭시킬 뿐입니다. 예전에는 간단한 대화로 명확히 해결할 수 있었던 문제였죠. 하지만 에이전트는 너무 빨라서 어긋난 방향을 전속력으로 이후 모든 과정에 퍼뜨립니다.

솔루션: 협업 계획

협업 계획은 까다로운 결정들을 가장 비용이 적게 들 때, 즉 코드가 생성되기 전에 내리도록 해줍니다. 에이전트가 추측하기 시작하기 전에, 가정들이 수백에서 수천 줄의 결과물에 굳어지기 전에 이런 결정들을 해결해야 합니다.

한 사람이 혼자 '올바른 방향'을 정해서 프롬프트에 넣거나, 더 나쁘게는 에이전트에게 맡기는 대신, 팀이 미리 합의합니다. 범위는 명시적이고, 가정은 투명하며, 성공 기준은 공유됩니다. 의도가 누군가의 머릿속에 머물지 않고 팀 전체가 검토할 수 있는 결과물로 남게 되죠.

이렇게 되면 전체 프로세스가 바뀝니다. 에이전트는 즉흥적으로 만들지 않고, 리뷰는 가벼워지며, 재작업은 대폭 줄어듭니다. 협업 계획은 팀의 속도를 늦추거나 프로세스를 추가하는 게 아닙니다. 나중에 조용히 시간을 갉아먹는 종류의 의도 어긋남을 방지하는 것입니다.

CodeRabbit Issue Planner를 만든 이유

몇 년간 CodeRabbit은 AI 코딩 에이전트의 문제들이 가장 명확하게 드러나는 곳, 바로 코드 리뷰 현장에 있었습니다. 팀, 언어, 스택을 가리지 않고 같은 패턴이 반복되는 걸 봤습니다. 기술적으로는 동작하지만 핵심을 놓친 생성 코드, 아무도 기억하지 못하는 결정을 설명하는 긴 PR 스레드, 그리고 일찍 발견됐어야 할 가정들을 반복해서 수정하는 상황을 봤습니다.

실제로 최근 연구에서 이런 문제들이 사람이 작성한 코드보다 1.7배 더 많이 나타난다는 걸 확인했습니다. 계속해서 같은 결론에 도달했습니다. 문제는 코드에서 시작된 게 아니라 코드가 존재하기 전에 시작됐다는 것이었습니다.

아웃풋을 리뷰하는 것만으로는 더 이상 충분하지 않았습니다. 재작업을 줄이고, 품질을 높이고, 실제로 팀이 AI로 더 빠르게 움직일 수 있게 도우려면 더 앞단계로 가야 했습니다.

CodeRabbit Issue Planner 작동 방식

CodeRabbit Issue Planner는 이슈 트래커(현재 Linear, Jira, GitHub Issues 지원)에 직접 연결되어 다음과 같이 작동합니다.

자동 컨텍스트 구성: 이슈가 생성되면 시스템이 접근 방식, 코드베이스 변경 사항, 작업 단계를 포함한 코딩 계획을 자동으로 생성합니다.
컨텍스트 보강: 이슈 히스토리, 문서, 코드베이스 세부사항 등 조직의 실제 지식이 계획에 반영됩니다.
팀 리뷰: 구조화된 계획은 편집 가능한 형태로 제공되어, 팀원들이 가정을 다듬고 함께 반복 수정할 수 있습니다.
프롬프트 생성: 최종 확정된 고품질 프롬프트 패키지가 코딩 에이전트 실행을 위해 준비됩니다.
명확한 실행: 에이전트가 요구사항을 추측하는 대신, 명시적인 가이드를 받아 코드를 생성합니다.

진짜 중요한 지표를 측정하세요

AI를 잘 활용하는 팀은 벤치마크 점수를 쫓지 않습니다. 재작업을 줄이고, 혼선을 최소화하고, 코드 생성 전에 방향을 맞추는 프로세스를 최적화합니다. AI 시대에 코딩 자체는 점점 쉬워지고 있습니다. 진짜 중요한 작업은 코드 작성이 아니라 그 이전의 계획 단계로 옮겨가고 있죠.

의도와 범위에 대한 인간의 판단은 자동화할 수 없습니다. 다만 협업 계획을 통해 더 효율적으로 만들 수 있을 뿐입니다.