토큰맥싱은 끝났다, 이제는 머지맥싱: AI 코드 리뷰의 비용과 품질

해당 블로그는 Yiwen Xu, Li Ye 원저자의 글 'Out with Tokenmaxxing. In with Mergemaxxing'을 번역한 것입니다. 더 나은 이해를 위해서 약간의 의역이 반영되었습니다.

2022년 말 이후 토큰 가격은 98% 하락했지만 기업의 AI 청구서는 세 배로 뛰었습니다. TechCrunch에 따르면 Uber는 2026년 AI 코딩 예산 전체를 4월에 모두 소진했습니다. Gartner는 2027년이 되면 소비량 기반 과금 AI 코딩 도구를 쓰는 기업 중 40%가 예상 예산의 두 배를 넘는 비용을 마주하게 되며 체계적인 비용 관리와 최적화 전략의 수요가 커질 것이라 예측합니다. 한동안 업계는 토큰 소비량을 야망의 대리 지표로 취급했습니다. 에이전트가 토큰을 많이 태울수록 더 "AI에 진심인" 회사라는 식이었죠.

이 논리에는 결함이 있습니다. 토큰은 투입(input)이지 성과(outcome)가 아니기 때문입니다. 여기엔 굿하트의 법칙(Goodhart's Law)이 그대로 적용됩니다. 토큰 소비량이 일단 목표가 되는 순간, 효과성을 재는 유용한 척도이기를 멈춥니다. 업계는 이미 한 번 같은 교훈을 배운 적이 있습니다. 개발자 생산성을 코드 라인 수(lines of code)로 재던 시절이죠. 지금은 토큰으로 그 교훈을 다시 배우는 중이며 초점은 "지출한 달러당 성과"를 측정하는 쪽으로 옮겨가고 있습니다.

이 문제가 가장 중요하게 작동하는 영역이 바로 AI 코드 리뷰입니다. 여러분이 돈을 주고 사는 성과는 토큰맥싱(tokenmaxxing)이 아니라, 자신감을 가지고 머지하고 배포하는 고품질 코드입니다. 그렇다면 여러분이 선택하는 시스템은 저희가 머지맥싱(merge maxxing)이라 부르는 것에 최적화되어 있어야 합니다. 품질이나 비용을 희생하지 않으면서 머지되는 풀 리퀘스트(PR)의 속도를 극대화하는 것이죠. 그런데 대부분의 시스템은 품질과 비용을 동시에 최적화하도록 만들어져 있지 않습니다.

비용을 따지지 않는 품질: 무차별 대입 방식

AI 코드 리뷰의 한 가지 접근은 토큰 지출을 극대화해 품질을 끌어올리는 방식입니다. 예를 들어 Cursor의 Bugbot은 출시 당시 모든 PR에 대해 여덟 번의 병렬 리뷰 패스를 돌리고 다수결 투표로 잡음을 걸러냈습니다. 오늘날에는 모델이 "어디를 더 깊이 파고들지 스스로 결정하는" 완전한 에이전트형 설계로 바뀌었습니다. 런타임에 원하는 컨텍스트를 무엇이든 끌어오고 "수상한 패턴은 전부 조사하라"고 부추기는 프롬프트로 방향을 잡습니다.

해당 글은 품질 지표를 끌어올리기 위한 40번의 실험을 상세히 소개합니다. 그러나 토큰 비용은 한 번도 언급하지 않습니다. 다시 말해 영리하게 접근하는 대신 그냥 더 많은 마력을 들이붓기로 한 셈입니다.

이 방식은 작동하고 정밀한 리뷰를 만들어냅니다. 다만 에이전트가 얼마나 탐색할지를 스스로 정하는 구조에서는 매 리뷰의 비용에 상한이 없는 경우가 많습니다.

Cursor의 Bugbot은 최근 소비량 기반 과금을 도입했습니다. PR 크기와 복잡도에 따라 실행 1회당 $1.00~$1.50을 부과합니다. 한 커뮤니티 멤버는 이를 PR당 $7~$10.50으로 추정했는데 월 15~~20개의 PR을 내는 개발자라면 **사용자당 월 $105~~$210**에 해당합니다. 그 비효율은 고스란히 여러분에게 전가됩니다.

범용 하니스: 리뷰에는 과하고 토큰으로 청구되는

또 다른 흔한 접근은 범용 프론티어 코딩 에이전트를 여러분의 PR에 그대로 들이대는 방식입니다. 이 하니스는 기능 작성, 스프레드시트 제작, 문서 초안 작성까지 무엇이든 할 수 있도록 만들어져 있습니다. 코드 리뷰에서는 이 유연성이 오히려 오버헤드가 되며 시스템은 목적에 맞게 설계된 리뷰어라면 이미 알고 있을 컨텍스트를 다시 발견하느라 상당한 토큰을 태웁니다.

그 결과는 비용은 비싼데 잡아내는 버그는 더 적을 수도 있는 리뷰입니다. 코드 리뷰에 Claude Code Review를 쓰는 경우가 그 예인데, PR당 평균 $15~$25가 토큰 사용량 기준으로 청구되며 PR 복잡도에 따라 늘어납니다. 일반적인 작업 속도라면 사용자당 월 $225~$500입니다. 그리고 인센티브 구조도 눈여겨볼 만합니다. 벤더가 토큰 단위로 청구할 때, 하니스가 태우는 모든 토큰은 곧 매출이거든요.

두 길 모두 결국 리뷰를 배급제로 만든다

이런 도구들의 숨은 비용은 행동의 변화에서 옵니다. 그리고 시간이 지나면 이는 품질 문제로 번집니다. 리뷰에 미터기가 달리면 지출 통제가 곧 품질 통제가 됩니다. 이런 도구들은 보통 리뷰가 언제 트리거되는지, 얼마나 자주 도는지, 리뷰어가 얼마만큼의 노력을 들이는지를 팀이 직접 설정하게 해 줍니다.

문제는 청구서를 관리하려고 리뷰 동작을 조정하기 시작하는 그 순간, 여러분은 동시에 어떤 코드가 검토를 받을지를 결정하고 있다는 점입니다. 어떤 팀은 "중요한" PR만 리뷰하고 수정 후 재리뷰는 건너뛰며 또 한 번 반복(iteration)을 밀어 넣기 전에 한 번 더 망설이게 됩니다.

물론 건너뛴 리뷰마다 버그가 배포된다는 뜻은 아닙니다. 다만 가장 고치기 싼 초기 단계에서 잡히는 이슈가 줄어듭니다. 리뷰를 배급제로 운영하면 그 비용이 하류로, 즉 결함을 고치기가 더 어렵고 더 비싼 프로덕션 가까이로 밀려납니다.

CodeRabbit: 품질과 비용을 끈질기게 함께 최적화한다

저희는 팀이 품질과 비용 사이에서 하나를 골라야 한다고 보지 않습니다. 잘 설계된 리뷰 시스템이라면 둘 다를 제공하면서 효율적이고 정확해야 합니다. 모델의 컨텍스트 윈도우에 들어간 무관한 토큰 하나하나는 모델의 주의를 흐리고 진짜 버그를 놓칠 확률을 높입니다. 시스템에서 낭비를 걷어내는 그 규율이, 동시에 리뷰를 정확하게 만드는 규율이기도 합니다.

Signal65의 실측 평가에서는 6개 오픈소스 레포의 실제 과거 버그를 대상으로 5개의 AI 리뷰 도구를 테스트했는데 CodeRabbit은 크래시, 보안 취약점, 데이터 손실 같은 가장 치명적인 버그를 **95.88%의 정밀도(precision)**로 찾아냈습니다. 두 축을 동시에 선도한 유일한 도구였습니다. 정밀도에서 가장 가까운 경쟁 도구는 치명적 버그를 28% 더 적게 발견했습니다. Martian의 평가도 같은 양상을 보였습니다. CodeRabbit이 F1 점수에서 앞섰고 코드 리뷰에서 더 중요한 재현율(recall), 즉 시스템이 실제 이슈를 얼마나 잡아내는지를 재는 지표에서도 선두였습니다.

산점도: CodeRabbit이 AI 코드 리뷰 정밀도와 치명적 버그 탐지에서 경쟁 도구를 앞섭니다.

모든 PR이 이와 같은 수준의 리뷰를 받고 덕분에 팀은 자신감을 가지고 머지하고 배포할 수 있습니다. 내부적으로 이 성과는 두 가지 접근(토큰 최적화, 비용 최적화)과 세 가지 핵심 기술(컨텍스트 디서플린, 스마트 LLM 라우팅, 프롬프트 캐싱)이 함께 맞물려 나옵니다.

CodeRabbit의 최적화 다이어그램. 토큰, 비용, 컨텍스트 디서플린, LLM 라우팅, 프롬프트 캐싱을 보여 줍니다.

토큰 최적화: 컨텍스트를 설계하다

더 나은 리뷰는 더 잘 선별된 컨텍스트에서 나옵니다. 이를 컨텍스트 디서플린(context discipline)이라 부르며 컨텍스트 엔지니어링(context engineering)의 한 갈래입니다. CodeRabbit은 이 기술을 컨텍스트 엔진에 녹여, LLM에 무관한 정보를 잔뜩 들이붓거나 리뷰를 더 정확하게 만들 결정적 컨텍스트를 빠뜨리는 일을 피합니다.

모든 레이어에서의 증류(distillation). 코드 그래프, MCP 연동, 문서, 코딩 가이드라인, 학습 내용, 정적 분석 출력에 이르기까지 모든 컨텍스트 소스는 처리 레이어를 거치며 지금 다루는 PR과 관련된 부분만 추출됩니다. CodeRabbit은 리뷰어에게 더 나은 컨텍스트를 주기 위해 입력 토큰의 상당 부분을 이 보강(enrichment) 단계에 의도적으로 씁니다. 여러분의 PR이 호출하는 함수가 수백 줄짜리일 수도 있지만 리뷰 에이전트에게는 그 함수가 무슨 일을 하는지에 대한 정확한 요약 한 줄이면 충분할 때가 많거든요.

열린 탐색이 아니라 도메인 전문성. CodeRabbit은 경험 많은 엔지니어처럼 리뷰에 접근합니다. 좋은 리뷰어가 추론을 시작하기 전에 필요한 기준 신호가 무엇인지 저희는 이미 알고 있습니다. 그래서 그 발견 과정을 에이전트에게 통째로 맡기지 않습니다.

CodeRabbit은 하이브리드 AI 접근을 써서 결정론적 분석과 에이전트형 추론을 결합합니다. 모든 PR에 대해 결정론적 코드 그래프를 먼저 구축하므로, 에이전트 단계가 시작될 무렵이면 에이전트는 이미 아키텍처와 호출 경로, 그리고 관련 코드가 어디 있는지를 파악하고 있습니다. 발견 경로는 설계상 좁습니다. 어디서 시작해야 하는지를 저희가 알려 주니까요. 그래서 "어떻게 찾아낼지"를 알아내는 데 토큰을 더 쓸 필요가 없습니다.

미로를 헤매는 에이전트와 명확하게 표시된 경로를 대비한 CodeRabbit 다이어그램 CodeRabbit의 다이어그램은 미로를 탐색하는 에이전트와 명확하게 표시된 경로를 대비합니다.

비용 최적화: 지출을 설계하다

비용 최적화란 품질을 잃지 않으면서 남은 토큰 하나하나를 최대한 싸게 만드는 일입니다.

스마트 LLM 라우팅(Smart LLM Routing). CodeRabbit에는 모델을 지속적으로 평가하고 벤치마킹하는 전담 엔지니어링 팀이 있습니다. 어떤 모델이 시스템을 어디서 개선하는지, 어디서는 비용만 더하는지, 어디서는 더 작은 모델이 일을 더 잘 해내는지를 파악합니다.

소형 모델은 증류를 담당하고 가장 큰 다단계 추론 모델은 더 깊은 분석이 빛을 발하는 리뷰 에이전트에만 배정합니다. 더 큰 모델이 자동으로 더 나은 것은 아닙니다. 그 정도의 추론이 필요 없는 작업에서는 오히려 지연(latency)과 잡음, 불필요한 복잡성을 더할 수 있습니다. 작업별 라우팅은 시스템의 각 부분을 가장 잘 맞는 일에 매칭해 효율과 리뷰 품질을 함께 높여 줍니다.

프롬프트 캐싱(Prompt Caching)을 활용한 지능형 증분 리뷰. CodeRabbit은 모든 후속 리뷰를 증분(incremental) 방식으로 처리합니다. 바뀌지 않은 코드는 처음부터 다시 리뷰하지 않고 긴 프롬프트에서 안정적인 부분은 매 반복마다 다시 넣는 대신 캐싱할 수 있습니다. 이를 프롬프트 캐싱이라 하며 리뷰어가 실제로 바뀐 부분에 주의와 추론, 토큰을 집중하게 해 줍니다.

목적에 맞게 설계된 효율, 고객에게 그대로 전달된다

토큰 최적화와 비용 최적화는 저희 고객에게 그대로 전달됩니다. 많은 팀이 자체 AI 리뷰 시스템을 만들면서 출발하지만 토큰 지출이 얼마나 빠르게 불어나는지를 미처 깨닫지 못합니다. 리뷰 파이프라인의 모든 작업에 프론티어 모델을 쓰면 특히 그렇죠. 어떤 고객들은 소규모 팀임에도 이미 토큰 비용으로만 월 수천 달러를 쓰고 있고 이 방식은 확장되지 않는다고 말합니다.

토큰 비용은 문제의 일부일 뿐입니다. 모델 라우팅, 컨텍스트 증류, 벤치마킹, 그리고 쏟아지는 새 모델을 따라잡는 일에는 대부분의 팀이 직접 갖추기 어려운 전문성과 인프라가 필요합니다. CodeRabbit은 그 복잡성을 대신 흡수해 고객을 위한 비즈니스 가치로 바꿔 냅니다.

작은 최적화가 큰 차이를 만든다

저희 VP of AI인 David Loker가 진행한 내부 실험에서, 그는 도메인 지능이나 컨텍스트 엔지니어링이 전혀 없는 단순한 리뷰 시스템을 만들어 봤습니다. 이 시스템은 버그 하나를 찾는 데 약 20만 토큰을 소모했습니다. 도메인 정보를 반영한 약간의 최적화를 더하자, 개선된 버전은 같은 버그를 총 약 1만 8천 토큰으로 찾아냈습니다. 디프 자체에 약 1만 7천 토큰, 거기에 타깃 컨텍스트로 약 1천 토큰만 추가됐을 뿐이죠. 총 토큰의 91% 감소입니다.

CodeRabbit이 AI 코드 리뷰에서 최고의 ROI를 제공하는 이유

그리고 이건 단순한 최적화 루프 하나에 불과했습니다. AI 코드 리뷰의 선구자로서 CodeRabbit은 지난 3년간 컨텍스트 디서플린, 스마트 LLM 라우팅, 프롬프트 캐싱 뒤에 있는 엔지니어링과 기술을 다듬어 왔습니다. 그렇게 누적된 최적화가 고객에게 곧바로 전달됩니다. 저희는 어떤 컨텍스트가 중요한지, 어떤 신호가 잡음을 더하는지, 어떤 리뷰 패턴이 실제로 버그를 잡는지를 알고 있고 지금도 계속 다듬는 중입니다.

이것이 CodeRabbit이 코드 리뷰에서 최고의 ROI를 제공하는 방식입니다. 팀은 높은 성능과 예측 가능한 좌석(seat) 기반 가격, 그리고 고처리량 에이전트 루프를 위한 유연한 사용량 기반 추가 옵션을 함께 얻고 그 위에서 자신감을 가지고 고품질 코드를 배포합니다.

토큰이 아니라 머지를 극대화하라

AI 코드 리뷰의 목적은 토큰을 더 많이 소비하는 데 있지 않습니다. 팀이 더 나은 코드를 더 빠르게 배포하도록, 프로덕션 이슈는 더 적게, 리뷰 병목은 덜 겪도록 돕는 데 있습니다.

CodeRabbit이 제공하는 것이 바로 그것입니다. 모든 PR에 대한 고품질 리뷰죠. 개발자는 또 한 번의 리뷰가 청구서를 들일 만한 값어치가 있는지 고민하지 않고도 지속적인 피드백을 받습니다. 엔지니어링 리더는 리뷰 품질이 토큰 지출에 따라 배급되는 게 아니라 팀과 함께 확장된다는 확신을 얻습니다.

머지맥싱이 더 나은 지표입니다. 모든 PR이 리뷰되고 진짜 이슈가 일찍 잡히며 개발자가 자유롭게 반복하고 코드가 자신감 속에 배포됩니다.

토큰 극대화는 끝났습니다. 이제는 머지 극대화입니다.

자신감을 가지고 고품질 코드를 배포할 준비가 되셨나요? 14일 무료 체험을 시작하거나 영업팀에 문의해서 예측 가능한 비용으로 여러분의 레포에서 최고 수준의 리뷰 성능이 어떤 모습인지 직접 확인해 보세요.

관련 글로 AI 코딩의 숨은 비용은 AI 때문이 아니다와 사내 AI 코드 리뷰 도구의 진짜 비용을 다룬 직접 만든 AI 코드 리뷰 도구의 비용, 그리고 멀티 레포 분석을 함께 읽어 보시길 권합니다.

CodeRabbit 시작하기