정보기술 · 인공지능 ·
에이전틱 코딩의 한계 지적..."생산성 향상 못해, 대안 필요"...AI 코딩 도구의 새로운 방향 제시
함수형 프로그래밍 전문가, 챗봇 방식 코딩 도구 비판하며 차분한 기술 설계 원칙 강조
[한국정보기술신문] 인공지능 기반 코딩 도구에 대한 논쟁이 뜨겁게 달아오르고 있는 가운데, 함수형 프로그래밍 언어 하스켈 커뮤니티의 저명한 개발자가 현재의 에이전틱 코딩 방식에 근본적인 문제를 제기했다. 2월 9일 가브리엘라 고잘레스는 에이전틱 코딩이 개발자의 생산성을 실제로 향상시키지 못하고 있으며, 코드베이스에 대한 친숙도를 오히려 떨어뜨린다고 주장했다.
에이전틱 코딩은 AI가 개발자의 지시에 따라 자동으로 코드를 작성하고 파일을 생성하며 전체 기능을 구현하는 방식의 개발 도구를 의미한다. 커서, 윈드서프, 데빈 같은 도구들이 대표적이며, 2025년 하반기부터 업계의 주목을 받아왔다. 그러나 고잘레스는 10년 이상의 개발자 생산성 도구 개발 경험과 오픈소스 프로젝트 기여를 바탕으로 이러한 도구들의 효과에 의문을 제기했다.
면접과 연구로 입증된 생산성 저하
고잘레스는 에이전틱 코딩 도구의 문제점을 여러 관점에서 지적했다. 우선 본인이 직접 사용했을 때 결과물의 품질이 일관되게 기대에 미치지 못했다고 밝혔다. 더욱 주목할 만한 점은 면접 과정에서의 발견이다. 면접 응시자들에게 에이전틱 코딩 도구 사용을 허용했을 때, 이를 활용한 응시자들이 오히려 도구를 사용하지 않은 응시자들보다 일관되게 낮은 성과를 보였다. 과제를 완료하지 못하거나 잘못된 결과물을 제출하는 경우가 많았다는 것이다.
학계의 연구 결과도 이러한 주장을 뒷받침한다. 베커 연구와 션 연구 등은 에이전틱 코딩 사용자들이 코드 작성 속도나 분량이 아닌 고정된 결과물을 기준으로 측정했을 때 성과가 나아지지 않거나 오히려 악화되는 것을 보여주었다. 코드를 빨리 많이 작성하는 것과 실제 문제를 효과적으로 해결하는 것 사이에는 큰 차이가 있다는 점이 드러난 셈이다.
챗 인터페이스의 근본적 한계
에이전틱 코딩이 생산성을 저해하는 이유로 고잘레스는 챗 에이전트 방식의 인터페이스가 갖는 세 가지 근본적 한계를 꼽았다. 첫째, 간접성이다. 개발자가 코드가 아닌 에이전트와 더 많이 상호작용하게 되면서 코드 자체에 대한 직접적인 이해와 통제가 약화된다. 둘째, 속도 문제다. 에이전트의 응답을 기다리는 시간이 상당하여 작업 흐름이 끊긴다. 셋째, 부정확성이다. 자연어 영어는 프로그래밍 언어에 비해 훨씬 둔탁하고 모호한 인터페이스다.
더욱이 챗 에이전트는 사용자가 지속적으로 자극해야만 새로운 정보를 제공하거나 코드에 대한 이해를 업데이트한다. 수동적이고 조용하게 개발자의 이해를 돕는 방식이 아니라는 것이다. 고잘레스는 이러한 챗 에이전트들이 사용자 참여를 극대화하도록 파인튜닝되어 있다는 점도 문제로 지적했다.
차분한 기술로서의 대안
대안으로 고잘레스는 차분한 기술 설계 원칙에 기반한 여러 접근 방식을 제안했다. 가장 초기의 좋은 예로는 깃허브 코파일럿의 인라인 제안 기능을 들었다. 개발자가 여전히 코드와 직접 상호작용하며, 제안이 빠르게 제공되고, 필요시 무시하거나 타이핑으로 덮어쓸 수 있다는 점에서 챗봇 방식보다 우수하다는 평가다.
더 나아가 고잘레스는 몇 가지 혁신적인 도구 개념을 제시했다. 의미론적 파싯 트리를 활용한 파일 브라우징 시스템은 코드의 의미에 따라 파일을 자동으로 분류하고 탐색할 수 있게 한다. 자동 커밋 재구성 기능은 편집 세션이나 풀 리퀘스트를 더 집중된 여러 커밋으로 자동 분할해 리뷰를 용이하게 만든다. 이는 대부분의 에이전틱 코딩 도구가 오히려 인간의 리뷰 부담을 증가시키는 것과 대조적이다.
또한 포커스 온과 에디트 애즈라는 두 가지 도구 개념도 제안됐다. 포커스 온 기능은 사용자가 관심 있는 변경 사항을 명시하면 관련된 파일과 코드 라인만 편집기에 표시한다. 예를 들어 명령줄 옵션에 집중하고 싶다면 관련 파일과 코드만 보여주는 식이다. 에디트 애즈 기능은 이맥스 디자인에서 영감을 받은 것으로, 코드를 다양한 관점에서 편집할 수 있게 한다.
업계 반응과 향후 전망
이러한 주장은 개발자 커뮤니티에서 활발한 논의를 불러일으켰다. 해커뉴스와 롭스터스 같은 기술 포럼에서는 AI 코드 리뷰 스타트업들이 완전 자동화에 집중하기보다는 인간 소비에 최적화된 리뷰 플랜을 생성하는 데 초점을 맞춰야 한다는 의견이 제시됐다. 커밋을 독립적으로 리뷰 가능한 부분으로 분할하고, 파일을 적절한 순서로 정렬하며, 유닛 테스트로 검증 가능한 세부 구현은 숨기는 방식이 필요하다는 것이다.
한편 일부 개발자들은 타입체커도 고잘레스가 지적한 문제들과 동일한 특성을 갖고 있다며 반론을 제기하기도 했다. 타입체커 역시 개발자의 주의를 요구하고, 코드와 개발자 사이에 위치하며, 차분함을 해친다는 주장이다. 또 다른 의견으로는 문제를 누군가와 대화하며 풀어가는 것이 가장 생산적인 방법이라는 점에서 챗 인터페이스 자체가 나쁜 것은 아니라는 지적도 있었다.
2026년 현재 AI 코딩 도구 시장은 세 가지 접근 방식으로 분화된 상태다. 커서, 윈드서프, 클라인 같은 IDE 통합 도구는 편집기 내에서 실시간으로 변경 사항을 확인하고 승인할 수 있다. 오픈AI 데브 엔진, 구글 줄스, 앤트로픽 코워크 같은 클라우드 우선 플랫폼은 격리된 샌드박스에서 작업을 실행한다. 데빈 같은 완전 자율 에이전트는 월 500달러의 높은 비용으로 엔터프라이즈 시장을 겨냥하고 있다.
기술 시장 분석 기관들은 2026년을 에이전틱 개발의 성숙기로 전망하고 있다. 초기의 과장된 기대를 넘어 실제로 개발자 워크플로우를 지원하고 신뢰할 수 있는 제품을 만드는 데 집중할 시기라는 것이다. 개발자들은 이미 대규모 언어 모델이 무엇을 달성할 수 있는지는 확신하지만, 장기적으로 자신들의 작업 방식을 지원할 수 있는 제품인지에 대해서는 여전히 확신이 필요한 상황이다.
고잘레스는 에이전틱 코딩이 완전히 실패한 분야라고 보지는 않지만, 현재의 형태로는 소프트웨어 개발에 득보다 실이 많다고 주장한다. 개발자의 역량을 강화하고 코드 품질을 향상시키는 방향으로 에이전틱 코딩의 부족함을 개선해야 한다는 것이다. 동시에 AI를 소프트웨어 개발에 활용하는 다른 방법들도 적극 모색해야 한다고 강조했다. 에이전틱 코딩이 문화적 상상력을 너무 독점하면서 AI 지원 소프트웨어 개발의 다른 좋은 솔루션들이 충분히 탐구되지 못하고 있다는 지적이다.
한국정보기술신문 인공지능분과 김주호 기자 news@kitpa.org