정보기술 · 인공지능 ·
OpenAI, 브라우저 직접 조작하는 CUA 모델 탑재, 美 Pro 사용자 대상 연구 미리보기로 시작
오픈AI가 스스로 웹을 탐색하고 작업을 수행하는 AI 에이전트 '오퍼레이터'를 공개했다.
[한국정보기술신문] 오픈AI가 2025년 1월 23일, 사용자를 대신해 웹 브라우저를 직접 조작하는 인공지능 에이전트 '오퍼레이터(Operator)'를 공개했다. 기존 챗GPT가 텍스트 기반의 정보 제공에 머물렀다면, 오퍼레이터는 실제 화면을 보고 클릭하고 입력하는 방식으로 온라인 업무를 자율적으로 수행한다는 점에서 AI 기술의 새로운 국면을 열었다는 평가를 받고 있다.
오퍼레이터는 오픈AI의 신규 모델인 CUA(Computer-Using Agent)를 기반으로 작동한다. CUA는 GPT-4o의 시각 인식 기능과 강화학습 기반의 추론 능력을 결합한 모델로, 화면에 표시되는 버튼, 메뉴, 텍스트 입력창 등 그래픽 사용자 인터페이스(GUI)를 이해하고 조작할 수 있다. 덕분에 별도의 API 연동 없이도 일반 웹사이트에서 양식 작성, 물품 주문, 식당 예약 등 다양한 작업을 처리할 수 있다.
사람처럼 웹을 보고 움직인다
오퍼레이터가 기존 자동화 도구와 가장 다른 점은 웹 페이지의 스크린샷을 분석해 상황을 판단하고, 마우스 클릭과 키보드 입력을 통해 실제 행동을 취한다는 것이다. 작업 도중 오류가 발생하거나 예기치 못한 상황이 생기면 자체적으로 판단해 수정을 시도하며, 해결이 어려운 경우에는 사용자에게 제어권을 넘겨 협력적으로 작업을 마무리한다.
반복적인 업무에는 프롬프트 저장 기능을 활용할 수 있으며, 인스타카트에서의 식료품 재주문이나 오픈테이블 예약처럼 정기적으로 수행하는 작업을 간편하게 처리할 수 있다. 또한 여러 대화창을 동시에 열어 복수의 작업을 병렬로 처리하는 멀티태스킹도 지원한다. 특정 사이트별 맞춤 지시 설정도 가능해, 예를 들어 항공권 예약 사이트에서는 선호 좌석 등급을 미리 설정해둘 수 있다.
안전 장치와 한계
오퍼레이터는 출시 초기부터 안전 문제를 중점적으로 다루고 있다. 총기, 도박 등 민감한 분야의 사이트는 사전 차단되며, 결제나 이메일 발송처럼 되돌리기 어려운 작업을 실행하기 전에는 반드시 사용자에게 확인을 요청한다. 악성 프롬프트 삽입과 같은 보안 위협을 자동으로 감지해 작업을 중단하는 기능도 포함되어 있다.
다만 현재 기술적 한계도 존재한다. 마우스 움직임 패턴이나 이전 접속 기록 등을 바탕으로 봇을 판별하는 캡차(CAPTCHA) 및 봇 감지 시스템을 통과하지 못하는 경우가 많아, 최적화되지 않은 사이트에서는 작업이 중단되는 일이 잦다. 오픈AI는 현재 WebArena와 WebVoyager 등 주요 웹 에이전트 벤치마크에서 최고 수준의 성적을 기록하고 있다고 밝혔지만, 아직 사람의 수준에는 미치지 못한다고 인정했다.
DoorDash, Uber 등 주요 기업과 협력
오픈AI는 오퍼레이터의 실용성을 높이기 위해 DoorDash, 인스타카트, 오픈테이블, 프라이스라인, 스텁허브, 썸택, 우버 등 다수의 기업과 협력 관계를 구축했다. 이들 기업과의 협업을 통해 오퍼레이터가 실제 소비자 서비스 환경에서 원활하게 작동하도록 최적화를 진행 중이며, 공공 부문 업무 효율화에도 활용 가능성이 있다고 밝혔다.
출시 당시에는 미국 내 월 200달러 ChatGPT Pro 구독자에게만 제공되었으며, 이후 Plus, Team, Enterprise 사용자로 순차 확대할 계획이었다.
ChatGPT 에이전트로 완전 통합
2025년 7월 17일, 오픈AI는 오퍼레이터를 별도 서비스로 유지하는 대신 ChatGPT에 완전히 통합하며 'ChatGPT 에이전트(ChatGPT agent)'로 진화시켰다. 딥 리서치의 정보 분석 능력, 오퍼레이터의 웹 조작 능력, ChatGPT의 대화 능력을 하나로 결합한 형태다. 기존 오퍼레이터 전용 사이트(operator.chatgpt.com)는 수 주 내에 종료될 예정이며, 사용자는 ChatGPT 작성창의 드롭다운에서 '에이전트 모드'를 선택해 동일한 기능을 이용할 수 있다. 현재 Pro, Plus, Team 사용자에게 제공되며, 웹 브라우저 조작부터 슬라이드 제작, 경비 처리까지 폭넓은 작업을 하나의 대화에서 처리할 수 있게 됐다.
오퍼레이터의 등장과 ChatGPT 에이전트로의 진화는 AI가 단순히 질문에 답하는 도구에서 벗어나, 사용자의 지시에 따라 디지털 세계에서 능동적으로 행동하는 존재로 전환되고 있음을 보여준다.
한국정보기술신문 인공지능분과 성연주 기자 news@kitpa.org