OpenAI, 브라우저 직접 조작하는 CUA 모델 탑재, 美 Pro 사용자 대상 연구 미리보기로 시작

발행: 2026년 3월 8일

오픈AI가 스스로 웹을 탐색하고 작업을 수행하는 AI 에이전트 '오퍼레이터'를 공개했다.

[한국정보기술신문] 오픈AI가 2025년 1월 23일, 사용자를 대신해 웹 브라우저를 직접 조작하는 인공지능 에이전트 '오퍼레이터(Operator)'를 공개했다. 기존 챗GPT가 텍스트 기반의 정보 제공에 머물렀다면, 오퍼레이터는 실제 화면을 보고 클릭하고 입력하는 방식으로 온라인 업무를 자율적으로 수행한다는 점에서 AI 기술의 새로운 국면을 열었다는 평가를 받고 있다.

오퍼레이터는 오픈AI의 신규 모델인 CUA(Computer-Using Agent)를 기반으로 작동한다. CUA는 GPT-4o의 시각 인식 기능과 강화학습 기반의 추론 능력을 결합한 모델로, 화면에 표시되는 버튼, 메뉴, 텍스트 입력창 등 그래픽 사용자 인터페이스(GUI)를 이해하고 조작할 수 있다. 덕분에 별도의 API 연동 없이도 일반 웹사이트에서 양식 작성, 물품 주문, 식당 예약 등 다양한 작업을 처리할 수 있다.

사람처럼 웹을 보고 움직인다

오퍼레이터가 기존 자동화 도구와 가장 다른 점은 웹 페이지의 스크린샷을 분석해 상황을 판단하고, 마우스 클릭과 키보드 입력을 통해 실제 행동을 취한다는 것이다. 작업 도중 오류가 발생하거나 예기치 못한 상황이 생기면 자체적으로 판단해 수정을 시도하며, 해결이 어려운 경우에는 사용자에게 제어권을 넘겨 협력적으로 작업을 마무리한다.

반복적인 업무에는 프롬프트 저장 기능을 활용할 수 있으며, 인스타카트에서의 식료품 재주문이나 오픈테이블 예약처럼 정기적으로 수행하는 작업을 간편하게 처리할 수 있다. 또한 여러 대화창을 동시에 열어 복수의 작업을 병렬로 처리하는 멀티태스킹도 지원한다. 특정 사이트별 맞춤 지시 설정도 가능해, 예를 들어 항공권 예약 사이트에서는 선호 좌석 등급을 미리 설정해둘 수 있다.

안전 장치와 한계

오퍼레이터는 출시 초기부터 안전 문제를 중점적으로 다루고 있다. 총기, 도박 등 민감한 분야의 사이트는 사전 차단되며, 결제나 이메일 발송처럼 되돌리기 어려운 작업을 실행하기 전에는 반드시 사용자에게 확인을 요청한다. 악성 프롬프트 삽입과 같은 보안 위협을 자동으로 감지해 작업을 중단하는 기능도 포함되어 있다.

다만 현재 기술적 한계도 존재한다. 마우스 움직임 패턴이나 이전 접속 기록 등을 바탕으로 봇을 판별하는 캡차(CAPTCHA) 및 봇 감지 시스템을 통과하지 못하는 경우가 많아, 최적화되지 않은 사이트에서는 작업이 중단되는 일이 잦다. 오픈AI는 현재 WebArena와 WebVoyager 등 주요 웹 에이전트 벤치마크에서 최고 수준의 성적을 기록하고 있다고 밝혔지만, 아직 사람의 수준에는 미치지 못한다고 인정했다.

DoorDash, Uber 등 주요 기업과 협력

오픈AI는 오퍼레이터의 실용성을 높이기 위해 DoorDash, 인스타카트, 오픈테이블, 프라이스라인, 스텁허브, 썸택, 우버 등 다수의 기업과 협력 관계를 구축했다. 이들 기업과의 협업을 통해 오퍼레이터가 실제 소비자 서비스 환경에서 원활하게 작동하도록 최적화를 진행 중이며, 공공 부문 업무 효율화에도 활용 가능성이 있다고 밝혔다.

출시 당시에는 미국 내 월 200달러 ChatGPT Pro 구독자에게만 제공되었으며, 이후 Plus, Team, Enterprise 사용자로 순차 확대할 계획이었다.

ChatGPT 에이전트로 완전 통합

2025년 7월 17일, 오픈AI는 오퍼레이터를 별도 서비스로 유지하는 대신 ChatGPT에 완전히 통합하며 'ChatGPT 에이전트(ChatGPT agent)'로 진화시켰다. 딥 리서치의 정보 분석 능력, 오퍼레이터의 웹 조작 능력, ChatGPT의 대화 능력을 하나로 결합한 형태다. 기존 오퍼레이터 전용 사이트(operator.chatgpt.com)는 수 주 내에 종료될 예정이며, 사용자는 ChatGPT 작성창의 드롭다운에서 '에이전트 모드'를 선택해 동일한 기능을 이용할 수 있다. 현재 Pro, Plus, Team 사용자에게 제공되며, 웹 브라우저 조작부터 슬라이드 제작, 경비 처리까지 폭넓은 작업을 하나의 대화에서 처리할 수 있게 됐다.

오퍼레이터의 등장과 ChatGPT 에이전트로의 진화는 AI가 단순히 질문에 답하는 도구에서 벗어나, 사용자의 지시에 따라 디지털 세계에서 능동적으로 행동하는 존재로 전환되고 있음을 보여준다.

한국정보기술신문 인공지능분과 성연주 기자 news@kitpa.org

OpenAI, 브라우저 직접 조작하는 CUA 모델 탑재, 美 Pro 사용자 대상 연구 미리보기로 시작

사람처럼 웹을 보고 움직인다

안전 장치와 한계

DoorDash, Uber 등 주요 기업과 협력

ChatGPT 에이전트로 완전 통합

함께 읽으면 좋은 기사

[백준 서비스 종료 ⑫] 데이원컴퍼니, 같은 날 'BOJ 부활'과 '개인정보 유출' 동시에...코딩 테스트 명소 백준 온라인 저지 되살리며 보안 사고로 신뢰 시험대

유니티 게임 끊김의 주범은 '가비지 컬렉션'...힙 할당 줄여야 프레임 멈춤 막는다

넥슨, '크레이지 아케이드' 8월 13일 서비스 종료...25년 만에 막 내려, 환불 신청은 9월 16일까지

구글, 텍스트 4배 빠르게 짓는 실험 모델 '디퓨전젬마' 공개...토큰 하나씩 잇는 대신 256개 한꺼번에 생성, 26B MoE 구조로 소비자용 GPU서 구동

앤트로픽, 미토스급 모델에 30일 데이터 보관·검토 도입...6월 9일 시행, 오용 패턴 탐지 위한 안전 조치

구글, 학생·학부모 기말시험 대비 위한 'AI 학습 도구 5가지' 소개...자료 한데 모아 학습 가이드·맞춤 퀴즈 만들고 유튜브엔 사용시간 제한·자녀 보호 기능까지

기후에너지환경부, 전기차 공공충전 봄철 주말 할인 실적 공개...17일간 7만9천여 건 충전·7천5백만 원 환원, 낮 시간대 이용 9.2% 늘어

설치 없이 브라우저로 돌리는 오픈소스 지리정보시스템 'GeoLibre' 공개...PC·웹·모바일서 같은 화면으로 위성·드론 지도 다루고 공간 SQL·파이썬 연동까지

구글, 크롬 AI 비서 '제미나이' 신흥 시장으로 확대...중남미·아프리카·중동 등 데스크톱·iOS 이용자에 적용, 이미지 변환·맞춤형 답변 기능도 추가

일부 참여자만 '적대적 훈련'해도 AI 방어력 오른다...공주대·조선대 연구팀, 연합학습 강건성 실험 결과 공개

컴퓨터 비전 라이브러리 'OpenCV 5' 정식 출시...DNN 엔진 새로 짜 ONNX 80% 넘기고 LLM·VLM까지 직접 구동

신경망을 반도체 회로로 직접 새긴다...FPGA에 'KAN' 올려 나노초급 추론·실시간 학습 구현...연구진 "기존 KAN-FPGA보다 2700배 빨라"