AI 에이전트, 웹 앱 조작, API가 45배 더 저렴!
AI 에이전트(AI Agent)가 웹 앱을 조작하는 두 가지 방식, 즉 컴퓨터 사용(Computer Use)과 API 사용(API Use)의 비용을 비교 분석함.
API 사용 방식이 컴퓨터 사용 방식보다 45배 저렴하며, 특히 토큰 사용량(Token Consumption)과 실행 시간(Execution Time)에서 큰 차이를 보임.
컴퓨터 사용 방식은 UI 탐색을 위해 스크린샷(Screenshot)과 클릭(Click)을 사용하며, API 방식은 앱의 HTTP 엔드포인트(HTTP Endpoints)를 직접 호출함.
커뮤니티에서는 API가 없는 경우 컴퓨터 사용이 불가피하지만, 자체 개발 앱의 경우 API 설계를 통해 비용 효율성(Cost Efficiency)을 극대화해야 한다는 의견이 지배적임.
컴퓨터 사용 방식의 비효율성 분석
본 연구에 따르면, 컴퓨터 사용(Computer Use) 방식은 스크린샷 캡처 및 해석, UI 요소 클릭 등 일련의 과정을 거치므로 API 사용(API Use) 방식에 비해 훨씬 많은 토큰을 소비한다. 특히, 페이지 내 모든 정보를 파악하기 위해 여러 번의 스크롤 및 클릭을 수행해야 하므로, 실행 시간(Execution Time)이 길어지는 문제가 발생한다. 이러한 비효율성은 AI 모델(AI Model)의 성능 향상만으로는 해결하기 어렵다는 점이 강조된다.
API 사용 방식의 장점 및 구현
API 사용 방식은 앱의 HTTP 엔드포인트(HTTP Endpoints)를 직접 호출하여 필요한 데이터를 구조화된 형태로 얻으므로, 토큰 사용량(Token Consumption)을 대폭 줄일 수 있다. 또한, API를 통해 데이터에 직접 접근하므로, UI 요소의 변화에 영향을 받지 않고 안정적인 동작을 보장한다. Reflex 0.9와 같은 도구를 사용하면 API를 자동 생성하여 구현 비용을 더욱 낮출 수 있다.
AI 에이전트(AI Agent)의 UI 탐색 문제
연구 결과에 따르면, AI 에이전트(AI Agent)가 UI를 탐색하는 과정에서 페이지네이션(Pagination) 및 스크롤(Scroll)과 같은 기본적인 기능조차 제대로 인식하지 못하는 경우가 발생한다. 이는 AI 모델(AI Model)이 렌더링된 페이지를 시각적으로 해석하는 데 한계가 있기 때문이다. 이러한 문제를 해결하기 위해, UI 탐색 과정을 명시적으로 정의하는 워크스루(Walkthrough)를 작성해야 하는 경우가 발생한다.
API 설계의 중요성 및 자동화 도구
커뮤니티에서는 자체 개발 앱의 경우, API 설계(API Design)를 통해 AI 에이전트와의 효율적인 상호 작용을 가능하게 해야 한다는 점을 강조한다. 특히, Reflex 0.9와 같은 자동화 도구를 활용하여 API를 쉽게 생성하고 관리함으로써, 개발 생산성(Development Productivity)을 향상시킬 수 있다. 또한, API 명세(API Specification)를 명확하게 정의하여, AI 에이전트가 API를 더욱 정확하게 활용할 수 있도록 해야 한다.
컴퓨터 사용 방식의 한계와 대안
일부 의견에서는 API가 없는 경우, 컴퓨터 사용(Computer Use) 방식이 불가피하지만, UI 요소(UI Elements)의 동적인 변화에 취약하다는 점을 지적한다. 이러한 문제를 해결하기 위해, DOM(Document Object Model)을 활용하여 UI를 분석하고, API(Application Programming Interface)를 생성하는 방안이 제시된다. 또한, 접근성(Accessibility) API를 활용하여 UI 구조를 파악하고, AI 에이전트가 더욱 효율적으로 작동하도록 하는 방법도 고려할 수 있다.