데스크톱 작업을 자동화하는 Understudy, 데모 한 번으로!
Understudy는 데스크톱 앱, 브라우저, 터미널 등 다양한 환경을 통합하여 작업을 자동화하는 에이전트임
사용자가 작업을 한 번 시연하면, 에이전트가 의도를 파악하여 재사용 가능한 스킬로 변환하는 '데모 기반 학습' 방식을 채택함
현재 macOS 환경에서 작동하며, GUI 자동화(GUI Automation), 브라우저 제어, 쉘 도구 실행 등을 지원함
커뮤니티에서는 GUI 자동화의 한계와 다양한 환경 지원의 필요성에 대한 논의가 있었음
데모 기반 학습(Teach-by-Demonstration)의 기술적 특징
Understudy는 사용자의 시연을 통해 작업을 학습하는 데모 기반 학습 방식을 사용한다. 이는 단순히 GUI 좌표(GUI Coordinates)를 기록하는 것이 아니라, 시연의 의도(Intent)를 추출하여 재사용 가능한 스킬로 변환하는 것을 목표로 한다. 특히, AI 모델(AI Model)을 활용하여 시연 내용을 분석하고, 다양한 실행 경로(Route)를 탐색하여 최적의 방법을 선택한다. 이러한 접근 방식은 GUI 변경이나 환경 변화에도 유연하게 대처할 수 있도록 설계되었다.
GUI 자동화(GUI Automation)의 한계와 극복 전략
Understudy는 GUI 자동화를 핵심 기능으로 제공하지만, GUI의 취약성(Brittle)을 인지하고 있다. 따라서 GUI에만 의존하지 않고, API 호출, CLI 도구, 브라우저 확장 기능 등 다양한 실행 경로(Execution Route)를 함께 활용한다. 특히, GUI가 실패할 경우 AppleScript와 같은 대체 수단을 통해 작업을 완료하는 방식을 채택하여, 시스템의 안정성(Stability)을 높이는 데 주력한다.
다중 채널 지원 및 아키텍처
Understudy는 터미널, 웹, 모바일, 메시징 앱 등 다양한 채널(Channel)을 지원하며, 단일 게이트웨이(Gateway)를 통해 모든 채널을 통합한다. 이러한 아키텍처는 여러 앱 간의 데이터 흐름(Data Flow)을 조정하고, 작업을 병렬로 처리할 수 있도록 설계되었다. 또한, 정책 파이프라인(Policy Pipeline)을 통해 안전성, 신뢰성, 로깅을 관리하며, 각 스킬의 실행 단계를 수동, 제안, 자동 실행으로 구분하여 자율성(Autonomy)을 점진적으로 높여나간다.
커뮤니티의 주요 논의 및 비판
커뮤니티에서는 Understudy의 macOS 종속성(Dependency)에 대한 아쉬움과 Linux 및 Windows 지원에 대한 기대를 표명했다. 또한, 데모 기반 학습의 견고성(Robustness)에 대한 의문과 실패 시나리오(Failure Scenario)에 대한 대처 방안에 대한 질문이 제기되었다. 특히, GUI 자동화의 한계와 다양한 환경 지원(Multi-Environment Support)의 필요성에 대한 논의가 활발하게 이루어졌다.