Gemini API로 웹 브라우저를 제어

by DD
5개월 전
조회수 11

Gemini API 또는 Vertex AI를 사용하여 웹 브라우저를 제어하는 에이전트

자연어 명령어를 통해 웹 페이지 탐색 및 상호 작용 수행

Playwright 또는 Browserbase 환경에서 실행 가능하며, 자동화 테스트에 적합

자연어 이해 기반 브라우저 자동화 아키텍처

이 도구는 Gemini API를 활용하여 사용자의 자연어 쿼리를 이해하고, 이를 기반으로 Playwright 또는 Browserbase를 통해 웹 브라우저를 제어한다. 구체적으로, 사용자의 명령을 분석하여 브라우저 내에서 클릭, 입력, 스크롤 등의 액션을 수행한다. 따라서, 웹 자동화 작업의 생산성 향상을 기대할 수 있다.

Playwright vs Browserbase: 환경 설정 비교

Playwright는 로컬 환경에서 브라우저를 실행하므로, 설정이 간단하지만, 운영체제 종속적인 문제가 발생할 수 있다. 반면, Browserbase는 클라우드 기반 브라우저 서비스를 사용하므로, 환경 설정의 복잡성을 줄이고, Cross-Platform 호환성을 확보한다. 따라서, 안정적인 웹 자동화 환경 구축을 위해 Browserbase를 고려할 수 있다.

도입 시 고려 사항 및 해결 과제

Playwright의 `<select>` 요소 캡처 문제는 이 도구의 주요 과제 중 하나이다. Browserbase를 사용하거나, `proxy-select` 스크립트를 주입하여 해결할 수 있다. 결과적으로, 특정 웹사이트와의 호환성을 위해 지속적인 유지보수가 필요하며, Gemini API의 사용량 제한을 고려하여 설계를 최적화해야 한다.

google-gemini / computer-use-preview