브라우저에서 구동되는 AI 비서, API 키 없이 개인 정보 보호!
Gemma Gem은 WebGPU를 활용하여 브라우저 내에서 Gemma 4(2B) 모델을 실행하여 웹 페이지와 상호 작용함
API 키 없이 작동하며, 페이지 읽기, 클릭, 양식 작성, JavaScript 실행 등의 기능을 제공하여 데이터 미저장 정책(Zero-Retention Policy)을 구현함
보안 문제와 세션 지속성에 대한 우려가 제기되었으며, SDK 형태로의 확장을 통해 활용성을 높일 수 있다는 의견이 제시됨
Prompt API와 같은 웹 표준 API의 등장을 통해 브라우저 내 AI 모델 실행이 더욱 보편화될 가능성이 제기됨
Gemma Gem 아키텍처 분석
Gemma Gem은 오프스크린 문서(Offscreen Document), 서비스 워커(Service Worker), 콘텐츠 스크립트(Content Script)로 구성된 Chrome 확장 프로그램이다. 오프스크린 문서는 @huggingface/transformers를 사용하여 모델을 로드하고, 에이전트 루프를 실행한다. 서비스 워커는 콘텐츠 스크립트와 오프스크린 문서 간의 메시지를 라우팅하며, 스크린샷 캡처(Screenshot Capture) 및 JavaScript 실행을 처리한다. 콘텐츠 스크립트는 챗 UI와 DOM 도구를 주입하여 웹 페이지와 상호 작용한다.
보안 및 신뢰성 문제
커뮤니티에서는 2B 모델에 JavaScript 실행 권한을 부여하는 것이 보안상 위험할 수 있다는 우려를 표명했다. 특히, 브라우저의 라이프사이클에 의존하는 에이전트의 상태가 탭 종료 시 손실되는 문제도 지적되었다. 데이터 미저장 정책(Zero-Retention Policy)을 통해 개인 정보 보호를 강화했지만, 데이터 격리 아키텍처(Data Isolation Architecture)를 추가하여 보안을 더욱 강화할 필요가 있다.
SDK 형태의 확장 가능성
일부 개발자는 Gemma Gem을 SDK 형태로 제공하여, 앱 개발자가 데이터 미저장 정책(Zero-Retention Policy)을 준수하면서 민감한 정보를 처리하는 데 활용할 수 있도록 하는 방안을 제시했다. 이는 사용자가 로컬 LLM을 설정해야 하는 번거로움을 줄여, AI 모델 통합(AI Model Integration)의 접근성을 높일 수 있다. SDK는 멀티모달 분석(Multimodal Analysis)을 위한 기반을 제공할 수 있다.
WebGPU 및 Prompt API의 미래
Prompt API와 같은 웹 표준 API의 등장은 브라우저 내 AI 모델 실행을 더욱 용이하게 할 것으로 예상된다. 이는 OS 내장 LLM과 같은 기술과의 통합을 가능하게 하여, AI 모델의 접근성(AI Model Accessibility)을 높일 수 있다. 하지만, 모델 크기가 브라우저 자체보다 커지는 문제와 같은 기술적 과제는 여전히 존재한다.