LLM이 HTML을 보고 페이지를 '상상'하는 브라우저 등장!

by DD
4주 전
조회수 10

'Cursed Browser'는 기존 렌더링 엔진 대신 VLM(Visual LLM)을 사용하여 HTML을 분석하고 페이지를 생성함

매번 다른 결과가 나타나는 독특한 렌더링 방식(Unique Rendering)을 특징으로 하며, AI 네이티브(AI Native) 접근 방식을 표방함

V1 버전은 오픈 소스로 공개되었으며, V2 버전은 LLM이 매번 새로운 브라우저 엔진을 생성하는 방식으로 개발될 예정임

성능 및 효율성(Performance and Efficiency)에 대한 기대와 함께, 기술적 구현 방식에 대한 다양한 의견이 제시됨

VLM 기반 렌더링의 기술적 도전

Cursed Browser는 기존 렌더링 엔진의 역할을 VLM(Visual LLM)으로 대체하여, HTML을 입력으로 받아 페이지를 시각적으로 생성한다. 이는 토큰 단위(Token-by-Token)로 HTML을 분석하고, CSS를 예측하여 픽셀을 생성하는 방식으로 작동한다. 기술적으로는 흥미롭지만, AI 환각(Hallucination)으로 인해 페이지의 일관성을 보장하기 어렵다는 단점이 존재한다.

성능 및 효율성 트레이드오프(Trade-offs)

V1 버전은 현재 오픈 소스로 공개되어 있으며, V2 버전에서는 LLM이 매번 새로운 브라우저 엔진을 생성하는 방식을 채택할 예정이다. 이는 페이지에 필요한 기능만 지원하여 불필요한 리소스 낭비(Resource Waste)를 줄이는 것을 목표로 한다. 하지만, 매번 새로운 엔진을 생성하는 과정에서 초기 로딩 시간(Initial Loading Time)이 길어질 수 있다는 점은 극복해야 할 과제이다.

AI 네이티브(AI Native) 브라우저의 미래

Cursed Browser는 'AI 네이티브'라는 새로운 접근 방식을 제시하며, 기존 브라우저와는 차별화된 사용자 경험을 제공하고자 한다. 이는 AI 기술의 발전(AI Advancement)과 함께 웹 브라우저의 새로운 패러다임(New Paradigm)을 제시할 가능성을 보여준다. 하지만, 표준 웹 기술과의 호환성(Compatibility)사용자 편의성(Usability) 확보는 중요한 과제로 남아있다.

cursed_browser: A web browser with no rendering engine — the VLM reads the HTML and hallucinates the page