AI 에이전트, llms.txt 무시하고 웹 페이지 직접 분석

by DD
3개월 전
조회수 26

llms.txt는 AI 에이전트가 웹사이트 콘텐츠를 이해하도록 돕기 위한 제안이나, 실제 사용 사례는 미미함

200만 건 이상의 AI 에이전트 요청 분석 결과, llms.txt 요청은 단 한 건도 발견되지 않음

AI 에이전트는 일반 웹 페이지를 직접 요청하고, HTML을 파싱하여 정보를 추출하는 방식으로 작동함

웹사이트의 AI 가독성(AI-readability)을 높이는 것이 llms.txt보다 더 효과적일 수 있다는 결론

llms.txt의 낮은 활용도

분석 결과에 따르면, llms.txt는 AI 에이전트가 웹사이트를 이해하는 데 현재 거의 사용되지 않는 것으로 나타났다. SonicLinker의 데이터에 따르면, 200만 건 이상의 AI 에이전트 요청에서 llms.txt에 대한 요청은 전혀 감지되지 않았다. 이는 llms.txt가 제안된 표준임에도 불구하고, ChatGPT, Claude, Perplexity 등 주요 LLM 시스템에서 아직 널리 채택되지 않았음을 의미한다.

AI 에이전트의 웹 탐색 방식

AI 에이전트는 llms.txt 대신, 일반적인 웹 페이지를 요청하고 HTML을 파싱하여 정보를 추출하는 방식으로 웹을 탐색한다. 특히, 검색 엔진(Search Engine)이나 내부 지식을 통해 페이지를 찾고, 전체 HTML을 요청한 후 텍스트를 추출하며, 필요에 따라 링크를 따라 추가 페이지를 가져오는 과정을 거친다. 이러한 방식은 llms.txt와 같은 별도의 메타데이터 파일(Metadata File) 없이도 웹사이트의 정보를 효과적으로 수집할 수 있음을 시사한다.

AI 가독성(AI-readability)의 중요성

AI 에이전트가 웹사이트를 더 쉽게 이해하도록 하려면, llms.txt보다 웹사이트 자체의 AI 가독성을 높이는 것이 중요하다. 깨끗한 HTML 구조(Clean HTML Structure), 명확한 제목, 문서 스타일의 콘텐츠, 최소한의 클라이언트 측 JavaScript, 그리고 읽기 쉬운 텍스트 콘텐츠가 AI 에이전트의 정보 추출 능력을 향상시킨다. 반면, 복잡한 JavaScript 렌더링, 깊이 중첩된 UI 구성 요소, 이미지에 포함된 텍스트는 AI 에이전트가 정보를 해석하기 어렵게 만든다.

robots.txt 및 sitemap.xml과의 비교

댓글에서는 robots.txt의 준수 여부에 대한 질문이 제기되었으며, 이는 AI 에이전트가 웹사이트 지침을 얼마나 따르는지에 대한 중요한 질문을 던진다. 또한, sitemap.xml과 같은 다른 지침 파일의 중요성도 언급되었다. 이러한 파일들은 AI 에이전트가 웹사이트를 탐색하고 콘텐츠를 이해하는 데 중요한 역할을 할 수 있으며, llms.txt와 비교하여 더 널리 사용될 가능성이 있다.

We analyzed millions of AI-agent requests. None asked for LLMs.txt.