프론트엔드 개발자를 위한 SEO 완벽 가이드: 크롤링부터 AI 검색까지

by DD
2주 전
조회수 42

검색엔진이 사이트를 검색 결과에 노출하기 위한 크롤링, 인덱싱, 랭킹 과정을 설명하며, 크롤링의 중요성을 강조함

robots.txt 설정, sitemap 관리, 내부 링크 최적화 등 기술적 SEO(Technical SEO)의 핵심 요소들을 프론트엔드 개발자 관점에서 제시함

Next.js와 같은 프레임워크에서 robots.txtsitemap을 관리하는 방법과, canonical 태그의 중요성을 설명함

AI 검색 엔진의 등장에 따라 GPTBot, OAI-SearchBot 등 봇(Bot)의 역할 분화와, 각 AI 서비스별 검색 노출 전략의 차이점을 분석함

Google Search Console, Bing Webmaster Tools, 네이버 서치어드바이저검색엔진 웹마스터 도구를 활용한 사이트 상태 확인 방법을 제시함

크롤링, 인덱싱, 랭킹: 검색엔진의 작동 원리

검색엔진은 크롤링(Crawling), 인덱싱(Indexing), 랭킹(Ranking) 세 단계를 거쳐 검색 결과를 제공한다. 크롤링은 크롤러가 웹 페이지를 발견하고 수집하는 과정이며, 링크(Link)를 따라 이동하거나 sitemap을 참조한다. 인덱싱은 수집된 페이지의 내용을 분석하여 데이터베이스에 저장하는 단계로, 페이지 제목, 키워드 등을 파악한다. 랭킹은 사용자의 검색어에 가장 적합한 페이지를 순서대로 보여주는 단계이다. 크롤링 실패는 인덱싱 불가로 이어지며, 이는 랭킹 참여 기회조차 얻을 수 없음을 의미한다.

robots.txt: 크롤러에게 길을 안내하는 첫걸음

robots.txt는 사이트 루트에 위치한 텍스트 파일로, 크롤러에게 탐색 허용/금지(Allow/Disallow)를 알려주는 역할을 한다.

robots.txt 부재 시: 크롤러는 일반적으로 모든 페이지에 접근 가능하며, sitemap 명시를 통한 크롤링 효율 향상 기회 상실

Disallow: / 설정 시: 전체 사이트 차단으로 검색 결과 노출 불가

핵심 디렉터리 차단: /product/, /service/ 등 중요 페이지 누락

Next.js, Nuxt.js와 같은 프레임워크에서는 robots.txt를 직접 관리해야 하며, 배포 후 200 응답 확인이 필수적이다.

sitemap: 사이트 구조를 크롤러에게 전달

sitemap은 사이트 내 페이지 목록을 크롤러에게 제공하여 크롤링 효율을 높이는 역할을 한다.

robots.txt에 sitemap 경로 미등록 시: 크롤러가 sitemap을 찾기 어려움

sitemap URL 오류: 404, 500 응답 시 사이트 품질 저하로 인식

lastmod 날짜 부적절: 콘텐츠 업데이트 반영 실패

대규모 사이트의 경우 sitemap index를 활용하여 관리해야 하며, Next.js에서는 동적으로 sitemap을 생성하여 관리 부담을 줄일 수 있다. lastModified에 실제 콘텐츠 수정 날짜를 정확히 입력하는 것이 중요하다.

내부 링크, HTTPS, 리다이렉트: 크롤러가 길을 잃지 않도록

내부 링크는 크롤러가 페이지를 탐색하는 가장 기본적인 경로이며, HTML 태그 기반 링크를 사용하는 것이 권장된다. JavaScript 이벤트 기반 라우팅은 크롤러의 렌더링 방식에 따라 링크로 인식되지 않거나 우선순위가 낮아질 수 있다. HTTPS 미적용 시 HTTP와 HTTPS 버전을 별개로 인식하여 검색 노출 분산이 발생하며, www/non-www 통일 및 301 리다이렉트 설정을 통해 문제를 해결해야 한다. 리다이렉트 체인 문제 발생 시 크롤링 효율 저하 및 오류 발생 가능성이 있으므로, 3~5회 이하로 유지하는 것이 좋다.

AI 검색 시대의 크롤러 전략 변화

AI 서비스는 학습 및 검색 노출을 위해 각기 다른 크롤러(Crawler)를 사용한다. OpenAI는 GPTBot(학습용)과 OAI-SearchBot(검색 노출용)을, Anthropic은 ClaudeBot(학습용)과 Claude-SearchBot(검색 노출용)을 분리하여 운영한다.

ChatGPT: Bing 검색 인덱스 활용, Bing SEO 중요

Gemini: Google 검색 인덱스 활용, Google SEO 중요

Claude: Claude-SearchBot 활용, SEO 전반 중요

Perplexity: 자체 크롤링 및 복수 검색엔진 혼합 활용

따라서, AI 서비스에 의한 인용을 위해서는 각 서비스가 기반으로 하는 검색엔진 SEO를 고려해야 한다. GPTBot 차단이 AI 검색 노출을 막는 것은 아니며, 각 봇의 역할을 이해하고 전략을 수립해야 한다.

검색엔진은 우리 사이트를 어떻게 발견할까?