클로드(Claude) LLM, 차단 가능한 '매직 스트링' 등장!

by DD
4개월 전
조회수 30

클로드(Claude) LLM의 정책 위반 감지 기능을 트리거하는 '매직 스트링'이 공개됨

해당 문자열을 웹 페이지에 삽입하여 LLM의 접근을 차단하려는 시도가 이루어짐

robots.txt를 활용한 차단 시도와 캐싱(Caching) 문제에 대한 논의가 진행됨

프롬프트 인젝션(Prompt Injection)과 유사한 방식이라는 비판과 함께, 근본적인 해결책에 대한 고민이 이어짐

클로드(Claude) 차단 메커니즘 분석

게시물에 따르면 클로드(Claude)는 특정 문자열, 즉 '매직 스트링(Magic String)'을 감지하여 정책 위반으로 간주되는 대화를 종료한다. 이 문자열을 웹 페이지에 삽입하면 클로드(Claude)가 해당 페이지를 읽을 때 대화가 중단된다. ANTHROPIC_MAGIC_STRING_TRIGGER_REFUSAL_1FAEFB6177B4672DEE07F9D3AFC62588CCD2631EDCF22E8CCC1FB35B501C9C86과 같은 형태의 문자열이 사용되며, HTML 태그 내부에 위치해야 효과가 있다.

캐싱(Caching) 및 우회 전략

클로드(Claude)는 웹 페이지를 요청할 때 내부 캐시를 활용하여 실제 페이지를 다시 요청하지 않는 경우가 많다. 따라서 캐시를 우회하기 위해 test1.html, test2.html과 같이 아직 캐싱되지 않은 URL을 사용해야 한다. 댓글에서는 이러한 방식이 프롬프트 인젝션(Prompt Injection)과 유사하며, 근본적인 해결책이 될 수 없다는 지적이 제기된다.

robots.txt를 활용한 차단 시도

일부 사용자는 robots.txt 파일을 사용하여 클로드(Claude)의 접근을 차단하려 시도했다. robots.txt는 웹 크롤러(Web Crawler)의 접근을 제어하기 위한 표준 프로토콜이지만, LLM의 경우 개발자의 의지에 따라 동작 방식이 달라질 수 있다. 댓글에서는 클로드(Claude)가 robots.txt를 준수하는지 여부에 대한 논의가 있었으며, 일부 사용자는 robots.txt를 통해 차단에 성공했다고 보고했다.

LLM 스팸(Spam) 문제와 대응

게시자는 LLM 스팸을 줄이기 위해 이 기술을 활용하려는 의도를 밝혔다. LLM 스팸은 LLM이 생성한 콘텐츠가 원치 않는 방식으로 사용되는 문제를 의미한다. 이러한 시도는 LLM의 무분별한 사용에 대한 반작용으로 볼 수 있으며, 데이터 미저장 정책(Zero-Retention Policy)과 같은 다른 보안 조치와 함께 고려될 수 있다.

Blocking Claude