LLM 컨텍스트 윈도우, 'Disregard that!' 공격에 얼마나 취약할까?

LLM의 컨텍스트 윈도우(Context Window)를 악용한 'Disregard that!' 공격의 위험성을 경고함

AI 가드레일(AI Guardrails)과 같은 방어 기법이 무력하며, 공격을 막기 어려움을 지적함

신뢰할 수 없는 데이터(Untrusted Data)가 컨텍스트 윈도우에 유입되는 다양한 경로를 제시함

멀티 레벨(Multi-level) LLM 아키텍처 또한 'Disregard that!' 공격에 취약함을 강조함

'Disregard that!' 공격의 본질

본질적으로 'Disregard that!' 공격은 LLM의 컨텍스트 윈도우(Context Window) 내에서 악의적인 지시를 주입하는 방식이다. 공격자는 LLM이 신뢰하는 정보에 숨어들어, LLM의 행동을 제어하려 시도한다. 이는 마치 오래된 인터넷 유머처럼, LLM의 응답을 조작하여 예상치 못한 결과를 초래한다. AI 환각(Hallucination)을 유발하여 시스템의 신뢰성을 훼손하는 것이다.

AI 가드레일(AI Guardrails)의 한계

저자는 'AI 가드레일(AI Guardrails)'과 같은 방어 기법이 'Disregard that!' 공격에 효과적이지 않다고 주장한다. 공격자는 가드레일을 우회하기 위해 더욱 정교한 프롬프트를 사용하며, 이는 마치 정보 전쟁(Information Warfare)과 같은 양상을 보인다. 즉, 방어자와 공격자 간의 끊임없는 경쟁이 벌어지며, 가드레일은 결국 무력화될 수밖에 없다는 것이다.

신뢰할 수 없는 데이터(Untrusted Data)의 위험성

저자는 LLM이 신뢰할 수 없는 데이터(Untrusted Data)를 처리할 때 발생하는 위험성을 강조한다. 이는 사용자 입력뿐만 아니라, API 응답, 검색 결과, 파일 공유 등 다양한 경로를 통해 컨텍스트 윈도우에 유입될 수 있다. 특히, LLM의 주된 사용 목적이 정보를 직접 읽는 수고를 덜어주는 것이라는 점을 고려할 때, 이러한 데이터 격리 아키텍처(Data Isolation Architecture) 부재는 심각한 보안 위협으로 이어진다.

멀티 레벨(Multi-level) LLM 아키텍처의 취약성

멀티 레벨(Multi-level) LLM 아키텍처는 여러 LLM을 계층적으로 구성하여 보안을 강화하려는 시도이나, 'Disregard that!' 공격에 취약하다는 것이 저자의 분석이다. 공격은 한 LLM을 속여 다른 LLM에게 악의적인 지시를 전달하도록 유도할 수 있다. 즉, 데이터 미저장 정책(Zero-Retention Policy)을 적용하더라도, 공격의 전파를 막기 어렵다는 점을 시사한다.