LLM, 제로데이 익스플로잇 생성 시대를 열다?

LLM 기반 에이전트가 QuickJS 자바스크립트 인터프리터의 제로데이 취약점을 이용해 40개 이상의 익스플로잇 생성에 성공

GPT-5.2는 가장 어려운 과제인 7개의 함수 호출 체이닝(Chaining)을 통해 파일 쓰기 공격을 수행

사이버 공격의 산업화(Industrialization)로 인해 토큰 처리량이 공격 능력의 제한 요소가 될 것이라는 분석

방어 측면(Defensive Side)에서도 LLM을 활용한 코드 분석 및 보안 강화 가능성에 대한 기대감 존재

LLM 기반 익스플로잇 생성 실험 결과

실험 결과에 따르면 GPT-5.2와 Opus 4.5는 QuickJS 자바스크립트 인터프리터의 제로데이 취약점을 이용해 다양한 익스플로잇을 생성하는 데 성공했다. 특히 GPT-5.2는 주소 공간 배치 무작위화(Address Space Layout Randomization), 실행 불가능 메모리(Non-Executable Memory), 완전 RELRO(Full RELRO) 등 다양한 보안 기법이 적용된 환경에서 7개의 함수 호출 체이닝(Chaining)을 통해 파일 쓰기 공격을 수행했다. 이는 LLM이 복잡한 보안 환경에서도 공격 시나리오를 구성할 수 있음을 시사한다.

익스플로잇 생성의 산업화와 토큰 처리량

저자는 사이버 공격의 산업화(Industrialization)를 언급하며, 조직의 익스플로잇 개발 능력이 고용된 해커의 수가 아닌 토큰 처리량(Token Throughput)에 의해 제한될 것이라고 분석했다. 이는 LLM 기반 에이전트가 솔루션 공간을 탐색하고, 적절한 도구와 환경을 갖추며, 인간의 도움 없이 작업을 수행할 수 있기 때문이다. 특히, 제로데이 취약점 발견 및 익스플로잇 개발 분야에서 이러한 경향이 두드러질 것으로 예상된다.

보안 메커니즘의 허점과 LLM의 활용

커뮤니티에서는 LLM이 기존 보안 메커니즘의 허점을 활용하여 익스플로잇을 생성한다는 점에 주목했다. 이는 LLM이 새로운 보안 취약점을 발견하기보다는, 기존에 알려진 취약점을 조합하여 공격하는 데 능숙하다는 것을 의미한다. 하지만, LLM Red Team을 활용하여 코드 분석 및 보안 강화를 수행하는 등 방어적인 측면에서도 LLM을 활용할 수 있다는 의견이 제시되었다. 즉, 공격과 방어 모두에서 LLM의 역할이 커질 것으로 예상된다.

LLM의 한계와 향후 과제

일부 의견에서는 LLM이 아직 리버스 엔지니어링(Reverse Engineering)과 같은 복잡한 작업에서 충분한 성능을 발휘하지 못한다고 지적했다. 또한, LLM의 성능 평가가 CTF(Capture The Flag) 기반의 환경이나 오래된 취약점에 국한되어 있다는 점을 비판하며, 실제 제로데이 취약점을 대상으로 한 평가가 필요하다고 강조했다. 특히, AI Security Institutes에서 실제 환경에서의 LLM 성능 평가를 수행할 필요가 있다는 의견이 제시되었다.