LLM, 보안 취약점 찾기 실험 결과는?

LLM 기반 보안 취약점 탐색 실험에서 GPT-5.5가 70%의 성공률을 기록하며 두각을 나타냄

Firebase 데이터 유출 취약점(Broken Access Control)을 LLM이 얼마나 잘 찾아내는지 비용 및 성능 비교

모델별 비용 및 토큰 사용량 분석 결과, Deepseek V4 Pro가 저렴한 비용으로 높은 효율을 보임

AI 모델의 보안 가드레일(Guardrail)이 실제 공격 시나리오 수행에 미치는 영향 분석

LLM 모델별 보안 취약점 탐색 성능 및 비용 분석

실험 결과, GPT-5.5 모델은 10번 중 7번 성공하며 가장 높은 취약점 탐색 성공률(Exploit Success Rate)을 보였다. 반면, Deepseek V4 Pro는 3/10의 성공률에도 불구하고 실행당 평균 비용($/run)이 $0.19로 매우 저렴하여 비용 효율성 측면에서 주목받았다. Claude Sonnet 4.6과 Claude Opus 4.8은 각각 2/10의 성공률을 기록했으나, 높은 비용($9.15, $3.23)과 보안 가드레일(Security Guardrail)로 인한 조기 중단 사례가 다수 관찰되었다.

Firebase 취약점 유형 및 LLM의 접근 방식

본 실험에서 발견된 주요 취약점은 Firebase의 Broken Access Control 또는 Missing Object-Level Authorization으로, API 자체는 안전하지만 데이터 레이어인 Firebase 설정이 부실하여 발생하는 문제다. LLM들은 APK를 분석한 후 Firebase 기능을 인지했으나, 일부 모델은 Firebase 인증을 API에 직접 적용하려 시도하는 등 데이터 격리 아키텍처(Data Isolation Architecture)의 중요성을 간과하는 경향을 보였다. 이는 LLM이 데이터 미저장 정책(Zero-Retention Policy)을 이해하고 실제 시스템의 보안 설정을 직접적으로 탐색하는 데 한계가 있음을 시사한다.

AI 모델의 보안 가드레일과 실험 결과의 상관관계

커뮤니티에서는 Anthropic 모델의 낮은 점수가 실제 성능 부족이 아닌, 강화된 보안 가드레일(Security Guardrail) 때문이라는 분석이 제기되었다. 모델이 합법적인 작업 수행에도 로그인 처리나 자격 증명 관리에 대해 거부 반응을 보이는 빈도가 증가하고 있다는 지적이다. 이는 LLM이 보안 연구와 같은 민감한 작업을 수행할 때, 과도한 안전 장치(Overly Strict Safety Measures)가 오히려 유용성을 저해할 수 있음을 보여준다. 향후 모델 발전 방향에 대한 논의가 필요하다.

실험 방법론 및 LLM 협업 가능성 논의

일부 사용자는 제시된 실험 방법론이 다소 단순(Naive)하다고 지적하며, GLM 5.1과 같은 모델이 복잡한 바이너리 패치 및 런타임 분석을 수행할 수 있음을 근거로 들었다. LLM에게 명확한 방향 제시 또는 단계별 작업 지시를 통해 협업하는 방식이 더 효과적일 수 있다는 의견이다. 또한, 중국 모델들이 데이터베이스 공격에 더 적극적이었던 반면, 일부 모델은 실제 데이터베이스에 영향을 미칠 수 있다는 점을 인지하고 공격을 망설이는 윤리적 제약(Ethical Constraints)을 보였다는 점도 흥미로운 관찰이다.