AI 보안, 모델 크기보다 시스템이 중요하다!

Anthropic의 Mythos 모델이 발견한 취약점 분석을 소형 모델로도 재현 가능함을 밝힘

AI 기반 사이버 보안 능력은 모델 크기에 비례하지 않는 'Jagged' 특성을 보임

취약점 발견보다 시스템 구축 및 유지보수 신뢰 확보가 중요함을 강조

고립된 코드 분석은 실제 코드베이스 전체를 스캔하는 것과 다른 문제임을 지적

AI 기반 사이버 보안의 'Jagged' 특성

AISLE의 연구에 따르면, AI 기반 사이버 보안 능력은 모델 크기에 따라 선형적으로 증가하지 않는 'Jagged' 특성을 보인다. 즉, 특정 작업에서는 소형 모델이 대형 모델보다 우수한 성능을 보일 수 있다. 예를 들어, OWASP 테스트에서 소형 모델이 대형 모델보다 정확한 결과를 도출했다. 기술적으로 보면, 이는 AI 보안 시스템의 성능이 모델 자체뿐만 아니라, 데이터 전처리, 프롬프트 엔지니어링, 결과 검증 등 다양한 요소에 의해 결정됨을 의미한다.

Mythos 모델의 취약점 분석 재현

AISLE은 Anthropic의 Mythos 모델이 발견한 FreeBSD NFS exploit 및 OpenBSD SACK bug를 소형, 저비용, 오픈 소스 모델을 사용하여 재현했다. 특히, 36억 개의 파라미터를 가진 모델이 FreeBSD exploit을 성공적으로 탐지했으며, 51억 개의 파라미터를 가진 모델은 OpenBSD SACK bug의 핵심 분석을 재현했다. 실제 사례로는, 이는 AI 모델의 성능이 특정 작업에 따라 크게 달라질 수 있음을 보여준다.

AI 보안 시스템의 핵심 요소: 시스템 vs 모델

AISLE은 AI 기반 사이버 보안의 핵심은 모델 자체가 아닌, 시스템 구축에 있다고 주장한다. Anthropic의 Mythos는 모델 성능을 극대화하지만, AISLE은 모델의 효율성, 토큰당 비용, 보안 전문성 등 다른 요소들이 중요하다고 강조한다. 특히, 유지보수 담당자의 신뢰 확보가 중요하며, 이는 모델의 성능보다 시스템의 신뢰성과 지속적인 개선에 달려 있다. 즉, 데이터 미저장 정책(Zero-Retention Policy)을 통해 보안성을 강화하는 것이 중요하다.

코드베이스 전체 스캔의 어려움

커뮤니티에서는 Mythos 모델이 특정 취약점을 발견하기 위해 고립된 코드를 분석하는 방식에 대한 의문을 제기한다. 실제 코드베이스 전체를 스캔하는 것은, 고립된 코드 조각을 분석하는 것보다 훨씬 어려운 문제이다. 특히, 취약점 발견은 코드의 복잡성, 다양한 의존성, 그리고 잠재적인 false positive를 고려해야 하므로, 단순한 모델 성능만으로는 해결하기 어렵다. 주목할 점은, 멀티모달 분석(Multimodal Analysis)을 통해 다양한 취약점을 탐지해야 한다는 것이다.

AI 보안의 실제 적용 과제

논의에서는 AI 기반 사이버 보안 기술의 실제 적용에 대한 과제를 제시한다. 취약점 발견뿐만 아니라, false positive 감소, 패치 생성, 익스플로잇 구축 등 다양한 단계에서 어려움이 존재한다. 특히, 유럽 문제/규제(GDPR Compliance)와 같은 규제 준수, 그리고 AI 환각(Hallucination)으로 인한 오탐을 줄이는 것이 중요하다. 따라서, AI 보안 시스템은 모델의 성능뿐만 아니라, 시스템 전체의 신뢰성과 효율성을 고려해야 한다.