NeurIPS 2025, AI 안전성 기술의 현재와 미래를 조망하다

by DD
2개월 전
조회수 14

NeurIPS 2025에서 AI 안전성 및 가드레일(Guardrail) 관련 연구가 활발히 발표되었으며, 모델의 추론 메커니즘 자체에 개입하는 기술이 등장함.

PRIME Guardrails는 지연 시간을 최소화하는 모듈형 방어 프레임워크를 제시하며, 정책의 코드화(policy-as-code)를 통해 비기술직군도 AI 행동 제어 가능하게 함.

VLM(Vision Language Model)의 시각적 취약점을 이용한 공격과, RAG 시스템의 환각(Hallucination) 현상, 과잉 거부(Over-refusal) 문제 해결을 위한 연구가 진행됨.

PRIME Guardrails: 모듈형 방어 아키텍처

NeurIPS 2025에서 소개된 PRIME Guardrails는 생성형 AI의 안전성 문제를 시스템 구조의 문제로 접근하여, 지연 시간(Latency)을 최소화하는 데 초점을 맞춘 프레임워크이다. PRIME은 P(정책 명세), R(위험 감지 및 점수화), I(개입 라우터), M(모니터링 및 메모리), E(평가 및 진화)의 5가지 핵심 요소로 구성된다.

정책 명세(Policy Specification): 인간이 읽을 수 있는 선언적 스키마(Schema)로 안전 규칙을 정의하여, 기술적 구현과 정책 요구 사항을 분리

위험 감지 및 점수화(Risk Sensing & Scoring): 조기 종료(Early-exit) 파이프라인을 통해 어휘 규칙, 의미론적 유사성, 경량 분류기를 비동기적으로 수행하여 명백한 공격을 초기에 차단

개입 라우터(Intervention Router): 정책 규칙과 위험 점수를 기반으로 '허용', '재작성', '거부' 조치를 결정론적으로 수행

이 프레임워크는 모듈형 설계(Modular Design)를 통해 다양한 방어 로직을 비동기적으로 실행하여 서비스 속도 저하를 최소화하고, 도메인별 유연성을 확보했다는 점에서 주목할 만하다.

VLM(Vision Language Model)의 취약점과 방어

VLM(Vision Language Model)은 이미지와 텍스트를 동시에 이해하고 생성하는 모델로, 안전성 검증의 복잡성을 증가시킨다. NeurIPS 2025에서는 VLM의 시각적 취약점을 이용한 공격과, 이에 대한 방어 기술이 소개되었다.

GuardReasoner-VL: 이미지와 텍스트의 안전 정책 위반 여부를 검사하는 추론(Reasoning) 기능을 소개하며, 안전한 데이터와 해로운 데이터를 섞어 학습하는 데이터 증강(Data Augmentation) 기법을 사용

시각적 이어붙이기(Visual Stitching): VLM이 흩어진 이미지 조각(Patch)의 텍스트 레이블을 연관 지어 학습하는 취약점을 활용한 공격

양상 유도 활성화 이동(Modality-induced Activation Shift): 시각적 입력이 모델의 활성화 공간에서 안전한 영역으로 이동하는 현상을 분석

이러한 연구들은 VLM의 안전성을 검증할 때 입력 처리 과정과 내부 표현 단계까지 검증해야 함을 시사하며, 멀티모달 환경(Multi-modal Environment)에서의 안전성 확보의 중요성을 강조한다.

진화하는 공격과 방어 전략

AI 가드레일(Guardrail)의 방어력이 증가함에 따라, 공격자들은 모델의 논리적 추론 능력과 문맥 유지 능력을 역이용하는 지능형 공격을 시도하고 있다. NeurIPS 2025에서는 이러한 공격에 대응하기 위한 다양한 방어 전략이 소개되었다.

VERA: 변분 추론(Variational Inference)을 통해 공격용 프롬프트의 확률 분포를 학습하여, 별도 탐색 없이 자연스러운 공격 프롬프트를 생성

문맥 내 학습(In-context Learning) 취약점: LLM의 문맥 유지 능력을 역이용하여, 무해한 작업을 수행하도록 한 후 악성 요소로 교체하는 멀티 턴 공격(Multi-turn Attack) 기법

DRIFT: 외부 도구와 연계된 LLM 에이전트의 프롬프트 인젝션 공격을 방어하기 위한 보안 프레임워크로, 데이터 격리 아키텍처(Data Isolation Architecture)를 활용

이러한 공격과 방어의 끊임없는 경쟁은 AI 안전성 연구의 중요한 축이며, 지능형 공격(Intelligent Attack)에 대한 지속적인 연구와 대응이 필요함을 보여준다.

환각(Hallucination) 검출 및 완화

RAG 시스템의 보편화와 추론 모델의 등장으로, 지식 충돌과 논리적 비약이 새로운 형태의 환각(Hallucination)으로 정의되고 있다. NeurIPS 2025에서는 환각 발생 메커니즘에 따라 세분화된 접근 방식이 제시되었다.

LUMINA: RAG 시스템에서 외부 문서와 내부 지식의 충돌로 인한 환각을 탐지하기 위해, 문맥-지식 신호(Context-knowledge Signals)를 분석하는 프레임워크 제안

추론 환각(Reasoning Hallucination): 논리적 추론 과정에서 발생하는 환각을 감지하기 위해, 모델의 깊은 층에서 생성되는 로짓(Logit)의 변화를 분석

FACT: 코드 데이터와 텍스트 데이터를 교차 학습시켜 사실적 일관성(Factual Consistency)을 높이는 학습 방법론 제안

이러한 연구들은 환각을 단일 현상으로 보지 않고, 발생 원인에 따라 다르게 접근해야 함을 강조하며, AI 환각(Hallucination)을 줄이기 위한 다양한 시도를 보여준다.

과잉 거부(Over-refusal) 문제와 벤치마킹

안전성 강화를 위한 가드레일(Guardrail)의 도입은 과잉 거부(Over-refusal) 문제를 야기하며, 모델의 실용성을 저해할 수 있다. NeurIPS 2025에서는 과잉 거부 문제를 해결하기 위한 정교한 벤치마크와 도메인 특화 가드레일 연구가 소개되었다.

OVERT: T2I(Text-to-Image) 모델의 과잉 거부 현상을 평가하기 위한 벤치마크로, 안전성-가용성 트레이드오프(Safety-Utility Trade-off)를 분석

PolyGuard: 금융, 법률 등 8개 영역의 실제 안전 가이드라인에 기반한 도메인 특화 가드레일 데이터셋(Dataset) 구축

도메인 특화 가드레일(Domain-specific Guardrail): 범용 모델의 한계를 극복하고, 특정 도메인에 특화된 안전성을 제공

이러한 연구들은 AI 안전성과 사용자 경험 간의 균형을 맞추기 위한 노력을 보여주며, 실용적인 AI 시스템 구축을 위한 중요한 발걸음이다.

완벽한 AI 가드레일을 향한 여정: NeurIPS 2025 최신 안전성 기술 분석