Fable, 사이버 보안 연구원들의 발목 잡는 안전 장치 논란

by DD
1일 전
조회수 8

Anthropic의 최신 AI 모델 Fable, 사이버 보안 및 생물학 관련 요청 과도 차단으로 연구원 불만 증폭

키워드 기반의 경직된 안전 장치(Keyword-based Guardrails)가 일반적인 코드 검토나 블로그 게시물 분석까지 방해

데이터 미저장 정책(Zero-Retention Policy)AI 환각(Hallucination) 방지 목적이나, 실제로는 연구 생산성 저하(Reduced Research Productivity) 초래

커뮤니티에서는 경쟁사의 덜 제한적인 모델 출시 가능성 및 점진적 완화 기대감 공존

과도한 안전 장치로 인한 연구 생산성 저하

다수의 사이버 보안 연구원들은 Fable 모델이 '사이버 보안' 또는 '생물학'이라는 키워드만 포함되어도 요청을 거부하거나, 더 낮은 성능의 Claude Opus 4.8로 전환한다고 지적합니다. 이는 단순한 블로그 게시물 분석이나 코드 검토 요청마저 차단하여, 연구원들이 필수적인 정보 접근 및 분석 작업을 수행하는 데 심각한 제약을 받고 있음을 시사합니다. 이러한 경직된 필터링 방식(Rigid Filtering Mechanism)은 연구 커뮤니티에서 '쓸모없다'는 평가까지 받고 있습니다.

안전 장치 설계의 트레이드오프(Trade-off) 논쟁

Anthropic은 Fable 모델의 오용(예: 악성코드 개발) 및 AI 환각(Hallucination) 방지를 위해 엄격한 안전 장치를 적용했다고 설명합니다. 하지만 커뮤니티에서는 이러한 접근 방식이 '보안 연극(Security Theater)'에 불과하며, 오히려 데이터 미저장 정책(Zero-Retention Policy)을 준수하려는 연구자들에게 불필요한 장벽을 세운다고 비판합니다. 일부에서는 경쟁사의 덜 제한적인 모델 출시를 기대하며, Anthropic이 향후 정책을 완화할 것이라는 전망도 제시합니다.

암묵적 모델 다운그레이드(Silent Downgrade) 문제

특히 우려되는 점은 Fable이 안전 장치에 걸렸을 때, 사용자에게 명확히 알리지 않고 내부적으로 더 낮은 성능의 모델(Claude Opus 4.8)로 전환한다는 점입니다. 이는 사용자가 의도치 않게 낮은 품질의 결과를 받게 만들며, 모델의 성능 저하 사실을 인지하기 어렵게 합니다. 이러한 투명성 부족(Lack of Transparency)은 사용자 신뢰를 심각하게 훼손할 수 있다는 지적이 제기됩니다.

보안 검증 프로그램(Cyber Verification Program)의 실효성

Anthropic은 사이버 보안 전문가를 위해 별도의 사이버 검증 프로그램(Cyber Verification Program)을 운영하지만, 일부 사용자는 이 프로그램에 참여해도 Fable의 제한이 크게 완화되지 않는다고 보고합니다. 이는 OpenAI의 유사 프로그램과 비교했을 때, 실질적인 사용성 개선이 미흡하다는 비판으로 이어집니다. 결과적으로, 엄격한 안전 장치와 실질적인 사용성 사이의 균형을 맞추는 데 어려움을 겪고 있음을 보여줍니다.

Cybersecurity researchers aren't happy about the guardrails on Anthropic's Fable