언어 모델 검열을 자동 제거하는 혁신적인 AI 도구

Heretic은 변환기 기반 언어 모델의 검열(Censorship)을 자동 제거하는 도구임

방향성 절제(Directional Ablation)와 Optuna 기반 TPE 매개변수 최적화를 결합하여 작동함

모델의 지능 저하를 최소화하면서 검열을 해제하여 원래 모델의 성능을 유지함

명령줄 인터페이스(CLI)를 통해 쉽게 사용 가능하며, 연구 목적으로도 활용 가능함

방향성 절제(Directional Ablation) 기반 검열 제거

Heretic은 방향성 절제(Directional Ablation), 즉 'abliteration' 기술을 핵심으로 사용한다. 이는 모델의 특정 부분을 수정하여 검열된 내용을 제거하는 방식이다. 특히, Heretic은 Optuna를 활용한 TPE(Tree-structured Parzen Estimator) 기반 매개변수 최적화를 통해 절제 매개변수를 자동으로 찾는다. 이 자동화된 접근 방식은 사용자가 모델 내부 구조를 몰라도 검열을 해제할 수 있게 해준다.

자동화된 매개변수 최적화

Heretic은 거부 횟수(Refusals)와 원래 모델과의 KL 발산(KL Divergence)을 동시에 최소화하는 방식으로 작동한다. 즉, 모델이 유해한 프롬프트에 대해 거부하는 횟수를 줄이면서, 원래 모델의 지능을 최대한 유지하는 방향으로 매개변수를 조정한다. 이러한 최적화 과정은 사용자의 개입 없이 이루어지며, 자동화된 튜닝(Automated Tuning)을 통해 최적의 성능을 보장한다.

연구 지원 기능

Heretic은 검열 제거 외에도 모델 내부 구조에 대한 연구를 지원하는 기능을 제공한다. 특히, `--plot-residuals` 옵션을 통해 잔차 벡터(Residual Vectors)를 시각화하여 모델의 동작 방식을 분석할 수 있다. 또한, `--print-residual-geometry` 옵션을 사용하면 잔차 벡터 간의 관계를 정량적으로 분석할 수 있는 지표를 제공한다. 이러한 기능들은 모델의 해석 가능성(Interpretability)을 높이는 데 기여한다.

성능 및 결과

README에 따르면 Heretic은 google/gemma-3-12b-it 모델에서 다른 abliteration 기법과 유사한 수준의 거부 횟수 감소를 달성하면서도, KL 발산(KL Divergence)은 훨씬 낮게 유지했다. 이는 Heretic이 모델의 성능 저하를 최소화하면서 검열을 효과적으로 제거했음을 의미한다. 또한, 사용자들이 Heretic으로 생성된 모델에 대해 긍정적인 평가를 내리고 있다는 점도 주목할 만하다.