LLM, 똑똑한 만큼 '모른다'고 말하는 능력도 중요!

LLM의 정확도(Accuracy)만큼 중요한, Abstention(기권) 능력의 중요성을 강조하며, 모델이 모를 때 답하지 않는 능력이 부족함을 지적

AbstentionBench와 RefusalBench 두 논문을 통해, 모델 크기 증가가 Abstention 성능 향상에 미치는 영향이 미미함을 확인

Reasoning 모델이 Abstention 능력을 오히려 저하시키는 현상을 분석하며, 학습 방식(Alignment)의 중요성을 강조

System Prompt 적용으로 Abstention 능력 향상을 시도했지만, 근본적인 해결책은 아님을 밝힘

Abstention/Refusal을 별도의 학습 목표로 설정하고, 평가 방법론을 개선해야 함을 제안

Abstention과 Accuracy, 별개의 능력

본문에 따르면, 모델의 정확도(Accuracy)가 높아진다고 해서 Abstention 능력이 자동적으로 향상되는 것은 아니다. Abstention은 모델이 모르는 질문에 대해 답을 회피하는 능력으로, 정확하게 답하는 능력과는 독립적인 축(Independent Axis)을 형성한다.

AbstentionBench는 모델 크기를 8B부터 405B까지 늘려도 Abstention 성능에 큰 변화가 없음을 보임

Reasoning 모델조차 Abstention 능력이 저하되는 현상 발생

Abstention은 증거와 불확실성에 대한 추론 능력에 가깝다.

Reasoning Fine-tuning의 역설

글에 따르면, Reasoning 모델이 오히려 Abstention 능력을 저해하는 결과를 보였다. Reasoning 모델은 증거를 연결하여 결론을 도출하도록 학습되지만, AbstentionBench 측정 결과는 정반대였다.

DeepSeek R1 Distill과 s1.1의 경우, Reasoning 모델이 비-Reasoning 모델보다 평균 24% 낮은 Abstention 성능을 기록

수학·과학 도메인에서도 동일한 현상 발생

RLVR(Reinforcement Learning from Verifiable Reward) 단계에서 Abstention이 퇴화하는 경향을 보임. 즉, 정답에 최적화하는 과정이 불확실성을 인정하는 행동에 부정적 영향을 줄 수 있다.

Token Budget과 Abstention의 관계

AbstentionBench는 reasoning token budget을 늘리는 실험을 통해, test-time scaling이 Abstention에 미치는 영향을 분석했다. 그 결과, reasoning token 증가는 정확도를 높이지만, Abstention 능력은 감소하는 경향을 보였다.

Reasoning token 증가 → 정확도 증가

Reasoning token 증가 → Abstention 감소

모델은 내부적으로 의심을 하면서도, 최종 답변은 단정적으로 내놓는 경향

Reward misspecification 가설: 확실한 답을 내놓도록 보상받아 불확실성을 인정하는 방향으로 학습하지 못함.

RefusalBench의 심층 분석

RefusalBench는 Abstention을 두 가지 하위 능력으로 구분하여 분석했다. Detection(거부 판단)과 Categorization(거부 이유 분류) 능력으로 나누어, 모델의 Abstention 능력을 심층적으로 파악했다.

GPT-4o는 Detection은 일관적이나, Category 정확도가 낮음

Claude-4-Sonnet은 두 능력을 어느 정도 갖췄지만, Refusal Accuracy는 70%대에 그침

어려운 케이스를 '정보 부족'으로 분류하는 경향이 높음

이는 보수적인 default 전략으로, 사용자에게 유용한 정보를 제공하지 못함.

Abstention 능력 향상을 위한 제언

두 논문은 Abstention 능력 향상을 위한 실마리를 제시한다. System Prompt 적용은 단기적인 효과를 보였지만, 근본적인 해결책은 아니다. RefusalBench는 DPO(Direct Preference Optimization)와 같은 Alignment 과정을 통해 Refusal 능력을 개선할 수 있음을 보여주었다.

Abstention/Refusal을 별도의 학습 목표로 설정

Underspecified 및 결함 있는 입력 예시를 SFT(Supervised Fine-tuning) 단계에 추가

RLVR 보상 설계를 재설계하여 불확실성 인정을 장려

평가 방법론 개선: 고정된 데이터셋의 한계를 극복하기 위해 데이터 생성 프레임워크를 활용