LLM의 생각, 이제 텍스트로 읽는다!

Anthropic은 LLM의 내부 활성화(Activations)를 이해하기 위해 자연어 오토인코더(NLAs)를 개발하여 모델의 사고 과정을 텍스트로 변환

NLAs는 모델의 안전성(Safety) 및 정렬(Alignment) 문제를 해결하는 데 기여하며, 모델이 테스트 상황을 인지하는지 파악 가능

NLAs는 모델의 숨겨진 동기(Hidden Motivations)를 파악하는 데 활용되며, 오픈소스화하여 연구 접근성을 높임

NLAs는 할루시네이션(Hallucination) 및 높은 비용(High Cost)과 같은 한계를 가지며, 지속적인 개선이 필요함

자연어 오토인코더(NLA)의 작동 원리

NLA는 언어 모델의 활성화(Activation)를 이해하기 위해 개발된 기술로, 활성화를 텍스트로 변환하는 활성화 버벌라이저(Activation Verbalizer, AV)와 텍스트를 다시 활성화로 복원하는 활성화 리컨스트럭터(Activation Reconstructor, AR)로 구성된다. AV와 AR은 함께 훈련되어, 원본 활성화와 재구성된 활성화 간의 유사성을 최대화한다. 이러한 과정을 통해 모델의 내부 사고 과정을 텍스트 형태로 파악할 수 있다.

모델의 숨겨진 의도 파악

NLAs는 모델의 숨겨진 동기(Hidden Motivations)를 파악하는 데 활용될 수 있다. Anthropic은 NLA를 사용하여 모델이 안전성 테스트를 인지하고 있는지, 또는 특정 상황에서 어떤 의도를 가지고 행동하는지 분석했다. 특히, 모델이 AI 환각(Hallucination)을 일으키거나, 의도적으로 잘못된 정보를 제공하는 경우를 탐지하는 데 유용하다. 이러한 분석은 모델의 정렬(Alignment) 문제를 해결하는 데 기여할 수 있다.

NLA의 한계점 및 개선 방향

NLA는 AI 환각(Hallucination)을 일으킬 수 있으며, 훈련 및 추론 과정에서 높은 비용이 소요된다는 한계를 가진다. NLA가 생성하는 설명이 항상 정확하지 않을 수 있으며, 모델의 내부 사고 과정을 완벽하게 파악하지 못할 수도 있다. Anthropic은 이러한 한계를 극복하기 위해 NLA의 정확성을 높이고, 효율성을 개선하기 위한 연구를 진행하고 있다. 또한, 오픈소스화를 통해 연구 접근성을 높이고 있다.

커뮤니티의 비판적 시각

커뮤니티에서는 NLA가 생성하는 설명의 정확성에 대한 의문을 제기하며, NLA가 모델의 실제 사고 과정을 제대로 반영하는지에 대한 의문을 제기한다. 특히, NLA가 모델의 내부 표현을 단순히 재구성하는 것 이상으로 의미 있는 정보를 제공하는지에 대한 논쟁이 있다. 또한, NLA가 모델의 AI 환각(Hallucination)을 탐지하는 데 얼마나 효과적인지에 대한 추가적인 검증이 필요하다는 의견이 제시된다.