금융보안 AI 챌린지 우승 비결: LLM, CPT, RAG, LoRA, 그리고 24GB GPU
카카오뱅크 LostCow 팀, 금융보안 AI Challenge 우수상 수상
Qwen3-30B-A3B 모델을 기반으로, 2단계 CPT(Continual Pre-Training) 및 BM25 기반 RAG(Retrieval-Augmented Generation) 전략 채택
LoRA(Low-Rank Adaptation)를 활용하여 Catastrophic Forgetting 방지 및 모델 성능 향상
24GB GPU 환경 제약 속에서 양자화(Quantization) 및 Structured Output을 통해 성능 최적화
Qwen3-30B-A3B 모델 선정 배경
본문에서는 24GB VRAM 제약 조건 하에서 최대 성능 확보를 위해 Qwen3-30B-A3B 모델을 선택했다고 설명한다. 한국어 성능, 장문 처리 능력, MoE(Mixture-of-Experts) 구조를 통한 성능과 자원 효율성 확보가 주요 이유로 제시되었다.
MoE 구조: 30B 파라미터를 가지면서도 실제 추론 시에는 약 3B만 사용, GPU 메모리 사용량 절감 효과
오픈소스 라이선스: 상업적 활용 가능하며, 커뮤니티 지원을 통해 지속적인 모델 개선 가능
이러한 특징들은 금융보안 도메인에 특화된 모델 개발에 유리하게 작용했으며, 특히 긴 문맥과 전문 용어 처리에 강점을 보였다.
2단계 CPT(Continual Pre-Training) 전략
LostCow 팀은 금융보안 도메인 지식 내재화를 위해 2단계 CPT 전략을 채택했다. 이는 모델이 Catastrophic Forgetting(치명적 망각) 없이 금융보안 지식을 효과적으로 습득하도록 설계되었다.
Stage-1: 법령 중심 CPT를 통해 금융보안의 정의, 원칙, 금지 조항 학습
Stage-2: 가이드라인 중심 CPT를 통해 절차적 설명과 사례 중심의 표현력 강화
LoRA 적용: LoRA(Low-Rank Adaptation)를 활용하여 모델의 일반 지식 손실을 최소화하면서 도메인 지식 주입
이러한 접근 방식은 모델이 금융보안 관련 객관식 및 주관식 문제를 모두 효과적으로 해결할 수 있도록 돕는다.
BM25 기반 RAG(Retrieval-Augmented Generation)의 활용
본문에서는 BM25 기반 RAG를 통해 모델의 정확성과 신뢰성을 높였다고 설명한다. 특히, 금융보안 도메인에서 키워드 매칭(Keyword Matching) 기반의 BM25가 임베딩 기반 검색보다 효과적이었다고 강조한다.
데이터 전처리: CPT용과 RAG용 데이터 전처리 방식을 다르게 설계하여 검색 품질 향상 도모
청킹(Chunking) 전략: Sliding Window 방식 적용, 오버랩(Overlap)을 통해 맥락 유지 및 정보 손실 방지
Top-k 최적화: Top-k=10 설정, 과도한 정보량으로 인한 OOM(Out-of-Memory) 오류 방지
이러한 전략은 모델이 외부 문서를 참조하여 더욱 정확하고 근거 있는 답변을 생성하도록 돕는다.
엔지니어링 최적화: 양자화 및 Structured Output
24GB GPU 환경에서 모델을 효율적으로 운영하기 위해 양자화(Quantization)와 Structured Output을 적용했다. Auto-Round 4bit 양자화를 통해 메모리 사용량을 줄이면서도 성능 저하를 최소화했다.
Auto-Round 4bit 양자화: 별도의 Calibration 데이터 없이 높은 정밀도 유지
MoE Gate Layer: 16bit로 유지하여 라우팅 안정성 확보 및 성능 유지
Structured Output: 객관식 문제에 적용, JSON 스키마를 통해 정답 번호 외 다른 토큰 생성 방지
이러한 최적화는 제한된 하드웨어 환경에서도 모델의 성능을 극대화하는 데 기여했다.
실험 결과 분석: 기술 선택의 효과
본문에서는 다양한 실험 결과를 통해 기술 선택의 효과를 검증했다. 모델 크기, 학습 방식, 검색 방법, Thinking 모델 사용 여부에 따른 성능 변화를 분석했다.
모델 크기: 모델 크기가 클수록 성능 향상, Qwen3-30B-A3B가 가장 높은 기본 성능
LoRA vs Full Fine-Tuning: LoRA가 Full Fine-Tuning보다 높은 성능, Catastrophic Forgetting(치명적 망각) 방지 효과
RAG: BM25 단독 사용이 가장 높은 성능, RAG 적용 시 성능 향상 확인
Thinking 모델: Thinking + CPT 조합의 성능 저하, Thinking 패턴과 CPT의 충돌
이러한 실험 결과는 각 기술 선택의 타당성을 입증하며, 금융보안 도메인 특화 모델 개발에 대한 통찰력을 제공한다.