금융보안 AI 챌린지 우승 비결: LLM, CPT, RAG, LoRA, 그리고 24GB GPU

카카오뱅크 LostCow 팀, 금융보안 AI Challenge 우수상 수상

Qwen3-30B-A3B 모델을 기반으로, 2단계 CPT(Continual Pre-Training) 및 BM25 기반 RAG(Retrieval-Augmented Generation) 전략 채택

LoRA(Low-Rank Adaptation)를 활용하여 Catastrophic Forgetting 방지 및 모델 성능 향상

24GB GPU 환경 제약 속에서 양자화(Quantization) 및 Structured Output을 통해 성능 최적화

Qwen3-30B-A3B 모델 선정 배경

본문에서는 24GB VRAM 제약 조건 하에서 최대 성능 확보를 위해 Qwen3-30B-A3B 모델을 선택했다고 설명한다. 한국어 성능, 장문 처리 능력, MoE(Mixture-of-Experts) 구조를 통한 성능과 자원 효율성 확보가 주요 이유로 제시되었다.

MoE 구조: 30B 파라미터를 가지면서도 실제 추론 시에는 약 3B만 사용, GPU 메모리 사용량 절감 효과

오픈소스 라이선스: 상업적 활용 가능하며, 커뮤니티 지원을 통해 지속적인 모델 개선 가능

이러한 특징들은 금융보안 도메인에 특화된 모델 개발에 유리하게 작용했으며, 특히 긴 문맥과 전문 용어 처리에 강점을 보였다.

2단계 CPT(Continual Pre-Training) 전략

LostCow 팀은 금융보안 도메인 지식 내재화를 위해 2단계 CPT 전략을 채택했다. 이는 모델이 Catastrophic Forgetting(치명적 망각) 없이 금융보안 지식을 효과적으로 습득하도록 설계되었다.

Stage-1: 법령 중심 CPT를 통해 금융보안의 정의, 원칙, 금지 조항 학습

Stage-2: 가이드라인 중심 CPT를 통해 절차적 설명과 사례 중심의 표현력 강화

LoRA 적용: LoRA(Low-Rank Adaptation)를 활용하여 모델의 일반 지식 손실을 최소화하면서 도메인 지식 주입

이러한 접근 방식은 모델이 금융보안 관련 객관식 및 주관식 문제를 모두 효과적으로 해결할 수 있도록 돕는다.

BM25 기반 RAG(Retrieval-Augmented Generation)의 활용

본문에서는 BM25 기반 RAG를 통해 모델의 정확성과 신뢰성을 높였다고 설명한다. 특히, 금융보안 도메인에서 키워드 매칭(Keyword Matching) 기반의 BM25가 임베딩 기반 검색보다 효과적이었다고 강조한다.

데이터 전처리: CPT용과 RAG용 데이터 전처리 방식을 다르게 설계하여 검색 품질 향상 도모

청킹(Chunking) 전략: Sliding Window 방식 적용, 오버랩(Overlap)을 통해 맥락 유지 및 정보 손실 방지

Top-k 최적화: Top-k=10 설정, 과도한 정보량으로 인한 OOM(Out-of-Memory) 오류 방지

이러한 전략은 모델이 외부 문서를 참조하여 더욱 정확하고 근거 있는 답변을 생성하도록 돕는다.

엔지니어링 최적화: 양자화 및 Structured Output

24GB GPU 환경에서 모델을 효율적으로 운영하기 위해 양자화(Quantization)와 Structured Output을 적용했다. Auto-Round 4bit 양자화를 통해 메모리 사용량을 줄이면서도 성능 저하를 최소화했다.

Auto-Round 4bit 양자화: 별도의 Calibration 데이터 없이 높은 정밀도 유지

MoE Gate Layer: 16bit로 유지하여 라우팅 안정성 확보 및 성능 유지

Structured Output: 객관식 문제에 적용, JSON 스키마를 통해 정답 번호 외 다른 토큰 생성 방지

이러한 최적화는 제한된 하드웨어 환경에서도 모델의 성능을 극대화하는 데 기여했다.

실험 결과 분석: 기술 선택의 효과

본문에서는 다양한 실험 결과를 통해 기술 선택의 효과를 검증했다. 모델 크기, 학습 방식, 검색 방법, Thinking 모델 사용 여부에 따른 성능 변화를 분석했다.

모델 크기: 모델 크기가 클수록 성능 향상, Qwen3-30B-A3B가 가장 높은 기본 성능

LoRA vs Full Fine-Tuning: LoRA가 Full Fine-Tuning보다 높은 성능, Catastrophic Forgetting(치명적 망각) 방지 효과

RAG: BM25 단독 사용이 가장 높은 성능, RAG 적용 시 성능 향상 확인

Thinking 모델: Thinking + CPT 조합의 성능 저하, Thinking 패턴과 CPT의 충돌

이러한 실험 결과는 각 기술 선택의 타당성을 입증하며, 금융보안 도메인 특화 모델 개발에 대한 통찰력을 제공한다.

금융 보안 퀴즈, AI에게 풀게 해봤습니다: 2025 금융 AI Challenge 우수상 후기

카카오뱅크 LostCow 팀, 금융보안 AI Challenge 우수상 수상

Qwen3-30B-A3B 모델을 기반으로, 2단계 CPT(Continual Pre-Training) 및 BM25 기반 RAG(Retrieval-Augmented Generation) 전략 채택

LoRA(Low-Rank Adaptation)를 활용하여 Catastrophic Forgetting 방지 및 모델 성능 향상

24GB GPU 환경 제약 속에서 양자화(Quantization) 및 Structured Output을 통해 성능 최적화

Qwen3-30B-A3B 모델 선정 배경

MoE 구조: 30B 파라미터를 가지면서도 실제 추론 시에는 약 3B만 사용, GPU 메모리 사용량 절감 효과

오픈소스 라이선스: 상업적 활용 가능하며, 커뮤니티 지원을 통해 지속적인 모델 개선 가능

이러한 특징들은 금융보안 도메인에 특화된 모델 개발에 유리하게 작용했으며, 특히 긴 문맥과 전문 용어 처리에 강점을 보였다.

2단계 CPT(Continual Pre-Training) 전략

Stage-1: 법령 중심 CPT를 통해 금융보안의 정의, 원칙, 금지 조항 학습

Stage-2: 가이드라인 중심 CPT를 통해 절차적 설명과 사례 중심의 표현력 강화

LoRA 적용: LoRA(Low-Rank Adaptation)를 활용하여 모델의 일반 지식 손실을 최소화하면서 도메인 지식 주입

이러한 접근 방식은 모델이 금융보안 관련 객관식 및 주관식 문제를 모두 효과적으로 해결할 수 있도록 돕는다.

BM25 기반 RAG(Retrieval-Augmented Generation)의 활용

데이터 전처리: CPT용과 RAG용 데이터 전처리 방식을 다르게 설계하여 검색 품질 향상 도모

청킹(Chunking) 전략: Sliding Window 방식 적용, 오버랩(Overlap)을 통해 맥락 유지 및 정보 손실 방지

Top-k 최적화: Top-k=10 설정, 과도한 정보량으로 인한 OOM(Out-of-Memory) 오류 방지

이러한 전략은 모델이 외부 문서를 참조하여 더욱 정확하고 근거 있는 답변을 생성하도록 돕는다.

엔지니어링 최적화: 양자화 및 Structured Output

Auto-Round 4bit 양자화: 별도의 Calibration 데이터 없이 높은 정밀도 유지

MoE Gate Layer: 16bit로 유지하여 라우팅 안정성 확보 및 성능 유지

Structured Output: 객관식 문제에 적용, JSON 스키마를 통해 정답 번호 외 다른 토큰 생성 방지

이러한 최적화는 제한된 하드웨어 환경에서도 모델의 성능을 극대화하는 데 기여했다.

실험 결과 분석: 기술 선택의 효과

모델 크기: 모델 크기가 클수록 성능 향상, Qwen3-30B-A3B가 가장 높은 기본 성능

LoRA vs Full Fine-Tuning: LoRA가 Full Fine-Tuning보다 높은 성능, Catastrophic Forgetting(치명적 망각) 방지 효과

RAG: BM25 단독 사용이 가장 높은 성능, RAG 적용 시 성능 향상 확인

Thinking 모델: Thinking + CPT 조합의 성능 저하, Thinking 패턴과 CPT의 충돌

이러한 실험 결과는 각 기술 선택의 타당성을 입증하며, 금융보안 도메인 특화 모델 개발에 대한 통찰력을 제공한다.

RAG 기반 코드 지식화 플랫폼 AskON: 코드를 검색 가능한 지식으로!

자연어 기반 데이터 분석 서비스 InsightLens 개발: SQL 몰라도 OK!

카카오, 전사 AI 역량 강화를 위한 맞춤형 교육 프로그램 도입

tinygrad로 LoRA 구현, LLM 미세 조정의 효율성을 높이다!

Qwen3-Max-Thinking, GPT-5.2와 어깨를 나란히 하다!

LLM 실전 학습을 위한 시각적 가이드

첫 번째 댓글을 남겨보세요!

금융보안 AI 챌린지 우승 비결: LLM, CPT, RAG, LoRA, 그리고 24GB GPU

Qwen3-30B-A3B 모델 선정 배경

2단계 CPT(Continual Pre-Training) 전략

BM25 기반 RAG(Retrieval-Augmented Generation)의 활용

엔지니어링 최적화: 양자화 및 Structured Output

실험 결과 분석: 기술 선택의 효과

금융보안 AI 챌린지 우승 비결: LLM, CPT, RAG, LoRA, 그리고 24GB GPU

Qwen3-30B-A3B 모델 선정 배경

2단계 CPT(Continual Pre-Training) 전략

BM25 기반 RAG(Retrieval-Augmented Generation)의 활용

엔지니어링 최적화: 양자화 및 Structured Output

실험 결과 분석: 기술 선택의 효과

관련 추천 글

RAG 기반 코드 지식화 플랫폼 AskON: 코드를 검색 가능한 지식으로!

자연어 기반 데이터 분석 서비스 InsightLens 개발: SQL 몰라도 OK!

카카오, 전사 AI 역량 강화를 위한 맞춤형 교육 프로그램 도입

tinygrad로 LoRA 구현, LLM 미세 조정의 효율성을 높이다!

Qwen3-Max-Thinking, GPT-5.2와 어깨를 나란히 하다!

LLM 실전 학습을 위한 시각적 가이드

댓글 0

RAG 기반 코드 지식화 플랫폼 AskON: 코드를 검색 가능한 지식으로!

자연어 기반 데이터 분석 서비스 InsightLens 개발: SQL 몰라도 OK!

카카오, 전사 AI 역량 강화를 위한 맞춤형 교육 프로그램 도입

댓글 0

관련 추천 글

RAG 기반 코드 지식화 플랫폼 AskON: 코드를 검색 가능한 지식으로!

자연어 기반 데이터 분석 서비스 InsightLens 개발: SQL 몰라도 OK!

카카오, 전사 AI 역량 강화를 위한 맞춤형 교육 프로그램 도입

tinygrad로 LoRA 구현, LLM 미세 조정의 효율성을 높이다!

Qwen3-Max-Thinking, GPT-5.2와 어깨를 나란히 하다!

LLM 실전 학습을 위한 시각적 가이드

RAG 기반 코드 지식화 플랫폼 AskON: 코드를 검색 가능한 지식으로!

자연어 기반 데이터 분석 서비스 InsightLens 개발: SQL 몰라도 OK!

카카오, 전사 AI 역량 강화를 위한 맞춤형 교육 프로그램 도입