시퀀스 기반 AI로 보이스피싱 탐지하는 카카오뱅크의 기술

금융 범죄의 조직화·다변화에 따라 포인트 기반 탐지의 한계가 드러나자, 고객의 연속적인 행동 패턴인 시퀀스(Sequence) 전체를 분석하는 새로운 탐지 패러다임으로 전환함

Vision Transformer(ViT) 구조를 시계열 데이터에 맞게 변형하여, 멀티스케일 피처 추출(Multi-scale Feature Extraction)과 크로스 어텐션(Cross-Attention) 메커니즘을 적용한 시퀀스 기반 탐지 모델을 개발함

ArcFace 기반 메트릭 학습(Metric Learning)으로 0.1% 이하의 극심한 클래스 불균형 문제를 해결하고, 그래디언트 어텐션 롤아웃(Gradient Attention Rollout) 기법으로 설명 가능한 AI(XAI)를 적용함

Apache Flink 기반 실시간 파이프라인과 NVIDIA Triton 추론 서버를 활용하여 일평균 1,800만 건 요청을 평균 20ms 이하 레이턴시로 처리하며, 하루 평균 이용 고객의 약 30%를 24시간 실시간 모니터링함

금융보안원·케이뱅크·토스뱅크와 협력하여 연합학습(Federated Learning) 기반 ASAP 플랫폼을 통해 금융권 전체의 방어 수준 향상을 추진함

시계열 분류(Time Series Classification)를 위한 ViT 변형 전략

기존 Vision Transformer(ViT)는 이미지 인식에서 패치(Patch)의 지역성(Locality) 가정을 활용하지만, 금융 거래 시퀀스에서는 시간적으로 멀리 떨어진 이벤트가 결정적 단서가 되는 경우가 많다. 카카오뱅크는 이 문제를 해결하기 위해 멀티스케일 피처 추출(Multi-scale Feature Extraction)을 도입했다. 서로 다른 Dilation 간격을 갖는 여러 선형 투영(Linear Projection) 기반 패치 경로를 병렬 블록으로 학습시켜, 인접 이벤트뿐 아니라 장거리 이벤트 간 관계를 동시에 포착할 수 있게 했다. 이를 통해 전통적 시계열 모델이 포착하던 구조를 모방하면서도, 더 넓은 시간적 맥락을 효율적으로 반영하는 것이 가능해졌다. 본문에 따르면 이러한 접근은 인접 이벤트뿐 아니라 시간적으로 멀리 떨어진 이벤트 간 관계까지 한 번에 포착할 수 있었고, multi-scale 시간 패턴을 동시에 반영해 분석 범위를 넓혔다.

클래스 불균형(Class Imbalance) 문제와 메트릭 학습(Metric Learning) 접근

FDS 데이터는 이상거래가 0.1% 이하로 구성되어 극심한 클래스 불균형 문제를 야기한다. 기존 End-to-End 분류 방식으로는 모델이 대부분을 '정상'으로 예측하는 쪽으로 쏠려 소수 클래스 탐지 성능 및 일반화 성능이 저하되는 문제가 발생했다. 카카오뱅크는 이 문제를 해결하기 위해 2-Stage 학습(Two-Stage Learning) 전략을 채택했다. 먼저 ArcFace: Additive Angular Margin Loss 기반 메트릭 학습을 통해 임베딩 공간에서의 분별력을 높이는 표현 학습(Representation Learning)을 1단계에서 수행한 후, Downstream Task를 2단계에서 추가하여 학습을 진행했다. 그 결과 안정적인 학습이 가능해졌으며, t-SNE 시각화를 통해 사기 관련 클래스가 특정 영역에 군집을 형성하는 것을 확인하여 모델이 정상 패턴과 사기 패턴을 의미 있게 분리해 학습했음을 검증했다.

크로스 어텐션(Cross-Attention) 메커니즘을 통한 블록 간 정보 통합

멀티스케일 구조에서는 서로 다른 스케일에서 학습된 여러 블록의 출력을 어떻게 결합하느냐가 핵심이다. 단순 평균/합 연산으로 통합하면 각 패치에서 학습한 정보가 희석되거나 소실되어 일반화 성능이 떨어질 수 있었다. 카카오뱅크는 크로스 어텐션 레이어(Cross-Attention Layer)를 도입하여 이 문제를 해결했다. 크로스 어텐션 레이어는 블록 간 정보를 교환하게 하고, 현재 입력에서 어떤 스케일의 정보가 더 중요한지를 모델이 스스로 가중치(Weight)로 학습하도록 함으로써 전체 표현력을 강화한다. 여러 차례의 실험을 통해 각 구성 요소를 단계적으로 추가할 때마다 성능이 유의미하게 향상되는 것을 확인했으며, 최종적으로 위 구조를 확정했다.

실시간 서빙 아키텍처와 GPU 병렬화 최적화

모델 성능만큼 중요한 과제는 모든 고객에게 빠르고 안정적으로 적용하는 것이었다. 카카오뱅크는 Apache Flink 기반 데이터 파이프라인이 초당 수백만 건의 로그를 실시간으로 수집하여 고객별 시퀀스 형태로 가공하며, 하루 최소 2억 8,800만 건 이상의 레코드를 지연 없이 처리한다. 가공된 시퀀스 데이터는 NVIDIA Triton Inference Server 기반 추론 시스템으로 전달되어 GPU 서빙 환경으로 전환한 뒤, 일평균 1,800만 건 수준의 요청에 대해 평균 20ms 이하 레이턴시를 달성했다. 기존 RNN 계열 모델은 본질적으로 순차 처리가 필요해 GPU 병렬화에 불리하지만, Transformer의 Self-Attention은 시퀀스 내 모든 시점 간 연관성을 직접 계산할 수 있어 대규모 데이터 학습 및 빠른 추론에 유리하다는 점이 설계 결정의 핵심 근거였다.

설명 가능한 AI(XAI)와 그래디언트 어텐션 롤아웃(Gradient Attention Rollout)

룰(Rule) 기반 탐지와 달리, AI 모델은 블랙박스(Black Box)로 불리며 예측의 판단 근거를 파악하기 어렵다는 한계가 있다. 카카오뱅크는 원본 데이터(Raw Data)를 직접 학습하는 시퀀스 모델에 기존 변수 기반 XAI(SHAP, LIME)를 그대로 적용하기 어려운 점을 인식하고, Jacob Gildenblat이 제안한 Gradient Attention Rollout 기법을 활용했다. 이를 통해 모델이 '사기'라고 판단했을 때 입력된 고객 행동 시퀀스 중 어떤 구간(Patches)에 집중하여 그런 결정을 내렸는지를 시각적인 히트맵(Heatmap) 형태로 확인할 수 있게 되었다. 이러한 XAI 적용은 모델의 투명성 확보와 함께, 탐지 결과를 운영하는 현업 부서가 검토하고 의사결정에 활용하는 데 필수적인 요소로 작용한다.

연합학습(Federated Learning)을 통한 금융권 전체 방어 체계

보이스피싱 예방은 흔히 풍선 효과로 비유한다. 한쪽을 누르면 다른 한쪽이 부풀어 오르는 풍선처럼, 특정 은행이 탐지 시스템을 강화하면 범죄자들은 상대적으로 취약한 다른 금융사를 노리는 경향이 있다. 이런 이유로 개별 금융사의 노력만으로는 사회 전체의 보이스피싱 피해를 근본적으로 막기 어렵다. 금융위원회는 ASAP(AI-based anti-phishing Sharing & Analysis Platform) 플랫폼을 출범했으며, 카카오뱅크는 금융보안원·케이뱅크·토스뱅크와 함께 연합학습(Federated Learning) 모델을 구축하고 있다. 이 협력은 개별 은행의 데이터 격리 아키텍처(Data Isolation Architecture)를 유지하면서도 각 사의 탐지 노하우와 패턴을 공동의 모델에 학습시켜 금융권 전반의 방어 수준을 한 단계 끌어올리는 것을 목표로 한다. 이는 각 금융사의 고객 데이터를 외부에 노출하지 않으면서도 협력적으로 보이스피싱 탐지 성능을 개선하는 기울기 기반 연합학습(Gradient-based Federated Learning) 접근으로 이해할 수 있다.