신한카드, 온톨로지와 sLLM으로 금융 챗봇 혁신

금융 고객 상담의 복잡성(주제 전환, 미세 의도 변별) 해결을 위해 차세대 AI 챗봇 도입 필요성 대두

규제, 비용, 지연 시간 제약 극복을 위해 소형 언어 모델(sLLM) 기반의 고효율 챗봇 솔루션 모색

온톨로지 기반 인텐트 분류로 51개 인텐트 정확도 향상 및 토큰 효율화 달성

분산형 Agentic AI 아키텍처로 sLLM의 지능 한계를 극복하고 5초 이내 응답 시간 요건 충족

AI-to-AI 대화를 통한 자율 시스템 업데이트로 개발 및 개선 주기 단축

온톨로지 기반 인텐트 분류의 정확도 및 효율성 향상

기존 프롬프트 기반 인텐트 분류 방식은 방대한 토큰 소모와 정보 과부하로 인한 sLLM의 추론 정확도 한계가 있었습니다. 이를 해결하기 위해 인텐트 온톨로지(Intent Ontology)를 설계하여 도메인(Domain), 액션(Action), 태그(Tag)로 구조화했습니다. 각 속성별로 사전 정의된 용어 정의를 프롬프트에 포함시켜 sLLM이 독립적으로 추출하도록 하고, 추출된 속성을 그래프 매칭(Graph Matching) 로직으로 최종 인텐트를 결정론적으로 확정합니다. 이 방식은 Qwen3 32B 모델에서 기존 대비 6.8%의 정확도 향상을 보였으며, 토큰 소모량은 약 1/3 수준으로 줄여 지연 시간(Latency)을 획기적으로 단축했습니다. 특히, 파라미터 수가 8배 많은 대형 모델 대비 높은 정확도를 달성하며 sLLM의 가능성을 입증했습니다.

분산형 Agentic AI 아키텍처로 sLLM의 한계 극복

중앙 집중형 Agentic AI 구조는 오케스트레이터의 높은 지능을 요구하여 sLLM 적용에 한계가 있었습니다. 본 솔루션은 분산형 Agentic AI 아키텍처를 채택하여 이 문제를 해결했습니다. 각 에이전트는 '이 쿼리가 나와 관련 있는가?'라는 단순 이진 분류(Binary Classification)만 수행하며, 모든 에이전트가 병렬로 동시에 실행됩니다. 이를 통해 오케스트레이터의 지능 부족을 아키텍처로 우회하고, sLLM만으로 모든 에이전트를 실행하여 Claude Opus 4.5 대비 약 18배의 비용 절감 효과를 얻었습니다. 또한, 병렬 실행으로 5초 이내 응답 요건을 충족하며 대형 모델의 속도 문제를 해결했습니다.

AI-to-AI 대화를 통한 자율 시스템 업데이트 메커니즘

기존 챗봇 개발의 어려움인 멀티턴 대화 시뮬레이션 및 수동 업데이트 과정을 Tikitaka라는 AI-to-AI 대화 시스템으로 자동화했습니다. Test Agent가 페르소나 기반으로 동적 멀티턴 대화 시뮬레이션을 수행하고, Analyzer Agent가 실패 원인을 코드 레벨까지 분석합니다. 이후 Code Reviewer Agent와 Solution Designer Agent가 협력하여 수정안을 제안하고, Update Agent가 검증 후 프로덕션에 자율적으로 배포합니다. 이 과정은 반응적 유지보수에서 능동적 자가 치유로의 패러다임 전환을 의미하며, 개발 및 개선 주기를 획기적으로 단축합니다.

sLLM 기반 금융 챗봇의 규제 및 비용 제약 극복 전략

금융권 AI 챗봇은 고객 데이터 활용 규제와 운영 비용, 응답 지연 시간(Latency)이라는 현실적 제약에 직면합니다. 본 솔루션은 상용 모델 대신 자체 호스팅 가능한 소형 언어 모델(sLLM)을 채택하여 규제 승인 절차를 간소화하고 운영 비용을 절감했습니다. 특히, 온톨로지 기반 인텐트 분류와 분산형 Agentic AI 아키텍처를 통해 sLLM의 성능과 속도 한계를 극복함으로써, 5초 이내 응답 시간 요건을 충족했습니다. 이는 '작은 모델로도 큰 지능 구현'이 가능하다는 것을 입증하며, 금융권 AI 도입의 새로운 가능성을 제시합니다.

AWS 기반 Agentic AI 시스템 아키텍처 상세

본 솔루션은 Amazon Bedrock AgentCore를 기반으로 구축되었습니다. Router Agent가 온톨로지 기반 병렬 분류를 통해 전문 에이전트를 결정하고, Qwen3 32B 기반의 sLLM 에이전트들이 작업을 병렬 수행합니다. 백엔드 데이터 접근은 AgentCore Gateway(MCP)를 통해 REST API를 Lambda 함수로 변환하여 DynamoDB와 연동하며, 모든 AI 추론은 AWS PrivateLink를 통해 안전하고 저지연으로 Amazon Bedrock에 접근합니다. 이 아키텍처는 데이터 격리(Data Isolation) 및 보안 가드레일 적용을 통해 금융 규제 준수와 안정적인 운영을 보장합니다.