Amazon Bedrock과 LangGraph로 QA 테스트 자동화, 시간 98% 단축!

키다리스튜디오는 Amazon Bedrock의 Claude 모델과 LangGraph 기반 멀티 에이전트 아키텍처를 활용하여 QA 테스트 케이스 생성 자동화 시스템을 개발

기획서 URL, 이미지 등을 입력받아 2~5분 만에 테스트 케이스 자동 생성하며, 초안 커버리지 70~80% 달성

초기 PoC의 한계를 극복하기 위해 LangGraph 멀티 에이전트 아키텍처를 도입, Human-in-the-Loop(HITL)를 통해 할루시네이션 문제 해결

AWS EKS 클러스터를 활용하여 서버리스(Serverless) 환경 구축, 비용 효율성과 확장성을 확보

LangGraph 멀티 에이전트 아키텍처 설계

키다리스튜디오는 LangGraph를 활용하여 테스트 케이스 생성 과정을 전문화된 에이전트들의 협업 구조로 설계했다.

Researcher(리서처): Playwright를 활용하여 웹페이지 접근 및 시각적/텍스트 데이터 수집

Strategist(전략가): 리서처 분석 결과를 바탕으로 TC 생성 영역 구분 및 방향성 설정, Human-in-the-Loop(HITL)를 통한 할루시네이션 문제 해결

Director(디렉터): 전략가가 설정한 방향에 따라 워커 에이전트에게 구체적인 지시사항 생성

Worker Tool(워커): 디렉터의 지시사항에 맞춰 실제 테스트 케이스 생성

Finalizer(파이널라이저): 모든 워커의 결과를 통합하고 QA팀 표준 포맷으로 변환

이러한 구조는 실제 QA 조직의 업무 분담 방식과 유사하며, 업무 프로세스(Work Process)를 반영한 에이전트 설계를 통해 시스템의 효과를 극대화했다.

Amazon Bedrock Claude 모델 최적 활용

키다리스튜디오는 Amazon Bedrock에서 제공하는 다양한 Claude 모델 패밀리를 활용하여 비용과 성능의 균형을 맞췄다.

Claude 4.0 Opus (Researcher, Strategist): 복잡한 UI 이미지 분석과 TC 전략 수립에 최상위 모델(Top-tier Model) 활용

Claude 4.0 Sonnet (Director, Worker): TC 지시사항 생성과 실제 TC 작성에 비용 효율적인 모델(Cost-effective Model) 배치

Claude 4.5 Haiku (Strategist HITL 과정): Human-in-the-Loop 단계에서 경량 모델(Lightweight Model) 활용

각 에이전트의 업무 특성에 따라 적합한 모델을 선택함으로써, 전체 비용을 절감하면서도 테스트 케이스 품질(Test Case Quality)을 유지할 수 있었다.

Human-in-the-Loop(HITL)를 통한 할루시네이션 대응

프로젝트 초기, LLM이 복잡한 UI 이미지를 분석하면서 할루시네이션(Hallucination) 문제가 발생했다. 이를 해결하기 위해 Strategist 노드에 엔지니어 검증 단계를 추가하여 할루시네이션이 후속 단계로 전파되는 것을 차단했다.

Strategist(전략가)의 Human-in-the-Loop(HITL) 검증: LLM 전처리 결과 검증 및 수정

엔지니어 개입 최소화: 자동화와 인간 검증의 적절한 균형점 모색

반복적 개선: 할루시네이션 문제 해결을 위해 지속적인 개선을 진행

Human-in-the-Loop(HITL) 설계**는 LLM의 한계를 보완하고, 자동화 시스템의 신뢰도를 높이는 데 기여했다.

AWS 클라우드 인프라 구축 및 운영

키다리스튜디오는 기존 온프레미스 환경의 한계를 극복하고, 서버리스(Serverless) 지향적인 AWS 클라우드 인프라를 구축했다.

AWS EKS 클러스터 활용: Slack 요청 시 API Gateway와 Lambda가 트리거, LangGraph 워크플로우는 EKS Pod에서 실행

API Gateway와 Lambda: Slack 이벤트 수신 및 EKS 작업 트리거

Slack SIGNING_SECRET: Lambda 내부 인증

Slack ID 기반 Command Filtering: 인증/인가 체계 적용

이를 통해 별도의 고정 서버 비용 없이 요청 시에만 리소스를 사용하는 비용 효율적인 운영(Cost-effective Operation)을 가능하게 했다.

테스트 자동화 시스템의 정량적/정성적 성과

키다리스튜디오는 테스트 케이스 자동화 시스템 도입을 통해 획기적인 시간 절감과 테스트 품질 향상을 달성했다.

TC 작성 시간: 3~4시간(수동) → 2~5분(자동), 최대 120배, 98% 시간 절감

초안 커버리지: 70~80% (QA팀 블라인드 피드백 기준)

TC 1개당 비용: 5원~12원 (인풋 데이터 크기에 따라 변동)

QA 엔지니어링팀 블라인드 피드백: “TC 문서 작성 시간 대폭 단축”, “다양한 케이스 자동 생성으로 예외 상황 커버”

정량적 성과(Quantitative Result)와 정성적 피드백(Qualitative Feedback)**을 통해 자동화 시스템의 효과를 입증했다.

키다리스튜디오의 QA 테스트 케이스 생성 자동화 — Amazon Bedrock과 LangGraph 활용 사례

키다리스튜디오는 Amazon Bedrock의 Claude 모델과 LangGraph 기반 멀티 에이전트 아키텍처를 활용하여 QA 테스트 케이스 생성 자동화 시스템을 개발

기획서 URL, 이미지 등을 입력받아 2~5분 만에 테스트 케이스 자동 생성하며, 초안 커버리지 70~80% 달성

초기 PoC의 한계를 극복하기 위해 LangGraph 멀티 에이전트 아키텍처를 도입, Human-in-the-Loop(HITL)를 통해 할루시네이션 문제 해결

AWS EKS 클러스터를 활용하여 서버리스(Serverless) 환경 구축, 비용 효율성과 확장성을 확보

LangGraph 멀티 에이전트 아키텍처 설계

키다리스튜디오는 LangGraph를 활용하여 테스트 케이스 생성 과정을 전문화된 에이전트들의 협업 구조로 설계했다.

Researcher(리서처): Playwright를 활용하여 웹페이지 접근 및 시각적/텍스트 데이터 수집

Strategist(전략가): 리서처 분석 결과를 바탕으로 TC 생성 영역 구분 및 방향성 설정, Human-in-the-Loop(HITL)를 통한 할루시네이션 문제 해결

Director(디렉터): 전략가가 설정한 방향에 따라 워커 에이전트에게 구체적인 지시사항 생성

Worker Tool(워커): 디렉터의 지시사항에 맞춰 실제 테스트 케이스 생성

Finalizer(파이널라이저): 모든 워커의 결과를 통합하고 QA팀 표준 포맷으로 변환

이러한 구조는 실제 QA 조직의 업무 분담 방식과 유사하며, 업무 프로세스(Work Process)를 반영한 에이전트 설계를 통해 시스템의 효과를 극대화했다.

Amazon Bedrock Claude 모델 최적 활용

키다리스튜디오는 Amazon Bedrock에서 제공하는 다양한 Claude 모델 패밀리를 활용하여 비용과 성능의 균형을 맞췄다.

Claude 4.0 Opus (Researcher, Strategist): 복잡한 UI 이미지 분석과 TC 전략 수립에 최상위 모델(Top-tier Model) 활용

Claude 4.0 Sonnet (Director, Worker): TC 지시사항 생성과 실제 TC 작성에 비용 효율적인 모델(Cost-effective Model) 배치

Claude 4.5 Haiku (Strategist HITL 과정): Human-in-the-Loop 단계에서 경량 모델(Lightweight Model) 활용

각 에이전트의 업무 특성에 따라 적합한 모델을 선택함으로써, 전체 비용을 절감하면서도 테스트 케이스 품질(Test Case Quality)을 유지할 수 있었다.

Human-in-the-Loop(HITL)를 통한 할루시네이션 대응

Strategist(전략가)의 Human-in-the-Loop(HITL) 검증: LLM 전처리 결과 검증 및 수정

엔지니어 개입 최소화: 자동화와 인간 검증의 적절한 균형점 모색

반복적 개선: 할루시네이션 문제 해결을 위해 지속적인 개선을 진행

Human-in-the-Loop(HITL) 설계**는 LLM의 한계를 보완하고, 자동화 시스템의 신뢰도를 높이는 데 기여했다.

AWS 클라우드 인프라 구축 및 운영

키다리스튜디오는 기존 온프레미스 환경의 한계를 극복하고, 서버리스(Serverless) 지향적인 AWS 클라우드 인프라를 구축했다.

AWS EKS 클러스터 활용: Slack 요청 시 API Gateway와 Lambda가 트리거, LangGraph 워크플로우는 EKS Pod에서 실행

API Gateway와 Lambda: Slack 이벤트 수신 및 EKS 작업 트리거

Slack SIGNING_SECRET: Lambda 내부 인증

Slack ID 기반 Command Filtering: 인증/인가 체계 적용

이를 통해 별도의 고정 서버 비용 없이 요청 시에만 리소스를 사용하는 비용 효율적인 운영(Cost-effective Operation)을 가능하게 했다.

테스트 자동화 시스템의 정량적/정성적 성과

키다리스튜디오는 테스트 케이스 자동화 시스템 도입을 통해 획기적인 시간 절감과 테스트 품질 향상을 달성했다.

TC 작성 시간: 3~4시간(수동) → 2~5분(자동), 최대 120배, 98% 시간 절감

초안 커버리지: 70~80% (QA팀 블라인드 피드백 기준)

TC 1개당 비용: 5원~12원 (인풋 데이터 크기에 따라 변동)

QA 엔지니어링팀 블라인드 피드백: “TC 문서 작성 시간 대폭 단축”, “다양한 케이스 자동 생성으로 예외 상황 커버”

정량적 성과(Quantitative Result)와 정성적 피드백(Qualitative Feedback)**을 통해 자동화 시스템의 효과를 입증했다.

AI 에이전트, 장애 대응 시간을 5분으로 단축!

HYBE, AI 에이전트로 인시던트 조사 1시간 → 즉시 완료

클로봇, AI 챗봇으로 건설 현장 해충 방역 자동화!

AI 에이전트, 이제 블랙박스에서 탈출! Bedrock Observability로 투명하게!

티오더, 자연어 기반 데이터 조회 에이전트 '티스푼'으로 데이터 접근성 혁신

AI가 모르는 엔지니어링 지식, 지식 그래프로 해결

첫 번째 댓글을 남겨보세요!

Amazon Bedrock과 LangGraph로 QA 테스트 자동화, 시간 98% 단축!

LangGraph 멀티 에이전트 아키텍처 설계

Amazon Bedrock Claude 모델 최적 활용

Human-in-the-Loop(HITL)를 통한 할루시네이션 대응

AWS 클라우드 인프라 구축 및 운영

테스트 자동화 시스템의 정량적/정성적 성과

Amazon Bedrock과 LangGraph로 QA 테스트 자동화, 시간 98% 단축!

LangGraph 멀티 에이전트 아키텍처 설계

Amazon Bedrock Claude 모델 최적 활용

Human-in-the-Loop(HITL)를 통한 할루시네이션 대응

AWS 클라우드 인프라 구축 및 운영

테스트 자동화 시스템의 정량적/정성적 성과

관련 추천 글

AI 에이전트, 장애 대응 시간을 5분으로 단축!

HYBE, AI 에이전트로 인시던트 조사 1시간 → 즉시 완료

클로봇, AI 챗봇으로 건설 현장 해충 방역 자동화!

AI 에이전트, 이제 블랙박스에서 탈출! Bedrock Observability로 투명하게!

티오더, 자연어 기반 데이터 조회 에이전트 '티스푼'으로 데이터 접근성 혁신

AI가 모르는 엔지니어링 지식, 지식 그래프로 해결

댓글 0

AI 에이전트, 장애 대응 시간을 5분으로 단축!

HYBE, AI 에이전트로 인시던트 조사 1시간 → 즉시 완료

클로봇, AI 챗봇으로 건설 현장 해충 방역 자동화!

관련 추천 글

AI 에이전트, 장애 대응 시간을 5분으로 단축!

HYBE, AI 에이전트로 인시던트 조사 1시간 → 즉시 완료

클로봇, AI 챗봇으로 건설 현장 해충 방역 자동화!

AI 에이전트, 이제 블랙박스에서 탈출! Bedrock Observability로 투명하게!

티오더, 자연어 기반 데이터 조회 에이전트 '티스푼'으로 데이터 접근성 혁신

AI가 모르는 엔지니어링 지식, 지식 그래프로 해결

댓글 0

AI 에이전트, 장애 대응 시간을 5분으로 단축!

HYBE, AI 에이전트로 인시던트 조사 1시간 → 즉시 완료

클로봇, AI 챗봇으로 건설 현장 해충 방역 자동화!