인과 추론, 이제 AI 에이전트와 함께 더 정확하게

by DD
3일 전
조회수 0

관찰 가능한 인과 추론(OCI) 작업의 복잡성과 오류 가능성을 줄이기 위해 소프트웨어 에이전트(Software Agent) 기반 워크플로우를 제안함

인간의 평가와 개입을 강화하여 에이전트의 분석 결과에 대한 신뢰도를 높이는 데 중점

넷플릭스(Netflix)의 OCI 툴킷을 기반으로 하며, ACIC 데이터셋을 활용한 성능 평가에서 경쟁력 입증

조기 사용자 편향(Early Adopter Bias)과 같은 OCI의 주요 난제를 해결하기 위한 민감도 분석(Sensitivity Analysis)트리밍(Trimming) 기법 적용

에이전트 기반 인과 추론 워크플로우의 작동 원리

본 워크플로우는 주요 사용자(Principal), 행위자(Actor), 비평가(Critic) 세 가지 페르소나를 활용하여 인과 추론 과정을 자동화하고 인간의 검토를 강화한다.

행위자(Actor)는 분석 계획을 구체화하고, 더블리 로버스트 학습(Doubly Robust Learning)과 같은 통계적 기법을 사용하여 네 가지 설계 진단(Covariate Balance, Overlap, Placebo Outcome, Sensitivity Analysis)을 포함한 핵심 분석을 수행한다.

비평가(Critic)는 행위자의 분석 결과를 종합하고, 잠재적 편향이나 누락된 변수를 식별하며, 분석의 신뢰도 수준을 평가한다.

이러한 행위자-비평가 루프(Actor-Critic Loop)는 반복적인 분석과 피드백을 통해 결과의 정확성과 신뢰성을 체계적으로 향상시킨다.

관찰 가능한 인과 추론(OCI)의 핵심 진단 기법

OCI의 신뢰도를 확보하기 위해 워크플로우는 네 가지 핵심 설계 진단을 강조한다. 이는 이상적인 A/B 테스트(Target Randomized Controlled Trial)의 가정을 충족하는지 검증하는 과정이다.

공변량 균형(Covariate Balance): 가중치 적용 후, 처리군과 대조군 간의 사전 공변량 표준 평균 차이가 0.2 미만이어야 함.

중첩(Overlap): 처리 확률(Propensity Score)이 0.1과 0.9 사이에 존재해야 함.

플라시보 결과(Placebo Outcome): 처리 전에 측정된 변수에 대한 '처리 효과'가 0과 유의미한 차이가 없어야 함.

숨겨진 교란 변수에 대한 민감도(Sensitivity to Hidden Confounders): 결과에 대한 잠재적 편향을 정량화함.

이러한 진단은 데이터 격리 아키텍처(Data Isolation Architecture)를 통해 각 단계의 투명성을 높여 인간의 검토를 지원한다.

LLM 기반 분석의 한계와 에이전트 워크플로우의 필요성

단순 원샷 프롬프팅(One-shot Prompting) 방식의 LLM은 인과 추론과 같이 복잡하고 맥락 의존적인 작업에서 부정확한 결과를 도출할 가능성이 높다. 넷플릭스 사례에서 초기 사용자 편향(Early Adopter Bias)으로 인한 오버랩(Overlap) 부족 문제가 발생했다.

에이전트 워크플로우는 크럼프 스타일 트리밍(Crump-style Trimming)과 같은 기법을 적용하여 추정치의 신뢰도를 높이고 편향된 결과를 완화한다.

또한, 민감도 분석(Sensitivity Analysis)을 통해 트리밍 임계값 변화에 따른 결과의 견고성을 검증하고, 시간 경과에 따른 효과 변화를 분석하는 등 복잡한 후속 분석을 체계적으로 관리한다.

결론적으로, 에이전트의 체계적인 가이드라인(Scaffolding)은 LLM이 OCI 작업에서 최적의 성능을 발휘하도록 돕는 핵심 요소이다.

ACIC 데이터셋 기반 에이전트 성능 평가

공개된 ACIC(Atlantic Causal Inference Competition) 데이터셋을 활용한 평가는 제안된 워크플로우의 통계적 방법론이 기존 벤치마크와 경쟁력이 있음을 보여준다.

평균 RMSE(Root Mean Squared Error)와 95% 신뢰 구간 커버리지 측면에서 44개의 경쟁 방법론과 비교했을 때 합리적인 수준의 성능을 달성함.

특히, 워크플로우의 진단 기능(Diagnostic Suite)은 만족스러운(Satisfactory) 추정치와 불만족스러운(Unsatisfactory) 추정치를 효과적으로 분리하여 결과의 신뢰도를 향상시킴.

이는 에이전트가 단순히 결과를 반환하는 것을 넘어, 분석 과정의 품질을 보증하는 데 중요한 역할을 함을 시사한다.

인간 평가 강화를 위한 투명성 및 아티팩트 관리

본 워크플로우는 결과뿐만 아니라 분석 과정 자체의 투명성을 강조하여 인간의 평가를 지원한다. 에이전트는 분석 계획, 사양, 플롯, 노트북 등 검토 가능한 아티팩트(Inspectable Artifacts)를 생성한다.

이러한 아티팩트는 버전 관리(Version Control)되고 파일 저장소에 업로드되어, 사용자가 필요시 다운로드 및 재실행할 수 있다.

이는 프로세스 감사(Process Audits)를 가능하게 하여, 정답이 없는 OCI 분야에서 에이전트의 신뢰성을 구축하는 핵심 요소이다.

궁극적으로, 이 접근 방식은 인간의 전문 지식과 에이전트의 효율성을 결합하여 더 나은 의사결정을 지원하는 것을 목표로 한다.

A Human-Augmenting Agentic Workflow for Causal Inference