인과 추론, 이제 AI 에이전트와 함께 더 정확하게

관찰 가능한 인과 추론(OCI) 작업의 복잡성과 오류 가능성을 줄이기 위해 소프트웨어 에이전트(Software Agent) 기반 워크플로우를 제안함

인간의 평가와 개입을 강화하여 에이전트의 분석 결과에 대한 신뢰도를 높이는 데 중점

넷플릭스(Netflix)의 OCI 툴킷을 기반으로 하며, ACIC 데이터셋을 활용한 성능 평가에서 경쟁력 입증

조기 사용자 편향(Early Adopter Bias)과 같은 OCI의 주요 난제를 해결하기 위한 민감도 분석(Sensitivity Analysis) 및 트리밍(Trimming) 기법 적용

에이전트 기반 인과 추론 워크플로우의 작동 원리

본 워크플로우는 주요 사용자(Principal), 행위자(Actor), 비평가(Critic) 세 가지 페르소나를 활용하여 인과 추론 과정을 자동화하고 인간의 검토를 강화한다.

행위자(Actor)는 분석 계획을 구체화하고, 더블리 로버스트 학습(Doubly Robust Learning)과 같은 통계적 기법을 사용하여 네 가지 설계 진단(Covariate Balance, Overlap, Placebo Outcome, Sensitivity Analysis)을 포함한 핵심 분석을 수행한다.

비평가(Critic)는 행위자의 분석 결과를 종합하고, 잠재적 편향이나 누락된 변수를 식별하며, 분석의 신뢰도 수준을 평가한다.

이러한 행위자-비평가 루프(Actor-Critic Loop)는 반복적인 분석과 피드백을 통해 결과의 정확성과 신뢰성을 체계적으로 향상시킨다.

관찰 가능한 인과 추론(OCI)의 핵심 진단 기법

OCI의 신뢰도를 확보하기 위해 워크플로우는 네 가지 핵심 설계 진단을 강조한다. 이는 이상적인 A/B 테스트(Target Randomized Controlled Trial)의 가정을 충족하는지 검증하는 과정이다.

공변량 균형(Covariate Balance): 가중치 적용 후, 처리군과 대조군 간의 사전 공변량 표준 평균 차이가 0.2 미만이어야 함.

중첩(Overlap): 처리 확률(Propensity Score)이 0.1과 0.9 사이에 존재해야 함.

플라시보 결과(Placebo Outcome): 처리 전에 측정된 변수에 대한 '처리 효과'가 0과 유의미한 차이가 없어야 함.

숨겨진 교란 변수에 대한 민감도(Sensitivity to Hidden Confounders): 결과에 대한 잠재적 편향을 정량화함.

이러한 진단은 데이터 격리 아키텍처(Data Isolation Architecture)를 통해 각 단계의 투명성을 높여 인간의 검토를 지원한다.

LLM 기반 분석의 한계와 에이전트 워크플로우의 필요성

단순 원샷 프롬프팅(One-shot Prompting) 방식의 LLM은 인과 추론과 같이 복잡하고 맥락 의존적인 작업에서 부정확한 결과를 도출할 가능성이 높다. 넷플릭스 사례에서 초기 사용자 편향(Early Adopter Bias)으로 인한 오버랩(Overlap) 부족 문제가 발생했다.

에이전트 워크플로우는 크럼프 스타일 트리밍(Crump-style Trimming)과 같은 기법을 적용하여 추정치의 신뢰도를 높이고 편향된 결과를 완화한다.

또한, 민감도 분석(Sensitivity Analysis)을 통해 트리밍 임계값 변화에 따른 결과의 견고성을 검증하고, 시간 경과에 따른 효과 변화를 분석하는 등 복잡한 후속 분석을 체계적으로 관리한다.

결론적으로, 에이전트의 체계적인 가이드라인(Scaffolding)은 LLM이 OCI 작업에서 최적의 성능을 발휘하도록 돕는 핵심 요소이다.