Pinterest, AI 기반 Text-to-SQL로 분석 생산성 10배 향상
Pinterest는 10만 개 이상의 분석 테이블과 2,500명 이상의 분석 사용자를 위해 RAG 기반 Text-to-SQL 시스템을 구축함
통합 컨텍스트-의도 임베딩(Unified Context-Intent Embeddings)을 활용하여 쿼리의 의미를 파악하고, 구조적/통계적 패턴(Structural & Statistical Patterns)과 거버넌스(Governance)를 결합하여 신뢰할 수 있는 결과를 제공
AI 기반 문서 자동 생성, 조인 기반 계보(Join-Based Lineage)를 통해 데이터 거버넌스(Data Governance) 자동화 및 분석 생산성 향상
분석가의 쿼리 기록을 활용하여 재사용 가능한 지식 기반(Reusable Knowledge Base)을 구축하고, 지속적인 학습을 통해 시스템 성능을 개선
통합 컨텍스트-의도 임베딩(Unified Context-Intent Embeddings)의 작동 원리
Pinterest는 쿼리 기록을 분석하여 분석 의도(Analytical Intent)를 파악하고, 이를 기반으로 쿼리를 임베딩(Embedding)하는 방식을 채택했다.
3단계 파이프라인: 도메인 컨텍스트 주입(Domain Context Injection), SQL을 텍스트로 변환, 텍스트를 임베딩으로 변환
도메인 컨텍스트 주입: PinCat의 테이블/컬럼 설명, 용어집, 메트릭 정의 등을 활용하여 LLM(Large Language Model)의 이해도 향상
텍스트 변환: SQL 쿼리를 분석 의도를 담은 자연어 설명으로 변환하여 의미 기반 검색(Semantic Retrieval) 가능
결과적으로, 쿼리의 문법적 일치 여부와 관계없이 의미적으로 유사한 쿼리를 검색할 수 있다.
구조적/통계적 패턴(Structural & Statistical Patterns) 분석
Pinterest는 쿼리 기록에서 구조적 패턴(Structural Patterns)과 통계적 신호(Statistical Signals)를 추출하여 쿼리 생성에 활용한다.
구조적 패턴: 조인(Join) 패턴, 필터(Filter) 조건, 집계 방식 등 SQL 쿼리의 구조 분석
통계적 신호: 테이블의 동시 사용 빈도, 쿼리 성공률, 사용 빈도, 분석가 전문성 등 쿼리 실행 메타데이터 분석
거버넌스(Governance) 연계: 테이블 티어(Tier), 데이터 갱신 주기, 문서화 품질 등을 고려하여 신뢰할 수 있는 데이터 자산(Data Assets) 우선 노출
이러한 패턴들을 통해 쿼리 생성 시 검증된 패턴을 활용하고, 데이터 품질을 보장한다.
AI 기반 문서 자동화 및 데이터 거버넌스(Data Governance)
Pinterest는 AI를 활용하여 데이터 거버넌스(Data Governance)를 자동화하고, 분석 생산성을 향상시켰다.
AI 기반 테이블/컬럼 문서 자동 생성: 데이터 계보(Data Lineage), PinCat 문서, 용어집 등을 활용하여 문서화 노력 40% 절감
조인 기반 계보(Join-Based Lineage): 조인 패턴을 분석하여 컬럼의 의미를 자동으로 추론하고, 수동 작업 70% 감소
검색 기반 전파: 의미 기반 검색을 통해 용어집 정의를 전파하여 문서화 일관성 유지
결과적으로, AI를 통해 데이터 자산의 품질을 높이고, 분석가의 데이터 접근성을 개선했다.
Pinterest Analytics Agent 아키텍처
Pinterest Analytics Agent는 4개의 레이어(Layer)로 구성되어 있으며, 각 레이어는 특정 기능을 담당한다.
Agent Orchestration Layer: LLM을 사용하여 작업 분류 및 도구 호출 결정
MCP Integration Layer: 테이블/쿼리 검색, 지식 검색, Presto 실행을 위한 통합 인터페이스 제공
Context Layer: PinCat 스키마, 벡터 인덱스, 쿼리 기록 등 지식 기반
Execution Layer: Presto를 사용하여 SQL 실행 및 검증
이러한 아키텍처를 통해 분석가는 자연어로 질문하고, 검증된 SQL 쿼리(Validated SQL)와 결과를 얻을 수 있다.
성능 평가 및 향후 계획
Pinterest는 벤치마킹 프레임워크를 통해 Analytics Agent의 성능을 평가하고, 지속적인 개선을 추진하고 있다.
핵심 평가 지표: 테이블 검색 정확도(Table Discovery Accuracy) 및 SQL 생성 정확도(SQL Generation Accuracy)
개선 과제: 복잡한 분석 로직, 모호한 비즈니스 용어, 여러 도메인에 걸친 쿼리 처리, 스키마 변경 대응
향후 계획: 대시보드, 시각화 추천, Python 기반 분석 기능 추가, 다른 에이전트와의 연동 등 기능 확장 및 통합 강화
결과적으로, Pinterest는 AI 기반 분석 시스템을 통해 데이터 접근성을 높이고, 분석 생산성을 지속적으로 향상시킬 계획이다.