GloZ, Amazon OpenSearch Service로 이력서 검색 혁신
GloZ는 10만 명 규모의 번역가 풀을 대상으로 Amazon OpenSearch Service 기반 이력서 검색 시스템을 구축
기존 PostgreSQL 기반 시스템의 한계를 극복하고자 하이브리드 검색(BM25 + k-NN) 및 다국어 검색(Nori 형태소 분석기) 지원
Amazon Bedrock을 활용한 데이터 정제 파이프라인 구축, Cohere Embed v4 모델로 임베딩 생성
데이터 정제(Cleansing) 우선 전략을 통해 검색 정확도 향상, LLM 환각(Hallucination) 문제 해결
Amazon OpenSearch Service 선택 배경: 기존 시스템의 한계 극복
글로지(GloZ)는 기존 PostgreSQL 기반 시스템의 확장성(Scalability) 및 기능적 한계로 인해 Amazon OpenSearch Service를 도입했다. 기존 시스템은 키워드 검색(BM25)과 벡터 검색을 별도로 운영해야 했으며, 한국어 형태소 분석 미지원으로 다국어 검색 품질이 낮았다.
하이브리드 검색(Hybrid Search): BM25와 k-NN 벡터 검색을 단일 쿼리로 처리하여 검색 정확도 향상
Ingest Pipeline: Ingest Pipeline을 통해 임베딩 자동화(Embedding Automation)를 구현하여 아키텍처 단순화
Nori 형태소 분석기: 한국어 복합어 검색 지원으로 다국어 검색 품질(Multilingual Search Quality) 개선
데이터 정제 파이프라인 설계: 검색 정확도 향상의 핵심
본문에서는 데이터 정제(Data Cleansing)의 중요성을 강조하며, 이력서 원문의 품질이 검색 정확도에 미치는 영향이 크다고 설명한다. 다양한 형식의 이력서 처리를 위해 문서 유형별 파싱 전략을 수립하고, LLM 기반 메타데이터 구조화 및 정규화 과정을 거쳤다.
문서 유형별 파싱: PDF, DOCX, 이미지 PDF 등 다양한 형식 지원
LLM 기반 메타데이터 구조화: Bedrock Claude 모델 활용, 표준 어휘 사전, 별칭 사전, 퍼지 매칭 적용
LLM 환각(Hallucination) 후처리 검증: 원문 텍스트와의 키워드 매칭 기반 검증으로 데이터 품질(Data Quality) 확보
임베딩 입력 전략: 요약 + 메타데이터 키워드 평탄화
검색 정확도 향상을 위해 임베딩 입력 전략(Embedding Input Strategy)을 실험적으로 비교 분석했다. 원문 전체, 구조화된 JSON, 요약, 요약 + 메타데이터 키워드 평탄화 등 4가지 전략을 비교한 결과, 요약 + 메타데이터 키워드 평탄화 방식이 가장 높은 정확도를 보였다. 이는 의미 유사도와 키워드 정확 매칭을 모두 확보한 결과이다.
원문 전체 임베딩: 자기소개, 취미 등 무의미한 토큰으로 인해 정확도 저하
요약 + 메타데이터 키워드 평탄화: 의미 유사도(Semantic Similarity)와 키워드 정확도(Keyword Accuracy)를 모두 확보
HNSW 알고리즘: k-NN 검색에 HNSW 알고리즘을 채택하여 빠른 응답 속도(Fast Response Time) 확보
OpenSearch Ingest Pipeline을 활용한 임베딩 자동화
Amazon OpenSearch Ingest Pipeline을 활용하여 이력서 인덱싱 시 임베딩을 자동 생성하는 아키텍처를 구현했다. Script Processor를 통해 요약 텍스트와 메타데이터 키워드를 결합하고, ML Connector를 통해 Bedrock Cohere Embedding 모델을 호출하여 벡터를 생성한다.
Script Processor: 요약 텍스트와 메타데이터 키워드를 결합하여 search_text 필드 생성
ML Connector: Bedrock Cohere Embedding 모델 호출, 벡터 자동 생성
default_pipeline: 인덱스 레벨에 Ingest Pipeline을 지정하여 자동 임베딩(Automatic Embedding) 구현
이러한 자동화된 임베딩 생성 과정을 통해 데이터 파이프라인을 효율적으로 구축하고, 검색 시스템의 운영 효율성을 높였다.