LLM, 똑똑하게 쓰려면? 컨텍스트 엔지니어링이 답!

by DD

2026-01-14

4개월 전

조회수 72

LY Corporation의 AI 어시스턴트 구축 경험을 바탕으로, 컨텍스트 엔지니어링(Context Engineering)의 중요성을 강조하며, 프롬프트 엔지니어링(Prompt Engineering)과의 차별점을 설명함.

LLM의 성능 저하 요인으로 컨텍스트 길이(Context Length)와 품질 저하(Quality)를 지적하며, 관련 연구 결과를 제시함.

Flava AI 어시스턴트 구축을 위해 점진적 공개(Progressive Disclosure) 전략을 채택, 필요한 정보만 선택적으로 제공하는 방식을 사용함.

응답 가이드라인(Response Guidelines)을 도구 메시지(Tool Message) 형태로 제공하여, 시스템 프롬프트와의 충돌을 방지하고 AI 환각(Hallucination) 문제를 해결함.

컨텍스트 엔지니어링(Context Engineering)의 핵심 전략: 점진적 공개

본문에서는 Flava AI 어시스턴트 구축 과정에서 점진적 공개(Progressive Disclosure) 전략을 채택하여 LLM의 성능 저하 문제를 해결했다고 설명한다. 이는 모든 정보를 한 번에 제공하는 대신, 사용자의 질문과 상황에 따라 필요한 정보만 선택적으로 제공하는 방식이다.

도구 선별(Tool Selection): 260개 API 중 관련 도구만 선택하여 컨텍스트(Context)를 절약

사용법 제공(Usage Guidance): 제품별 사용법을 필요한 시점에만 제공

응답 가이드라인(Response Guidelines): 상황별 행동 지침을 도구 메시지(Tool Message) 형태로 주입하여 시스템 프롬프트와의 충돌 방지

이러한 전략은 LLM의 컨텍스트 윈도우(Context Window) 제약과 정보 과부하 문제를 동시에 해결하며, AI 어시스턴트의 정확성과 효율성을 높이는 데 기여한다.

LLM 성능 저하의 두 가지 원인: 길이와 품질

글에서는 LLM의 성능 저하 요인으로 컨텍스트 길이(Context Length)와 품질 저하(Quality)를 지적하며, 관련 연구 결과를 제시한다.

컨텍스트 길이(Context Length) 문제: 컨텍스트 길이가 길어질수록 성능이 하락하며, 64K 토큰(Token)을 초과하는 경우 RAG(Retrieval-Augmented Generation) 성능 저하 발생

품질 저하(Quality) 문제: 관련 없는 정보(Noise)가 섞이면 오답을 생성하는 AI 환각(Hallucination) 발생

해결책: 점진적 공개(Progressive Disclosure) 전략을 통해 필요한 정보만 제공하여 성능 저하를 방지

이러한 분석은 LLM 기반 서비스 구축 시 컨텍스트 관리의 중요성을 강조하며, 효율적인 정보 제공 전략의 필요성을 시사한다.

응답 가이드라인(Response Guidelines)과 도구 메시지(Tool Message)의 활용

본문에서는 응답 가이드라인(Response Guidelines)을 시스템 프롬프트(System Prompt)에 직접 추가하는 대신, 도구 메시지(Tool Message) 형태로 제공하여 AI 환각(Hallucination) 문제를 해결한 방법을 제시한다.

문제점: 시스템 프롬프트와 응답 가이드라인 간의 충돌로 인해 LLM이 대원칙을 무시하고 환각(Hallucination) 발생

해결책: 응답 가이드라인을 도구 메시지(Tool Message)로 제공하여 정보의 우선순위 명확화

결과: 시스템 프롬프트를 지키면서 응답 가이드라인을 활용하여, 보다 정확하고 신뢰성 있는 답변 생성 가능

이러한 접근 방식은 LLM의 메시지 처리 방식을 효과적으로 활용하여, 프롬프트 엔지니어링(Prompt Engineering)의 한계를 극복하고 AI 서비스의 품질을 향상시키는 데 기여한다.

API 응답 재구성을 통한 토큰 절약

글에서는 Flava AI 어시스턴트가 API 응답을 재구성하여 토큰(Token) 사용량을 절약하는 방법을 설명한다. 260개 API의 모든 응답 스키마(Schema)를 처음부터 주입하는 대신, 필요한 스키마 정보와 API 응답 결과를 함께 제공하는 방식이다.

스키마 정보(Schema Information) 제공: 필드명, 필수값 여부, 설명을 포함하여 API 응답의 의미를 명확하게 전달

YAML 형식 선택: 가독성이 높은 YAML(YAML) 형식을 사용하여 토큰 효율성과 가독성(Readability)을 동시에 확보

결과: 최소한의 컨텍스트(Context)로 API의 의미를 정확하게 파악하고, LLM의 효율적인 활용 가능

이러한 API 응답 재구성은 LLM의 컨텍스트 윈도우(Context Window) 제약을 극복하고, API 기반 서비스의 성능을 최적화하는 데 기여한다.

엔터프라이즈 LLM 서비스 구축기 1: 컨텍스트 엔지니어링