AI 개발, LLM을 넘어선 아키텍처로 진화 중

AI 개발 패러다임이 단순 챗봇을 넘어 LLM 기반의 소프트웨어 아키텍처로 전환되고 있음

소프트웨어 팩토리(Software Factories) 개념 도입으로 코드베이스 전체를 관리하는 에이전트 시스템 부상

LLM의 비결정성을 제어하는 하네스 엔지니어링(Harness Engineering)으로 안정성 확보 추구

GUI 조작 방식의 컴퓨터 사용(Computer Use)과 컨텍스트 엔지니어링(Context Engineering)으로 효율성 증대

'바이브 기반' 평가에서 벗어나 자동화된 이밸루에이션(Evals)으로 전환 중

런타임 안전성을 위한 마이크로 샌드박스(Micro-Sandboxes) 및 보안 강화 추세

LLM을 넘어선 '소프트웨어 팩토리'로의 전환

기존의 코드 한 줄 완성 보조 기능을 넘어, 코드베이스 전체를 관리하는 에이전트 시스템인 '소프트웨어 팩토리(Software Factories)'가 주목받고 있습니다. Uber의 uReview 사례처럼, 에이전트가 자율적으로 코드 리뷰, 테스트 실행, 버그 수정까지 수행하며 개발 생산성을 극대화합니다. 이 과정에서 컴파일러와 린터의 오류 피드백을 직접 모델에 주입하여 코드 생성 및 수정의 신뢰성을 높이는 것이 핵심입니다. 이는 개발자가 단순 코딩을 넘어 AI 에이전트 플릿(Fleet)을 관리하는 역할로 변화하고 있음을 시사합니다.

LLM의 비결정성 극복: 하네스 엔지니어링의 부상

LLM의 본질적인 확률적, 비결정적 특성은 예측 가능한 소프트웨어 인프라 구축에 큰 걸림돌이 됩니다. 이를 해결하기 위해 '하네스 엔지니어링(Harness Engineering)'이라는 새로운 분야가 부상하고 있습니다. 이는 LLM 주변에 엄격한 소프트웨어 래퍼(Wrapper)를 구축하여 상태를 보존하고, 무한 루프를 방지하며, 구조화된 출력(Structured Outputs)을 강제하는 기술입니다. Temporal이나 Inngest 같은 툴체인을 활용한 내구성 있는 실행(Durable Execution)과 Pydantic, Instructor 라이브러리를 통한 스키마 강제(Schema Enforcement)는 불안정한 모델을 안정적인 인프라처럼 작동하게 만듭니다.

GUI 기반 '컴퓨터 사용'과 컨텍스트 엔지니어링의 중요성

기존 API 연동 방식에서 벗어나, 화면을 보고 마우스를 움직이며 명령어를 입력하는 인간 운영자처럼 소프트웨어를 탐색하는 '컴퓨터 사용(Computer Use)' 방식이 새로운 통합 패러다임으로 떠오르고 있습니다. 향상된 비전-언어 모델(VLM) 덕분에 GUI의 시각적 레이아웃을 파싱하여 픽셀 단위의 정밀한 조작이 가능해졌습니다. 또한, 수백만 토큰의 컨텍스트 창을 효율적으로 사용하기 위한 컨텍스트 엔지니어링(Context Engineering)이 중요해졌습니다. Prefix Caching, Context Compression, Graph RAG 등의 기법을 통해 API 비용과 지연 시간 병목을 해결하려는 노력이 진행 중입니다.

자동화된 '이밸루에이션'으로 '바이브 기반' 평가 대체

단순히 결과물의 '느낌'만으로 평가하던 방식에서 벗어나, 자동화된 다단계 시뮬레이션 벤치마크를 통한 '이밸루에이션(Evals)'이 표준으로 자리 잡고 있습니다. 격리된 가상 환경에서 에이전트가 복잡한 작업을 성공적으로 완료했는지, 보안 프로토콜을 위반하지 않았는지 등을 엄격하게 테스트합니다. 또한, '시니어 스태프 엔지니어'와 같은 모호한 페르소나 프롬프트 대신, 명확한 작업 지향적 테스트가 성능 저하를 유발하는 편향을 줄이고 실질적인 기술 역량을 평가하는 기준으로 자리매김하고 있습니다.

런타임 안전성 확보를 위한 마이크로 샌드박스

코드 작성, 파일 수정, 터미널 명령어 실행 권한을 가진 에이전트의 심각한 보안 위험을 완화하기 위해, 경량화된 마이크로 VM(Micro-VMs) 기반의 '마이크로 샌드박스(Micro-Sandboxes)'가 업계 표준으로 자리 잡고 있습니다. E2B나 Docker 같은 기술을 활용하여 에이전트 코드를 순간적으로 실행하고 즉시 폐기함으로써 컨테이너 탈출이나 파일 시스템 변조를 방지합니다. 또한, 자격 증명 마스킹(Credential Masking)과 AAuth 같은 위임 계층을 통해 에이전트가 민감한 API 키에 직접 접근하지 못하도록 하여 프롬프트 인젝션(Prompt Injection) 공격을 무력화합니다.