Forge, 8B 모델의 에이전트 작업 신뢰도를 획기적으로 개선!

by DD
2주 전
조회수 10

Forge는 8B 모델의 에이전트 작업(Agentic Tasks) 성능을 53%에서 99%로 향상시키는 오픈소스 도구임

오류 복구(Error Recovery), 재시도(Retry), 단계 강제(Step Enforcement) 등의 가드레일을 통해 모델의 신뢰성을 높임

Llama-server를 포함한 다양한 백엔드(Backend) 지원 및 OpenAI 호환 프록시(Proxy) 제공

커뮤니티에서는 구조적 가드레일(Structural Guardrails)이 소형 모델의 성능 향상에 효과적이라는 점에 주목함

Forge의 핵심 기술: 가드레일(Guardrails) 및 오류 복구

Forge는 재시도(Retry), 단계 강제(Step Enforcement), 오류 복구(Error Recovery) 메커니즘을 통해 모델의 신뢰성을 높인다. 특히, 오류 복구(Error Recovery)는 0%의 오류율을 달성하며, 모델이 잘못된 도구 호출을 시도할 경우 재시도하도록 설계되었다. 이는 작은 모델의 에이전트 작업(Agentic Tasks) 성공률을 크게 향상시키는 핵심 요소로 작용한다.

백엔드(Backend) 환경에 따른 성능 차이

Forge는 Llama-server를 권장하며, 다양한 백엔드(Backend)를 지원한다. 흥미롭게도, 동일한 Mistral-Nemo 12B 모델이라도 Llamafile을 사용할 경우 7%의 정확도를 보인 반면, llama-server에서는 83%의 정확도를 기록했다. 이는 백엔드(Backend) 환경이 모델의 성능에 큰 영향을 미칠 수 있음을 시사하며, 서빙 백엔드(Serving Backend)의 중요성을 강조한다.

Forge의 아키텍처 및 기능

Forge는 WorkflowRunner, SlotWorker, Guardrails middlewareProxy server를 제공하여 다양한 사용 사례를 지원한다. WorkflowRunner는 도구 정의, 백엔드 선택, 에이전트 루프 실행을 관리하며, SlotWorker는 우선순위 큐를 통해 GPU 자원을 공유한다. 또한, OpenAI 호환 프록시(Proxy)를 통해 기존 클라이언트에 Forge의 가드레일을 쉽게 적용할 수 있다.

커뮤니티의 반응 및 기술적 논의

커뮤니티에서는 Forge가 제공하는 구조적 가드레일(Structural Guardrails)이 소형 모델의 성능을 향상시키는 데 효과적이라는 점에 주목했다. 특히, parse rescue와 같은 기술을 통해 잘못된 도구 호출을 수정하고, 상태 머신(State Machine)을 사용하여 단계별 실행을 강제하는 접근 방식에 대한 긍정적인 평가가 이어졌다. 또한, Eval Methodology에 대한 질문이 이어졌다.

Show HN: Forge – Guardrails take an 8B model from 53% to 99% on agentic tasks