LLM 에이전트, 스스로 만든 스킬은 쓸모없다?

연구 결과, LLM 에이전트가 스스로 생성한 스킬(Self-generated Skills)은 성능 향상에 기여하지 못함

반면, 큐레이션된 스킬(Curated Skills)은 평균 16.2%의 성능 향상을 보이며, 특히 헬스케어(Healthcare) 분야에서 51.9%로 높은 효과를 보임

소프트웨어 엔지니어링(Software Engineering) 분야에서는 4.5%의 미미한 향상에 그쳐, 모델의 사전 지식(Priors)이 성능에 영향

커뮤니티에서는 LLM이 지식 생산자(Producer)가 아닌 소비자(Consumer)로서의 역할에 더 적합하다는 의견이 지배적임

자가 생성 스킬의 한계와 큐레이션의 중요성

연구 결과에 따르면, LLM 에이전트가 스스로 생성한 스킬은 성능 향상에 기여하지 못하는 것으로 나타났다. 이는 LLM이 자체적인 지식(Latent Domain Knowledge)을 활용하여 스킬을 생성하는 데 한계가 있음을 시사한다. 반면, 큐레이션된 스킬은 평균 16.2%의 성능 향상을 보였으며, 특히 헬스케어 분야에서 51.9%의 높은 효과를 보였다. 이는 전문 지식(Expert Knowledge)의 중요성을 강조하며, LLM 에이전트의 성능 향상을 위해서는 신중하게 설계된 스킬이 필수적임을 보여준다.

소프트웨어 엔지니어링 분야에서의 스킬 효과

소프트웨어 엔지니어링 분야에서 큐레이션된 스킬의 효과는 4.5%로 상대적으로 낮게 나타났다. 이는 모델이 이미 해당 분야에 대한 강력한 사전 지식(Strong SWE Priors)을 가지고 있기 때문일 수 있다. 즉, 모델이 이미 상당한 수준의 지식을 보유하고 있는 경우, 스킬 추가를 통한 개선 효과(Marginal Value)가 감소할 수 있다. 따라서, 스킬은 모델의 약점을 보완하는 데 가장 효과적이며, 실제 프로덕션 환경에서 에이전트를 활용하기 위해서는 이러한 점을 고려해야 한다.

스킬 생성 방식에 대한 커뮤니티의 시각

커뮤니티에서는 LLM이 스스로 스킬을 생성하는 방식에 대한 다양한 의견이 제시되었다. 한 사용자는 LLM이 자체 훈련 데이터(Training Data)에 포함된 정보를 기반으로 스킬을 생성하는 것은 큰 의미가 없다고 지적했다. 대신, LLM이 외부 정보를 활용하거나, 인간과의 협업을 통해 스킬을 생성하는 방식이 더 효과적일 수 있다는 의견이 제시되었다. 특히, 인간-AI 협업(Human-AI Collaboration)을 통해 스킬을 개발하는 방식에 대한 기대가 높다.

스킬 평가 및 품질 관리의 중요성

스킬의 품질을 평가하고 관리하는 방법에 대한 논의도 이루어졌다. 한 사용자는 스킬의 품질을 평가하기 위해 평가 기반의 AI 코딩 루프(AI-coding loops driven by evals)를 활용하는 방식을 제안했다. 또한, 스킬 파일의 품질을 평가하기 위한 다양한 방법론이 필요하며, LLM이 스스로 퀴즈를 만들고, 스킬의 유무에 따라 퀴즈 결과를 비교하는 방식도 고려해 볼 수 있다고 언급했다. 이는 측정 가능한 품질(Measurable Quality)을 확보하는 것이 중요함을 시사한다.