Ornith-1.0: 코딩 에이전트의 새로운 기준?

Ornith-1.0은 Gemma 및 Qwen 기반의 오픈소스 코딩 에이전트 모델로, 다양한 크기(9B~397B)로 출시됨

자기 개선 학습 프레임워크(Self-Improving Training Framework)를 통해 검색 궤적 및 솔루션 품질을 향상시킴

MIT 라이선스로 전 세계 누구나 접근 가능하며, 다양한 코딩 벤치마크에서 경쟁력 있는 성능을 보임

커뮤니티에서는 Qwen과의 관계, 31B 모델 부재, '자기 개선'의 실체 등에 대한 논의가 진행 중임

Ornith-1.0의 성능과 기반 모델 논쟁

커뮤니티에서는 Ornith-1.0 모델들이 Gemma 4 및 Qwen 3.5를 기반으로 파인튜닝되었음에도 불구하고, 특히 SWE-bench 및 Terminal-Bench와 같은 코딩 벤치마크에서 경쟁력 있는 성능을 보인다는 점에 주목하고 있습니다. 일부에서는 이를 '벤치마킹된(benchmaxxed)' 버전으로 치부하지만, 다른 의견으로는 Qwen 대비 향상된 창의적 솔루션 생성 능력을 언급하며 긍정적으로 평가하기도 합니다. 특히 35B 모델은 Qwen 3.6 35B보다 더 빠른 응답 속도를 보인다는 사용자 경험도 공유되었습니다.

자기 개선 학습 프레임워크(Self-Improving Training Framework)의 실체

Ornith-1.0의 핵심 특징인 '자기 개선' 메커니즘에 대한 궁금증이 많습니다. 개발팀은 강화학습(RL)을 통해 솔루션뿐만 아니라 솔루션 생성을 유도하는 스캐폴드(scaffold)까지 함께 학습한다고 설명합니다. 이를 통해 모델이 더 나은 검색 궤적(search trajectories)을 스스로 발견하고 고품질의 코드를 생성한다는 주장입니다. 그러나 일부 사용자는 이것이 단일 컨텍스트 실행 중 모델이 개선되는 것인지, 아니면 디스크 상의 모델 자체가 변경되는 것인지에 대한 명확한 설명이 부족하다고 지적합니다.

다양한 모델 크기와 접근성

Ornith-1.0은 9B, 35B, 397B 등 다양한 크기의 모델을 제공하며, 특히 9B 모델은 단일 80GB GPU에 적합하다는 점이 언급되었습니다. 하지만 커뮤니티에서는 31B Dense 모델에 대한 언급은 많으나 실제 벤치마크나 가중치(weights)가 공개되지 않은 점에 대한 의문이 제기되고 있습니다. 또한, MIT 라이선스로 전 세계적으로 접근 가능하다는 점은 긍정적으로 평가받고 있습니다.

실제 사용 시의 성능 및 한계

일부 사용자는 Ornith-1.0이 특정 벤치마크에서는 우수한 성능을 보이지만, 도구(tools) 없이 채팅 모드에서는 환각(hallucination) 현상이 나타나거나, 긴 세션에서의 도구 호출(tool calls) 성능이 떨어진다고 지적합니다. 특히 복잡한 C++ 코드베이스에 대한 기능 추가/수정 작업에서 Qwen 대비 속도 향상이 있었지만, 단순히 코딩 문제 해결을 넘어선 복잡한 애플리케이션 개발에는 한계가 있다는 의견도 있습니다.

서빙 및 통합 용이성

Ornith-1.0은 OpenAI 호환 API 인터페이스를 제공하여 vLLM, SGLang, Hugging Face Transformers 등 다양한 서빙 프레임워크와 쉽게 통합될 수 있습니다. 또한, llama.cpp 및 Ollama를 통한 로컬 추론을 지원하는 GGUF 버전도 제공되어 접근성을 높였습니다. 이는 개발자들이 기존 에이전트 프레임워크(Agent Frameworks)나 코딩 CLI에 Ornith 모델을 쉽게 연동하여 활용할 수 있게 합니다.