앤트로픽, 오퍼스 4.8(Opus 4.8)로 코딩 모델 경쟁에 불을 지피다!

앤트로픽(Anthropic)이 새로운 코딩 모델인 오퍼스 4.8(Opus 4.8)을 출시했으며, SWeB Bench 등에서 최고 점수를 기록함

클로드 코드(Claude Code)의 업데이트를 통해 Ultra Code라는 새로운 기능이 추가되었으며, 토큰 사용량 증가와 병렬 처리(Parallel Processing)를 활용함

오퍼스 4.8(Opus 4.8)은 이전 모델보다 정직성(Honesty)이 향상되었으며, 코드 리뷰(Code Review) 기능이 개선됨

발표자는 오퍼스 4.8(Opus 4.8)의 성능과 비용 효율성을 분석하고, 5.5 모델과의 비교를 통해 장단점을 평가함

오퍼스 4.8(Opus 4.8)의 성능 분석

발표자는 오퍼스 4.8(Opus 4.8)이 SWeB Bench Pro에서 최고 점수를 기록했다고 언급하며, 터미널 벤치(Terminal Bench) 및 다학제 학습(Multidisciplinary Learning)에서도 좋은 성과를 보였다고 설명한다. 발표자는 5.5 모델과 비교하여 오퍼스 4.8(Opus 4.8)의 비용 효율성(Cost Efficiency)과 속도(Speed)를 강조하며, 전반적인 성능 향상을 언급한다.

클로드 코드(Claude Code)의 새로운 기능: Ultra Code

영상에서는 클로드 코드(Claude Code)에 새롭게 추가된 Ultra Code 기능에 대해 설명한다. Ultra Code는 여러 개의 서브 에이전트(Sub-agent)를 활용하여 대규모 프로젝트를 병렬 처리하는 기능으로, 토큰 사용량(Token Usage)이 증가하는 단점이 있다고 지적한다. 발표자는 Ultra Code의 장점과 단점을 분석하고, 실제 사용 사례를 통해 기능의 유용성을 평가한다.

오퍼스 4.8(Opus 4.8)의 정직성(Honesty) 및 코드 리뷰(Code Review) 개선

발표자는 오퍼스 4.8(Opus 4.8)의 가장 큰 특징 중 하나로 정직성(Honesty)을 꼽으며, 모델이 답변을 제공하기 전에 더 철저하게 조사하도록 훈련되었다고 설명한다. 또한, 코드 리뷰(Code Review) 기능이 개선되어 코드의 품질을 높이는 데 기여한다고 강조한다. 발표자는 이러한 개선 사항이 모델의 전반적인 성능 향상에 긍정적인 영향을 미쳤다고 평가한다.

비용 및 사용성 분석

발표자는 오퍼스 4.8(Opus 4.8)의 비용 효율성을 분석하며, Cursor Bench를 사용하여 이전 모델보다 작업당 비용(Cost per Task)이 감소했음을 보여준다. 하지만, Ultra Code 사용 시 토큰 사용량이 증가하여 비용이 상승할 수 있다고 경고한다. 발표자는 모델의 사용성을 평가하며, 5.5 모델과의 비교를 통해 각 모델의 장단점을 명확히 제시한다.