Anthropic은 오늘 최신 AI 모델인 Claude Opus 4.8의 출시를 발표했습니다. Anthropic은 이 모델이 에이전트 코딩, 다학문적 추론, 에이전트 컴퓨터 사용, 지식 작업 및 에이전트 금융 분석의 개선을 통해 "더 효과적인 협력자"라고 주장합니다.
테스터들은 Opus 4.8이 에이전트 작업을 수행할 때 "판단력이 더 안정적이고 예리함"을 발견했으며 모델의 정직성도 향상되었습니다.
초기 테스터들은 Opus 4.8이 작업에 대한 불확실성을 표시할 가능성이 더 높으며 지원되지 않는 주장을 할 가능성이 적다고 보고합니다. 이는 Opus 4.8이 이전 버전보다 작성한 코드의 결함을 무시하지 않고 통과할 가능성이 약 4배 적다는 것을 보여주는 우리의 평가에서 입증되었습니다.
초기 테스터들은 Opus 4.8이 작업에 대한 불확실성을 표시할 가능성이 더 높으며 지원되지 않는 주장을 할 가능성이 적다고 보고합니다. 이는 Opus 4.8이 이전 버전보다 작성한 코드의 결함을 무시하지 않고 통과할 가능성이 약 4배 적다는 것을 보여주는 우리의 평가에서 입증되었습니다.
정렬 평가는 모델이 사용자 자율성을 지원하고 사용자의 최선의 이익을 위해 행동하는 것과 같은 친사회적 특성 측정에서 새로운 최고점에 도달했음을 시사합니다. 속임수와 같은 잘못된 행동의 비율은 Opus 4.7보다 낮으며 Claude Mythos Preview와 유사합니다.
Anthropic 벤치마크에서는 Opus 4.8이 SWE-Bench Pro에서 69.2%를 기록하여 테스트 및 기타 여러 벤치마크에서 GPT–5.5 및 Gemini 3.1 Pro를 능가하는 것으로 나타났습니다. 하지만 GPT–5.5가 터미널 코딩 벤치마크에서 선두를 달리고 있습니다.
Opus 4.8의 고속 모드는 2.5배 빠른 속도로 실행되며 이전 모델보다 3배 저렴합니다.
Opus 4.8과 함께 Anthropic은 제품 라인업에 새로운 기능을 추가하고 있습니다.
Claude Opus 4.8은 현재 어디에서나 사용할 수 있습니다. 일반 사용 가격은 Opus 4.7과 비교하여 변경되지 않았습니다.
Anthropic은 더 저렴한 비용으로 Opus 4.8과 동일한 기능을 갖춘 모델과 Opus보다 훨씬 더 지능적인 새로운 클래스의 모델을 개발하고 있습니다. Anthropic은 소수의 조직을 대상으로 테스트 중인 Claude Mythos 모델에 대한 보호 장치를 개발해 왔으며 "향후 몇 주 안에" 모든 고객에게 Mythos급 모델을 제공할 수 있을 것으로 기대하고 있습니다.
