
앤스로픽이 중간급 모델군의 새 버전인 Claude Sonnet 5를 공개하면서 생성형 AI 시장의 경쟁 구도가 다시 가격과 자동화 능력 쪽으로 이동하고 있다. 이번 모델은 단순한 챗봇 응답보다 브라우저, 터미널, 업무용 도구를 활용해 계획을 세우고 작업을 이어가는 에이전트 기능을 전면에 내세운 것이 특징이다.
TechCrunch 보도에 따르면 앤스로픽은 Sonnet 5가 몇 달 전만 해도 더 크고 비싼 모델이 필요했던 수준의 자율 작업을 수행할 수 있다고 설명했다. 이는 최근 OpenAI와 Google이 고도화된 에이전트 기능을 강조해 온 흐름과 맞물린다. 대형 AI 기업들이 이제 모델 성능만이 아니라 실제 업무를 얼마나 오래, 안정적으로, 저렴하게 처리하느냐를 핵심 경쟁 지표로 삼고 있다는 뜻이다.
에이전트 기능, 프리미엄 모델의 전유물에서 기본 사양으로
Sonnet 5의 가장 큰 메시지는 에이전트 능력이 더 이상 최상위 모델만의 기능이 아니라는 점이다. 앤스로픽은 이 모델이 계획 수립, 도구 호출, 코딩, 지식 업무 처리에서 이전 세대인 Sonnet 4.6보다 개선됐다고 밝혔다. 특히 개발자와 기업 사용자는 고가의 최상위 모델을 모든 작업에 투입하지 않고도 상당수 자동화 업무를 처리할 선택지를 얻게 된다.
가격도 중요한 변수다. 보도에 따르면 Sonnet 5는 8월 31일까지 입력 토큰 100만 개당 2달러, 출력 토큰 100만 개당 10달러로 제공된다. 이후 입력 가격은 100만 토큰당 3달러로 오르지만, 앤스로픽의 최상위 모델인 Opus 4.8이나 경쟁사의 고성능 모델보다 낮은 비용을 앞세운다. 기업 입장에서는 대량의 문서 처리, 고객 응대 보조, 내부 자동화처럼 반복 작업이 많은 영역에서 비용 절감 효과를 계산할 수 있다.

앤스로픽은 Sonnet 5가 Opus 4.8에 가까운 성능을 더 낮은 비용으로 제공한다고 주장한다. 예컨대 에이전트 코딩 관련 평가에서 Sonnet 5는 63.2%를 기록해 Opus 4.8의 69.2%에는 못 미치지만, Sonnet 4.6의 58.1%보다 높았다. 지식 업무 평가에서는 일부 항목에서 Opus 4.8을 근소하게 앞섰다는 설명도 나왔다.
기업 자동화에서 비용 대비 성능이 핵심 변수
이번 출시는 기업용 AI 도입의 현실적인 고민과도 맞닿아 있다. 많은 기업은 가장 똑똑한 모델을 쓰고 싶어 하지만, 실제 운영에서는 호출 비용과 응답 안정성, 도구 사용 실패율, 보안 위험이 함께 고려된다. Sonnet 5는 최상위 정확도가 필요한 복잡한 문제에는 Opus 계열을 쓰고, 일상적인 자동화와 반복 업무에는 더 저렴한 Sonnet을 쓰는 식의 조합을 제안한다.
TechCrunch가 인용한 테스트 사례에서도 이런 방향이 드러난다. Zapier의 한 엔지니어는 Salesforce 계정 등급을 업데이트하고 기업 고객에게 출시 안내를 보내는 두 단계 작업을 Sonnet 5가 끝까지 처리했다고 밝혔다. 이전 모델이 중간에 멈추던 업무를 완결했다는 설명은 에이전트 AI가 실제 업무 흐름에 들어가기 위해 필요한 기준이 단순한 답변 품질을 넘어선다는 점을 보여준다.
다만 비용 경쟁이 곧바로 무인 자동화 확대로 이어지는 것은 아니다. 에이전트 모델은 외부 도구를 조작하고 파일을 읽고 쓰며, 때로는 기업 시스템 안에서 권한 있는 작업을 수행한다. 따라서 모델이 더 싸지고 빨라질수록 기업은 접근 권한, 승인 절차, 로그 추적, 실패 복구 방식을 더 엄격하게 설계해야 한다.
안전성 강조도 시장 경쟁의 일부
앤스로픽은 Sonnet 5가 이전 모델보다 오용 협조, 기만, 프롬프트 인젝션 공격 대응, 환각, 과도한 동조 경향 등에서 개선됐다고 설명했다. 에이전트 AI는 사용자의 요청을 단순히 말로 답하는 데 그치지 않고 실제 작업을 수행할 수 있기 때문에, 위험한 요청을 거절하고 의심스러운 지시를 걸러내는 능력이 제품 경쟁력의 일부가 된다.

그럼에도 앤스로픽은 Sonnet 5가 모든 안전성 항목에서 Opus 4.8이나 다른 상위 모델과 같은 수준은 아니라고 밝혔다. 이는 모델 선택이 단순한 순위표 문제가 아니라 업무 위험도에 따른 배치 문제임을 시사한다. 낮은 위험의 반복 업무에는 비용 효율적인 모델을 쓰고, 민감한 판단이나 보안 영향이 큰 작업에는 더 강한 안전성 평가를 통과한 모델을 쓰는 방식이 확산될 수 있다.
이번 발표는 AI 업계의 경쟁 기준이 빠르게 바뀌고 있음을 보여준다. 불과 얼마 전까지는 모델이 얼마나 긴 추론을 하고 어려운 문제를 풀 수 있는지가 주목받았다면, 이제는 그 능력을 얼마에, 얼마나 안정적으로, 얼마나 통제 가능한 방식으로 제공할 수 있는지가 중요해졌다. Claude Sonnet 5는 그 전환점에서 중간급 모델의 역할을 다시 정의하려는 앤스로픽의 시도로 볼 수 있다.
향후 관건은 실제 사용자 환경에서의 성능이다. 벤치마크와 초기 테스트는 방향을 보여주지만, 기업 시스템에 연결된 에이전트가 반복 업무를 안정적으로 끝내는지, 예외 상황에서 멈추고 보고하는지, 비용 예측이 가능한지는 장기간 사용을 통해 검증된다. Sonnet 5가 이 시험을 통과한다면 AI 에이전트 시장의 가격 압박은 더 커질 가능성이 높다.



댓글