大模型

Anthropic 发布 Claude Opus 4.8 旗舰大模型 首次实现不确定就说不知道

发布时间:2026年05月29日 09:00:00

Anthropic 正式发布 Claude Opus 4.8,距 Opus 4.7 仅41天。新模型在12+项基准测试中超越 GPT-5.5,放任代码缺陷不加说明的概率降至前代的1/4,主动表达不确定性。


2026年5月28日,Anthropic 正式发布 Claude Opus 4.8 旗舰大模型,距 Opus 4.7 仅41天。这是 Anthropic 历史上最快的产品迭代周期之一。

核心性能提升

基准测试Opus 4.8GPT-5.5
SWE-bench Verified88.6%领先
Terminal-Bench 2.174.6%78.2%
12+项综合测试超越-

突破性特性

动态工作流(Dynamic Workflows)

  • 支持单次会话中并行调度数百个子智能体
  • 可完成跨数十万行代码的代码库级迁移
  • Claude 正从工具演变为工程协作系统

诚实度大幅提升

  • 放任代码缺陷不加说明的概率降至前代的 1/4
  • 更主动标记不确定性
  • 提升模型可靠性与用户信任

定价与性能

  • 上下文窗口:100万 token
  • 定价:$5/$25 每百万 token(维持不变)
  • Fast Mode:速度提升 2.5 倍,成本降至 1/3

市场影响

Opus 4.8 的发布标志着 Claude 从聊天工具向工作流平台的战略转型。竞争焦点已从"谁更聪明"转变为连续执行复杂任务的能力——拆任务、管上下文、控成本、复核输出。