大模型
Anthropic 发布 Claude Opus 4.8 旗舰大模型 首次实现不确定就说不知道
发布时间:2026年05月29日 09:00:00Anthropic 正式发布 Claude Opus 4.8,距 Opus 4.7 仅41天。新模型在12+项基准测试中超越 GPT-5.5,放任代码缺陷不加说明的概率降至前代的1/4,主动表达不确定性。
2026年5月28日,Anthropic 正式发布 Claude Opus 4.8 旗舰大模型,距 Opus 4.7 仅41天。这是 Anthropic 历史上最快的产品迭代周期之一。
核心性能提升
| 基准测试 | Opus 4.8 | GPT-5.5 |
|---|---|---|
| SWE-bench Verified | 88.6% | 领先 |
| Terminal-Bench 2.1 | 74.6% | 78.2% |
| 12+项综合测试 | 超越 | - |
突破性特性
动态工作流(Dynamic Workflows)
- 支持单次会话中并行调度数百个子智能体
- 可完成跨数十万行代码的代码库级迁移
- Claude 正从工具演变为工程协作系统
诚实度大幅提升
- 放任代码缺陷不加说明的概率降至前代的 1/4
- 更主动标记不确定性
- 提升模型可靠性与用户信任
定价与性能
- 上下文窗口:100万 token
- 定价:$5/$25 每百万 token(维持不变)
- Fast Mode:速度提升 2.5 倍,成本降至 1/3
市场影响
Opus 4.8 的发布标志着 Claude 从聊天工具向工作流平台的战略转型。竞争焦点已从"谁更聪明"转变为连续执行复杂任务的能力——拆任务、管上下文、控成本、复核输出。