大模型动态

小米发布MiMo-v2.5-Pro-UltraSpeed:万亿参数模型推理速度破千tps

发布时间:2026年06月09日 14:00:00

小米与TileRT_AI联合发布MiMo-v2.5-Pro-UltraSpeed,首次在万亿参数级MoE模型上实现超过1000 tokens/s的推理速度,仅需8卡GPU节点即可运行。这一突破大幅降低了超大模型推理的硬件门槛。


6月9日,小米与TileRT_AI联合发布了MiMo-v2.5-Pro-UltraSpeed,这是小米在超大规模AI模型领域的重要突破。

核心突破

万亿参数推理:首次在万亿参数级别的MoE(混合专家)模型上实现了超过1000 tokens/s的推理速度,这在业界尚属首次。此前,万亿参数级的模型推理通常只能达到数百tps。

硬件门槛大幅降低:更关键的是,该模型仅需一台8卡GPU节点即可运行,而不需要此前动辄数十张GPU的大规模集群。这意味着超大模型推理的硬件门槛正在快速下降。

MoE架构优化:通过精细化的专家路由策略和推理时计算调度优化,MiMo在保持模型容量的同时大幅降低了推理时的活跃参数量。

行业意义

推理速度直接决定了AI应用的用户体验和商业可行性。对于实时对话、代码生成、Agent任务执行等场景,千tps推理速度意味着用户可以几乎无感知地获得万亿参数模型的回答,这在以前是不可想象的。

小米的突破表明,大模型竞赛已从参数规模竞赛走向推理效率竞赛,如何在模型能力和推理成本之间找到最佳平衡点,正成为AI公司的核心竞争力。