大模型动态

小米发布MiMo-v2.5-Pro-UltraSpeed：万亿参数模型推理速度破千tps

发布时间：2026年06月09日 14:00:00

小米与TileRT_AI联合发布MiMo-v2.5-Pro-UltraSpeed，首次在万亿参数级MoE模型上实现超过1000 tokens/s的推理速度，仅需8卡GPU节点即可运行。这一突破大幅降低了超大模型推理的硬件门槛。

6月9日，小米与TileRT_AI联合发布了MiMo-v2.5-Pro-UltraSpeed，这是小米在超大规模AI模型领域的重要突破。

万亿参数推理：首次在万亿参数级别的MoE（混合专家）模型上实现了超过1000 tokens/s的推理速度，这在业界尚属首次。此前，万亿参数级的模型推理通常只能达到数百tps。

硬件门槛大幅降低：更关键的是，该模型仅需一台8卡GPU节点即可运行，而不需要此前动辄数十张GPU的大规模集群。这意味着超大模型推理的硬件门槛正在快速下降。

MoE架构优化：通过精细化的专家路由策略和推理时计算调度优化，MiMo在保持模型容量的同时大幅降低了推理时的活跃参数量。

推理速度直接决定了AI应用的用户体验和商业可行性。对于实时对话、代码生成、Agent任务执行等场景，千tps推理速度意味着用户可以几乎无感知地获得万亿参数模型的回答，这在以前是不可想象的。

小米的突破表明，大模型竞赛已从参数规模竞赛走向推理效率竞赛，如何在模型能力和推理成本之间找到最佳平衡点，正成为AI公司的核心竞争力。