大模型

快手发布Keye-VL-2.0多模态大模型，视频理解超越Gemini

发布时间：2026年05月27日 09:30:00

快手发布自研多模态大模型Keye-VL-2.0，首次引入DSA注意力机制，256K超长上下文，多项视频理解评测超越谷歌Gemini，采用MoE架构控制推理成本，在多模态领域取得重大突破。

2026年5月27日，快手在其年度科技大会上正式发布自研多模态大模型Keye-VL-2.0。这是快手继去年推出Keye-VL-1.0后，在多模态大模型领域的又一重大技术突破。

核心技术突破

DSA注意力机制：首次引入全新的DSA（Dynamic Sparse Attention）动态稀疏注意力机制，能够根据视频内容的重要性动态调整注意力分配，显著提升计算效率
超长上下文支持：支持256K超长上下文窗口，能够处理长达数小时的视频序列，这在业界处于领先水平
视频理解能力：在VideoQA、VideoCaption等多项视频理解评测中超越谷歌Gemini，特别是在长视频理解、时序推理等方面表现出色
MoE架构设计：采用MoE（Mixture of Experts）混合专家架构，根据任务类型智能调用不同专家模块，有效控制推理成本

据快手AI团队负责人介绍，DSA注意力机制是这次最大的技术创新。相比传统的自注意力机制，DSA能够在视频帧级别进行动态稀疏处理，对于静态或变化不大的场景减少计算量，对于动作密集的场景则给予更多关注。

在MoE架构方面，Keye-VL-2.0采用了128个专家模块，每个专家专注于不同的模态和任务类型，包括静态图像理解、动态动作分析、音频分析等。

Keye-VL-2.0的发布将为快手生态带来多个创新应用：

业界专家表示，Keye-VL-2.0的发布标志着中国企业在多模态大模型领域已经达到国际领先水平。特别是在视频理解这一难度极高的任务上超越谷歌，显示了中国AI技术的快速进步。

Keye-VL-2.0的发布标志着快手在多模态大模型领域取得重大技术突破，视频理解能力达到国际领先水平，将为短视频和直播行业带来新的技术革新。