大模型

快手发布Keye-VL-2.0多模态大模型,视频理解超越Gemini

发布时间:2026年05月27日 09:30:00

快手发布自研多模态大模型Keye-VL-2.0,首次引入DSA注意力机制,256K超长上下文,多项视频理解评测超越谷歌Gemini,采用MoE架构控制推理成本,在多模态领域取得重大突破。


2026年5月27日,快手在其年度科技大会上正式发布自研多模态大模型Keye-VL-2.0。这是快手继去年推出Keye-VL-1.0后,在多模态大模型领域的又一重大技术突破。

核心技术突破

  • DSA注意力机制:首次引入全新的DSA(Dynamic Sparse Attention)动态稀疏注意力机制,能够根据视频内容的重要性动态调整注意力分配,显著提升计算效率
  • 超长上下文支持:支持256K超长上下文窗口,能够处理长达数小时的视频序列,这在业界处于领先水平
  • 视频理解能力:在VideoQA、VideoCaption等多项视频理解评测中超越谷歌Gemini,特别是在长视频理解、时序推理等方面表现出色
  • MoE架构设计:采用MoE(Mixture of Experts)混合专家架构,根据任务类型智能调用不同专家模块,有效控制推理成本

技术细节揭秘

据快手AI团队负责人介绍,DSA注意力机制是这次最大的技术创新。相比传统的自注意力机制,DSA能够在视频帧级别进行动态稀疏处理,对于静态或变化不大的场景减少计算量,对于动作密集的场景则给予更多关注。

在MoE架构方面,Keye-VL-2.0采用了128个专家模块,每个专家专注于不同的模态和任务类型,包括静态图像理解、动态动作分析、音频分析等。

应用场景展望

Keye-VL-2.0的发布将为快手生态带来多个创新应用:

  1. 智能视频编辑:自动理解视频内容,实现智能剪辑、特效推荐
  2. 视频搜索升级:支持自然语言搜索,用户可以用文字描述找到想要的视频
  3. 直播内容分析:实时分析直播内容,提供智能互动建议
  4. 内容审核优化:更精准的视频内容审核,提升平台内容质量

行业影响

业界专家表示,Keye-VL-2.0的发布标志着中国企业在多模态大模型领域已经达到国际领先水平。特别是在视频理解这一难度极高的任务上超越谷歌,显示了中国AI技术的快速进步。

Keye-VL-2.0的发布标志着快手在多模态大模型领域取得重大技术突破,视频理解能力达到国际领先水平,将为短视频和直播行业带来新的技术革新。