大模型
快手发布Keye-VL-2.0多模态大模型,视频理解超越Gemini
发布时间:2026年05月27日 09:30:00快手发布自研多模态大模型Keye-VL-2.0,首次引入DSA注意力机制,256K超长上下文,多项视频理解评测超越谷歌Gemini,采用MoE架构控制推理成本,在多模态领域取得重大突破。
2026年5月27日,快手在其年度科技大会上正式发布自研多模态大模型Keye-VL-2.0。这是快手继去年推出Keye-VL-1.0后,在多模态大模型领域的又一重大技术突破。
核心技术突破
- DSA注意力机制:首次引入全新的DSA(Dynamic Sparse Attention)动态稀疏注意力机制,能够根据视频内容的重要性动态调整注意力分配,显著提升计算效率
- 超长上下文支持:支持256K超长上下文窗口,能够处理长达数小时的视频序列,这在业界处于领先水平
- 视频理解能力:在VideoQA、VideoCaption等多项视频理解评测中超越谷歌Gemini,特别是在长视频理解、时序推理等方面表现出色
- MoE架构设计:采用MoE(Mixture of Experts)混合专家架构,根据任务类型智能调用不同专家模块,有效控制推理成本
技术细节揭秘
据快手AI团队负责人介绍,DSA注意力机制是这次最大的技术创新。相比传统的自注意力机制,DSA能够在视频帧级别进行动态稀疏处理,对于静态或变化不大的场景减少计算量,对于动作密集的场景则给予更多关注。
在MoE架构方面,Keye-VL-2.0采用了128个专家模块,每个专家专注于不同的模态和任务类型,包括静态图像理解、动态动作分析、音频分析等。
应用场景展望
Keye-VL-2.0的发布将为快手生态带来多个创新应用:
- 智能视频编辑:自动理解视频内容,实现智能剪辑、特效推荐
- 视频搜索升级:支持自然语言搜索,用户可以用文字描述找到想要的视频
- 直播内容分析:实时分析直播内容,提供智能互动建议
- 内容审核优化:更精准的视频内容审核,提升平台内容质量
行业影响
业界专家表示,Keye-VL-2.0的发布标志着中国企业在多模态大模型领域已经达到国际领先水平。特别是在视频理解这一难度极高的任务上超越谷歌,显示了中国AI技术的快速进步。
Keye-VL-2.0的发布标志着快手在多模态大模型领域取得重大技术突破,视频理解能力达到国际领先水平,将为短视频和直播行业带来新的技术革新。