当前位置: 学校首页 > 教学科研 > 学术动态 > 正文

人工智能与计算机学院邀请北京大学张铭教授做学术讲座

时间:2025-11-11    来源:人工智能与计算机学院     供稿:    浏览:   
字体:

11月10日下午,人工智能与计算机学院邀请北京大学张铭教授作题为“大模型中Attention注意力机制及其高效稀疏注意力研究”的学术讲座。学院研究生共计40余人参与了学习交流,讲座由计算机技术责任教授张永梅老师主持。

本次学术讲座深入剖析了以Transformer为核心的大模型当前面临的核心挑战。张铭教授指出,大模型的核心架构几乎全部基于Transformer,而后者本质上就是双向的Attention。Transformer中的自注意力机制需要计算序列中每个位置与所有其他位置的相关性,其O(N²)的计算复杂度会导致计算资源和内存消耗大幅增加,成为性能瓶颈。

针对这一难题,张铭教授重点分享了其团队在大模型中Attention注意力机制及其高效稀疏注意力方面的突破性研究。她详细讲解了与DeepSeek梁文锋担任共同通讯作者发表的原生稀疏注意力(Native Sparse Attention, NSA)的核心原理。通过创新性的稀疏化方法,实现了注意力机制全生命周期10倍加速,同时保持甚至超越全注意力模型性能,该成果获ACL 2025最佳论文奖,而且被DeepSeek V3.2-Exp版本的DSA部署进行工程化落地应用并大幅降低价格。在此基础上,张教授进一步展望了未来研究方向,包括如何设计新一代动态高效注意力机制、大模型长序列处理的探索,为在座师生提供了新的启发。

在随后的互动环节,张铭教授与在场师生展开了深入交流,并对提问进行了细致解答,现场气氛热烈。本次学术讲座聚焦大模型核心关键技术,拓宽了师生的学术视野和研究思路,有效激发了研究生探索尖端科技的研究热情,有力推动了学院在人工智能领域的学科建设与高水平复合型人才培养。

张铭教授是北京大学计算机学院二级教授,北大-安克大模型联合实验室主任,教育部计算机课程教指委委员,2021中国计算机教育学会CCF杰出教育奖获得者。主持科技部重点研发课题、国家自然科学基金多项。谷歌学术被引23000余次,H因子59。作为通讯作者获得机器学习顶级会议ICML 2014惟一的最佳论文奖、自然语言处理顶会ACL 2025最佳论文奖,合作提出的图嵌入模型LINE和原生稀疏注意力模型NSA受到广泛关注。

编辑:左芳舟

关闭

最新动态

电话:010 - 88802114    E-mail:xyw@ncut.edu.cn
地址:北京市石景山区晋元庄路5号    邮编:100144

  • 官方微信

  • 官方微博

版权所有 北方工业大学 丨京ICP备05066823号-1 丨京公网安备 110402430037号