北大张牧涵团队依托昇腾突破推理效率瓶颈 大模型推理百万tokens 成本仅 1 元

2025-07-28 16:34:52     来源:

在人工智能领域,大语言模型的训练与推理成本一直是限制技术普及的关键因素之一。近日,北京大学人工智能研究院助理教授张牧涵团队在鲲鹏昇腾科教创新卓越中心(简称“卓越中心”)提供的算力支持下,成功研发出一套高效的大模型训练推理架构,实现了百万tokens输入成本低至1元,为产业提供了高效能、低成本的解决方案。

此研究成果包括三项关键技术创新。首先,目前广泛使用的相对位置编码存在较大的稀疏性,团队通过将每个注意力头中的位置信息和非位置信息分离,对位置编码进行了低秩压缩,仅使用3%的位置信息,即可维持原有表达能力。该方法通过优化昇腾硬件的flash-attention算子,使得注意力头的参数得到更高效利用。

第二,非位置编码信息在原始模型中通常处于被抑制状态。通过将位置编码与非位置编码分离,非位置编码得到了较大的压缩空间。团队采用了联合KV的低秩压缩方法,仅保留12.5%的KV Cache即可维持原始模型的能力。这一方法能够有效利用昇腾硬件高效的计算能力,减轻访存压力,显著提升推理效率。

最后,基于昇腾硬件在出色的并行计算能力,团队实现的Recurrent Decoding(RD)技术通过替换LM-head提升了训练数据利用率并加速了推理。在训练阶段,RD通过将解码出的多个tokens与target tokens进行对比,实现了训练数据的高效利用;在推理阶段,结合投机推理显著提高了tokens的采样通过率,进而提升了推理速度。

这一成果得到了学术界的广泛关注,不仅为科研提供了可复用的高效架构,也为AI大模型在企业中的应用大幅降低了成本。自去年6月成立以来,北京大学与华为在产业前沿课题的联合攻关持续推进,本次成果验证了昇腾算力平台支撑尖端科研的技术实力。卓越中心将继续深入开展大模型关键技术创新,为构建中国技术生态提供坚实支撑。

 

标签:

猜你喜欢

中国AI大突围:以合力破局重构全球技术新秩
WAIC 2025 论坛直击 | 超聚变智能体与应用专题论坛圆满召开
京东骆驼超级星粉日开启 熊出没联名“熊抱”系列亲子露营装备京东首发
谢方敏:创新引领互联网医疗新生态,赋能行业发展新未来
绿抖平台:叩响县域汽车后市场的万亿之门
夏季盗窃高发预警 看龙头企业如何破解智能门锁换新难题
周年钜惠,智享未来——联想小新16 SE 2025锐龙版与AI同行开启智能新体验
TRYX创氪星系发布PCIe 5.0延长线 STRING速链,为显卡安装提供新解决方案
中孚信息2025年中工作会议在济南召开 凝心聚力绘发展蓝图
荣耀平板GT2 Pro首销开启,搭载165Hz护眼电竞屏,国补到手价2124.15元起
最新发布!万达酒店下半年待开业酒店清单,抢先看!
三诺生物拥抱鸿蒙生态,HarmonyOS软硬协同便利血糖智慧监测
游族网络×长城科技×深圳机密计算:共建自主可控跨境算力安全新生态
钱塘燃盛夏 潮起勇争锋 2025宝可梦杭州大师赛圆满落幕
名创优品原创IP泰拳墩DUN鸡获授泰国驻广州总领事馆“泰拳友好大使”称号
亚信科技融合NVIDIA Omniverse,驱动制造业向“智造”跃升
上海ifc商场上演夏日艺术盛典,特邀俄罗斯芭蕾国家剧院浪漫呈现芭蕾舞剧《天鹅湖》
那些对世界影响深远的中国品牌
RELY威麟R08:全系标配车联网支持OTA升级,智能就该无差别!
真大女主登场!国漫新黑马《云深不知梦》霸屏暑期
九四智能确认参展 2025 ChinaJoy BTOB,精彩不容错过!
一年期重疾险来了,重疾险新变局?
轻资产合作再添一城!企生活集团第68园——湾区数字产业中心盛大开盘
华为擎云亮相第三届内蒙古教育装备展示会 构建学以智用的教育生态
聚焦责任深耕 区域协同共进——省级《中国体育彩票2024年社会责任报告》解读
单盘8.87亿杀入河南TOP5,未来天奕成本土房企“小而精”战略教科书
建筑未来式:设计师陈兆麟的系统化思维
快来2025ChinaJoy解锁66小镇秘境宝藏!
悦活Lohas新品闪耀亮相上海合作组织媒体智库峰会,以自然之力赋能国际交流新高度
共探AI未来图景|万达信息亮相2025世界人工智能大会 提供数智升级新范式