昇腾算力赋能视频生成革命 浙江大学团队攻克长时一致性难题

2025-07-31 15:17:06     来源:

昇腾算力赋能视频生成革命 浙江大学团队攻克长时一致性难题

随着以 Sora 为代表的视频生成模型技术的演进,长视频生成领域在维持长时序内容一致性以及平衡生成质量与计算资源效率方面面临挑战。浙江大学 鲲鹏昇腾科教创新卓越中心计算机学院研究员朱霖潮团队基于此课题持续深耕并取得重要进展。依托昇腾AI基础软硬件平台,该团队提出的技术方案有效提升了长视频内容一致性,同时显著优化了视频生成过程中的计算效率。

针对长序列视觉指令生成的核心技术难题,项目团队成功研发首个无需训练的长序列视觉指令生成框架LIGER,实现了历史提示和视觉记忆机制,以及基于DDIM反演的记忆校准技术。依托昇腾的编码加速能力,通过对每个步骤的图像特征进行采样和存储,捕捉前序步骤中的关键视觉信息,并将其注入到自注意力机制中,确保步骤间的视觉连贯性。同时,通过自反思机制纠正图像中的属性错误、逻辑错误、对象冗余和身份不一致等问题,使用多种图像编辑工具进行精确修正。该系统在长序列任务中展现出优异的逻辑连贯性和对象属性准确性,显著提升了视觉指令的理解性和实用性。

在计算效率方面,项目团队提出了基于昇腾平台优化的引导式渐进蒸馏方法,通过在线教师引导、渐进式蒸馏和高频细节保护三项关键技术,成功加速了视频扩散模型的生成过程。该方法让教师模型实时优化学生模型的中间预测以创建自适应训练目标,通过多阶段训练逐步增加步长将复杂轨迹学习分解为可管理的任务,并引入频域损失函数保持视频精细细节。在保持视频高质量输出基础上,该方法实现8倍加速。

该项目创新性地将大语言模型推理能力与视频生成技术相结合,为多模态交互研究开辟了新方向。目前,研究成果已成功入选人工智能顶级会议ICLR 2025,获得国际学术界的高度认可。项目构建的包含569个任务的评估数据集,为后续研究提供了重要基准。

未来,浙江大学 鲲鹏昇腾科教创新卓越中心将依托昇腾AI基础软硬件平台,持续深化产学研协同创新,着力突破多模态生成技术的核心瓶颈,构建自主创新、技术领先的多模态生成技术生态体系,并为国家人工智能战略与数字经济发展储备核心创新力量。

 

标签:

猜你喜欢

得劲,真得劲!全凭在AppGallery学的古法消暑食饮,舒服了
振健科技荣获ISO9001质量管理体系认证
影城如何借助品牌资源 撬动"票房+流量"双提升
NYO3升级发布挪威“抗衰三宝”产品,破局细胞级精准抗衰市场
拥抱变化,积极破局丨中国酒业协会赴四特酒公司调研交流
乐智素闪耀2025 CBME,双奖加冕领航儿童脑健康!
暑期学习进阶不停,奥林巴斯“医”路相伴
贵州体彩发布2024年度社会责任报告
智慧固废管理的中国方案:张婷博士擘画固废数字化新蓝图
从开创者到品类第一,醇油坊斩获双项全国市场地位声明
汇璟量化引略平台合规转型,券商背景与风控技术加持
台风“竹节草”过境上海后,东航有序恢复沪、浙两地航班运力
7万亿情绪经济浪潮下,阿道夫如何重构洗护价值
于亚洲四季度假酒店启程心愿之旅,见证家的诗意远行
WAIC 2025 | SHIXP将与PPIO共建分布式智算枢纽平台
赤河穗浪记·第一回|岩缝生红:茅坡村的石地诗行
高效掌控全局,安全运筹帷幄:鸿蒙电脑大屏理财,商务精英必备!
完美世界荣获“2025年度数字化生态领军企业案例”
五台山数字空间上线鲸探——开启数字福礼新纪元,共享未来福运
荣耀加冕!肯帝亚以超级地板全球销量第一实力,硬核引领家居建材品质赛道
聚焦2025WAIC大会:中国AI生态迭代提速,十方融海小智AI创新人机互动范式
汇璟量化平台连接实盘与量化创新A股策略投资新范式
科学考察揭开茅溪酱酒产区独特生态密码
尚普咨询集团:色宝凭匠心标准,持续升级中式菜品“灵魂底色”
NYO3品牌形象店001号落沪!挪威“抗衰三宝”问世,剑指千亿级抗衰市场
宅家追剧党狂喜:《凡人修仙传》同步上线华为视频,开盲盒还能薅会员
中国音数协第一副理事长张毅君出席鸿蒙游戏策划不设防开放日:鸿蒙游戏为游戏产业未来发展带来无限可能
小参尊联袂喜来登 再下一城!以东方滋养定义精英健康新秩序
丽呈花盛度假酒店签约入驻抚仙湖中创橙府 打造高端旅居云南目的地
2025中国联通合作伙伴大会 | 四大云智产品亮相 开启AI赋能全场景数字生活