彩云科技发布DCFormer架构 相较Transformer性能实现1.7—2倍提升

2024-11-14 15:01:49     来源:

伴随着今年诺贝尔化学奖、物理奖双双花落与人工智能领域相关的科学家,AI再次成为全球瞩目的焦点。然而,自ChatGPT3.5发布以来引爆的新一波人工智能浪潮,虽然涌现出一系列融资额度超高、估值不断创纪录的明星企业,但在竞争最激烈的大模型领域,至今尚未有一家企业跑通商业化落地,关于人工智能的未来始终有一层阴影。究其原因,大模型对能源的过度依赖,成为制约各AI企业突破的重要瓶颈。

8个地球能源支撑一个AI未来 人工智能耗能惊人

在近日国内人工智能公司彩云科技举办的一场媒体沟通会上,CEO袁行远向媒体展示了极端情况下,ChatGPTo1给出的2050年人工智能耗能量的答案。问题中,以全球网络都使用 ChatGPT作为访问入口为假设,测算预计到2050年ChatGPT每天消耗多少电力?ChatGPT o1给出的答案则是,“到2050年,全球人工智能的耗电量可能会达到目前地球发电能力的约8倍”。

这并不是危言耸听。人工智能对电力的极度依赖,已经成为业内共识。人工智能在预训练阶段及应用阶段都对电力有极大的消耗。以人工智能巨头Open AI旗下的GPT-4为例,据报道,其完成一次训练需要约三个月时间,使用大约25000块英伟达 A100 GPU。每块A100 GPU都拥有540亿个晶体管,功耗400瓦,每秒钟可以进行19.5万亿次单精度浮点数的运算,每次运算又涉及到许多个晶体管的开关。仅仅是这些 GPU,一次训练就用了2.4亿度电。

而后续用户在使用ChatGPT过程中,依然需要消耗大量电力。仍以ChatGPT为例,如果ChatGPT4每天响应用户的约2亿个请求,消耗超过50万千瓦时的电力,约是1.7万个美国家庭的日耗电量。庞大的电力消耗,使得各大AI巨头纷纷布局能源投资,亚马逊、谷歌、微软、Open AI等企业在今年都曝出投资核电的新闻。

摆脱能源依赖 人工智能企业路在何方?

在增加对能源投资的同时,如何降本增效,减少对能源的依赖,成为各大AI企业纷纷发力的方向。

英伟达作为AI时代的最大受益者,是全球主要AI企业的芯片供应商。英伟达CEO黄仁勋在今年2月份的世界政府峰会上就曾表示,如果计算机的性能得不到提升,未来我们可能需要14个不同的行星、3个不同星系、4个太阳为我们的AI未来提供燃料。而英伟达的主要路线就是不断迭代,提升AI芯片的运算性能。在今年的年度电脑展(Computex)上,黄仁勋表示,在过去八年间,从“Pascal P100 GPU”到“Blackwell B100 GPU”,GPU的性能提高了1053倍。

但提升GPU性能并不是唯一出路,毕竟也不是所有玩家都能在GPU上砸下重金,要知道,购买一个1万个GPU的Blackwell系统大约需要8亿美元。改善模型架构,提升训练效率,就成为另一条出路。

2017年,谷歌在论文《Attentions Is All You Need》中首次提出Transformer架构,掀开了大语言模型训练的全新篇章。但Transformer架构具体如何运行,则仿若一个黑盒,并不为人所熟知,为Transformer开盒,提升模型架构性能就成为无数AI科学家研究的方向,但这方面的研究进展较慢,今年4月,谷歌最近一次更新了Transformer架构,提出了Mixture-of-Depths(MoD)方法,使得训练后采样过程中提速50%,这已经是近年来在模型架构优化上最为成功的案例了。

DCFormer架构创纪录 性能实现1.7—2倍提升

然而,在今年的ICML(国际机器学习大会)上,一家来自中国的人工智能企业带来了最新的模型架构优化方案。

彩云科技,作为国内最早专注于语言大模型的企业,在2017年就已经开始做 NLP 和大模型方面的工作。在今年的ICML上,彩云科技的《Improving Transformers with Dynamically Composable Multi-Head Attention》提出了优化Transformer模型架构的全新方案,首次提出可动态组合的多头注意力(DCMHA),替换Transformer核心组件多头注意力模块(MHA),解除了MHA注意力头的查找选择回路和变换回路的固定绑定,让它们可以根据输入动态组合,从根本上提升了模型的表达能力。

在实践表现中,彩云科技团队基于DCFormer上打造的模型DCPythia-6.9B上,实现了在预训练困惑度和下游任务评估上都优于开源Pythia-12B。这意味着,DCFormer模型在性能上,实现了对Transformer模型1.7-2倍的性能提升。彩云科技的研究成果获得来自业内的关注和认可,在ICML会上,彩云科技投稿的三篇论文在全部9000多篇投稿论文均分仅4.25-6.33的情况下,获得了平均分7分的高分,并受邀参加在维也纳ICML演讲,向全世界的AI从业者讲解其全新大模型DCFormer。

“只有模型效率和智能度提升,才能实现真正的AGI。”彩云科技CEO袁行远表示,接下来,彩云科技将在一年之内把DCFormer的性能再改进一倍。“模型架构的性能提升,意味着在用同样的资源,可以实现成倍甚至是指数级效果的提升。我们在努力为人工智能的实现创造一条‘捷径’。”

 

标签:

猜你喜欢

火山引擎AI for Science研讨会与Bio-OS大赛收官,“四驱飞轮”助力科研提效
新疆市县级业务覆盖率100%!顺丰物流服务网络持续下沉,打通巴州农业“神经末梢”
全球首款海洋磷脂复合产品“逢时轻醒”进博会首发
企业精准营销需求凸显,火山引擎数智平台以大模型能力提供支撑
Adjust 发布《2024年购物应用洞察报告》读懂购物季营销
汽车行业数字化痛点凸显,“数据飞轮”提供企业破局新思路
台积电断供先进工艺!自主可控迫在眉睫
四川省数字化转型促进“市州行”(第6期)数赋农牧专场活动圆满举行
极光与荔枝新闻签约仪式成功举行
新京报专题报道在线职教企业十方融海,聚焦职业教育发展新前景
院内院外一齐助力,糖尿病全病程闭环管理如何为糖友带来幸福感?
儿童咳嗽有痰原因多,应明确病因再对症用药
BioCare拒绝品牌流量焦虑,回归女性健康需求本真
比亚迪助力!2024泰国头条新闻年度风云人物颁奖盛典开启璀璨之夜
为世界贡献“和美”力量,五粮液“和美全球行”走进美洲
黑龙江省国资委将成九芝堂实控人
东南大学鲲鹏昇腾科教创新孵化中心正式成立 助力科研创新与人才培养
淘车车青岛二店璀璨启幕,“放心二手车”持续发力山东市场
平安租赁荣获“融资租赁行业卓越金融机构合作奖”
江苏南通崇川区启秀小学 高慧 江海红领巾 滨江生态行——南通市启秀小学少先队研学探生态
秋冬换季,艾芬达电热毛巾架温暖不缺席!
五恒相伴,健康过冬—成都知希五恒系统‘暖冬舒适体验活动’已开启
(进博故事)高通中国区董事长孟樸:与产业紧密合作共拓全球市场
机器人产业应用广潜力大,科技厂商如何抢滩立潮头?
理想好工作是啥样?泰康大健康事业合伙人为你解答
京东11.11“园区服务直通车”全国发车 助力企业数字化转型提速
鲁南制药麦洛达®甲苯磺酸艾多沙班片获批上市
2024双十一收官,Cleer ARC 3音弧持续引爆开放式耳机热潮!
获MVS称号 日立建机全球服务竞技会中国工程师摘金
Santen参天公司公布2024财年第一季度业绩