新浪新闻探索大会｜卞正达：Colossal-AI：AI大模型帮助企业降本增效

12月20日,由中国互联网协会、微博、新浪新闻主办的“数字力量,探索无穹”2023探索大会在北京拉开帷幕。潞晨科技联合创始人兼CTO卞正达分享了题为《Colossal-AI:AI大模型的挑战与系统优化》的演讲。

潞晨科技联合创始人兼CTO卞正达-主题演讲

以下是卞正达演讲实录,内容经编辑略有删减:

感谢各位,我是来自潞晨科技的卞正达。今天主要代表董事长跟大家做一个交流,今天分享这个主题主要是关于AI大模型的分布式系统优化。首先我先介绍一下大模型时代下的发展背景和一些挑战。

近年来AI飞速发展。之前2016的时候,当时比较火的ResNet模型,可能几个小时就可以训练完一个CIFAR10应用,到了后来训练BERT模型可能花一两天可以做完。但是到了如今大模型时代,我们模型的参数量和计算量都是膨胀到一个非常可观数量级。

比如说谷歌PaLM模型,如果用一张显卡训练,据说是要训练时间长达超过300年,同时训练成本高达900万美元。这么高成本因为主要它的参数量和训练所需的数据量的规模都呈现一个逐年飞速增长的趋势。所以它带来的计算量已经达到了一个非常巨大的数量级。

同时,我们为了成功部署大模型的训练和推理,我们需要去维护一个成百上千张显卡的巨大的集群。这个成本也是非常可观的。

因此我们推出Colossal-AI框架,想要在分布式部署这一层去利用高效的分布式算法,解决AI大模型部署一个超高成本问题。这个框架是作为一个软件的基础设施,它是向上可以承接PyTorch、Huggingface、Lightning等不同的AI应用,向下可以兼容包括GPU、TPU、NPU等等不同的硬件加速方案。

我们是想要利用这个高性能分布式的算法,去帮助企业落地分布式大模型,也帮助他们去实现降本增效。我们这个框架一个主要的设计思路,包括以下三层:

1、高效内存管理系统,它的主要的思路是可以利用更低廉的CPU内存和硬盘空间去缓存模型计算中冗余的存储开销,极大地降低GPU的存储压力,相当于降低硬件门槛。

2、N维并行系统,这一层我们利用一些分布式的算法,不仅能够均匀去切分大模型的存储开销,同时也能够实现一个比较高效的计算和通信。

3、低延迟推理系统,我们利用量化、并行计算等等策略最大化的推理部署一个性价比。

尽管我们框架的推出时间也不长,到现在差不多两年这么一个时间,我们还是在开源社区,学术界、工业界获得一定的认可和影响力,我们看到横向对比一些其他厂商分布式框架,增长速度比较快,目前积累了3.5万多颗Star。这些开源社区用户也是来自全世界各地。同时我们的一些核心工作也是被一些顶级的会议所接收。

下面具体介绍一下我们框架的核心设计细节。第一个就是N维并行系统,在我们开发这个Colossal-AI框架之前,已经有非常多的并行的一些技术方案,像是Gpipe的流水线并行方案,Deepspeed的Zero数据并行方案、以及Megatron的3D并行方案等等。但是我们发现用户拿到一个实际需求之后,他很难去正确选择一个合适的加速方案,把这个需求转化成真正一个落地的大模型解决方案。

我们一个思路,把目前业界最SOTA最高效这些并行方案整合进一套系统,借助我们长期做系统优化的经验,去帮助用户他们来选择合适的并行方案,同时提供一个最高效的系统实现。

我们的这套系统里主要有三个维度:

1、数据并行。

2、模型并行。

3、序列并行。

像数据并行,我们解决了一个问题,常见数据并行方案下,如果我们训练批大小超过8000以上,导致最终模型有一个泛化问题。在我们框架里通过LARS、LAMB这样一些针对做优化这些优化器解决这个问题,同时把批大小提高到像64K一个程度。

第二个是模型并行,这个包括我们框架里提供的方案,包括流水线并行,包括张量并行,同时针对不同的物理拓扑,会提供一些不同的模型并行优化算法,达到最佳的计算和通信同步的效率。

第三个是序列并行,因为现在长序列一个模型也是目前比较热门一个发展趋势。其实其他一些框架或多或少有一些类似去解决这个长序列一个方案,比如说Deepspeed等都有序列方案,但是如果仔细研究过他们的实现,会发现他们在计算attention的时候,并没有切分序列长度这个维度。

我们框架里是在全程计算中都实现了序列维度的切分,也就是说只要有足够多的设备,我们就能够实现一个无限长的序列一个计算。

我们这套序列并行方案其实不仅对训练,而且对大模型推理也是有效的。因为根据我们的经验,我们常用这些推理卡,A10部署一个7B左右模型推理,单卡能够承载这个拓扑数2500-3000级别。我们知道看到有很多,像是64K,甚至128K这样一个超长序列模型,它去做这样的模型超长序列推理时候,会需要我们这样的序列并行方案去实现一个超长序列的分布式处理。

第二点,内存管理异构系统。因为我们知道深度学习,特别是在用混合精度训练时候,它的大部分存储其实被用在优化器参数更新上,计算比较重的前向和反向计算过程当中,其实它的存储开销相对较少。因此我们可以通过较为廉价的CPU存储去缓存一部分的模型计算中一些冗余存储,比如可以把这个优化器的部分都迁移到CPU存储上,降低这个GPU的存储压力。但是如果把所有的冗余存储都搬到CPU上,会导致CPU和GPU之间有一个频繁的通信数据交换。我们知道目前一些物理设备上,CPU和GPU之间带宽比较瓶颈,因此我们还是想要尽可能减少异构存储带来额外的通信开销。我们一个思路是,尽可能还是把大部分存储都放在GPU上,只有把超过上限这个部分缓存到CPU上,这样就能减少大部分的数据交换,然后同时我们也尽可能把计算都保留在GPU上去做。

同时,我们还开发了基于chunk的tensor存储机制。这个思路来自于DDP里通过bucket去提升实际梯度同步通信效率。类似地在zero并行等方案中,也可以通过chunk把小的tensor混合到一起通信,这样可以地更好利用带宽来提升通信效率。

基于上述这些系统优化,对于常见的开源模型,例如GPT、Llama等等,我们都能够实现明显的降本和加速。

同时我们在年初2-3月份时候,也是第一个推出ChatGPT的RLHF方案的一个复现和开源。我们还推出中文ColossalChat这么一个多轮对话的应用,同时也包括ColossalEval这个对话模型的验证工具。

另外我们还开源了一个中文LLaMA-2这么一个迁移训练方案。这个方案是我们基于LLaMA-2开源基座,只使用了8.5个Billion数据量,不超过1000美刀的成本,把LLaMA-2语言能力迁移到中文场景里面。我们可以看到在常见的公开中文benchmark上,它的能力和之前7B、6B规模的一些开源大模型,例如百川、ChatGLM的分数也是不相上下的。

刚才有很多专家提到,目前一个主流的训练方案是预训练加上微调这两步。通过这个方案,我们把它拆成预训练+迁移训练+微调这三步。因为第一步预训练是成本最高的环节,我们可以利用目前开源一些大模型,我们也可以看到目前开源模型这个发展也是十分迅速,LLaMA等这些开源模型都非常不错。我们可以借助它们的能力,在垂直领域上只要通过迁移训练加上微调两步把它大模型能力落地到具体场景中,可以实现一个较低的成本下,完成比较定制化一个专业模型。因此我们开源模型之后也是受到了一定的热度。

我们今年还推出一些进一步提升用户体验,降低用户门槛的一些产品,像是一个云平台跟一体机。云平台就是我们集成Colossal-AI的分布式加速能力,以及包括训练、微调、推理、部署等场景,提供一个低代码、低门槛、低成本的云上AI开发体验。

一体机大模型服务器这个产品,是我们会针对软硬件做一些极致优化,同时提供丰富模型库和使用范例,让用户尽量开箱即用,获得一个低成本、低代码的AI开发体验。

最后也欢迎大家加入这个社区,一起贡献ColossalAI这个框架。

谢谢大家!

标签：

猜你喜欢

深圳女子菁英队三周年庆典仪式暨球会赛事活动隆重举行

爱奇艺高级副总裁陈宏嘉出席第四届金投赏案例周分享长视频内容IP的滚动营销势能

希尔顿欢朋“益心欢行暖冬行动”在全国百城开展冬日里温暖人心

逐风怀野｜IMM尹默2024春季大片发布

爱点击获批北京市“专精特新”中小企业认定

BEELIEVE IN FANTASY 限量版香水

凯里亚德酒店产品服务持续优化，优质客户体验提升品牌投资魅力

韩国地产科技独角兽Zigbang直帮首次发布ESG报告以科技探索环保发展之路

主打“好玩有梗”，“淘宝年度十大商品”为何能深入年轻人内

学而思学习机xPad2 Pro Max测评：价值不菲的学习机到底值不值得买？

大兴区产促中心举办“赏皇家行宫文化，探大兴历史文脉”人才文化主题沙龙

雪中送热！卡萨帝在冰雪大世界建“温暖驿站”

郁锦香酒店全场景展现品牌魅力，以创新呈现高端出彩体验

短视频用户数量持续攀升，学而得(北京)科技有限公司助力学员把握风口

无惧风雪、高效制热！海尔物联多联机长白山极寒挑战成功

2023最具影响力商业事件

广药王老吉（龙岩）产业园（永定）生产基地集中动工

慧算账PLUS财税服务为餐饮行业“添香增味”

桃的电影人|《瞒天过海》惠英红：我希望饰演的每个角色都有生命力

读懂免疫细胞治疗与人体健康，了解未来医学新趋势

@职场的你，测测你的职场“心”主张

精彩如约而至，汕头中骏世界城盛大启幕

郁锦香酒店创荷兰建筑之美与中国文化特色和谐共生典范之作

BFC 2023年度星光之夜即将开启，打造梦幻跨年盛典

郁锦香酒店将荷兰美学融入品牌基因，创造出彩旅宿体验

7天酒店x中信书院·企学堂| 走进7天酒店探索数智化赋能传统行业转型之路

商商查，打造用户信得过的企业信息免费查询平台

2023平台经济与数字生态未来发展大会|每日互动以数据智能助力城市交通革新

德国太阳神百年庆典与Dephina德菲兰新风

中国品牌力量崛起艾芬达打造电热毛巾架创新智造样本

热点图片

要闻

问界M9全新发布，Audio Vivid空间音频体验再升级
12月26日，问界M9及华为冬季全场景发布会召开，问界M9正式亮相。在会场特设展区中，一
华润网络与华为达成鸿蒙全面合作，引领亿级用户迈入“鸿蒙世界”
12月27日，在深圳华为基地，华润数科旗下华润网络（深圳）有限公司（以下简称华润网络
京东“春晓计划”助力设计师商家“一城风絮”每月销售额翻倍增长
近年来，国潮文化持续升温，越来越多的年轻人对设计师品牌产生了浓厚的兴趣。特色女装
小i机器人频获专利技术高值奖项，持续创新加深竞争护城河
最近一个多月以来，AI中概第一股小i机器人在专利技术创新方面捷报频传，先是新获一项
扬子石化提前完成年度90万吨对二甲苯生产任务
截至12月23日，扬子石化对二甲苯产品累计产量达90万吨，提前8天完成了全年生产任务。
沉浸式重温2023！网易严选“精神年终展”在杭州开幕
近日，网易严选精神年终展《The Road of 2023》正式开幕，展览以路为核心概念，
让“小而美”做大做强，科丝美诗助力新锐品牌突破内卷
当低价成为年度关键词，当技术成为起舞的刀尖，当国货成为一个辩题，有人逆势增长，更
Tokyo Masters携手澳娱综合在东京举办2023答谢派对
12月20日，日本Tokyo Masters于东京香格里拉酒店举办2023答谢派对，澳娱综合（SJM R
金树盛典Babytree Day直播送福利金树先锋团点燃全站妈妈热情
经九不息，砥砺前行!以Feature@Future为主题的第九届金树盛典活动火热进行中，这个12
《2023中国家电市场全域新零售白皮书》重磅发布
2023年12月27日,天猫优品高端家电家居博览会在上海盛大启幕。本次高端家电家居博览会,

新浪新闻探索大会｜卞正达：Colossal-AI：AI大模型帮助企业降本增效

相关阅读

猜你喜欢

热点图片

要闻