本文作者:admin

尤洋:通过软件大幅度降低AI大模型训练部署成本

admin 11-23 3
尤洋:通过软件大幅度降低AI大模型训练部署成本摘要: 专题:第25届中国国际高新技术成果交易会_中国高新技术论坛  中国高新技术论坛于11月15日-17日举行。新加坡国立大学校长青年教授、潞晨科技创始人兼董事长尤洋出席并演讲。 ...

专题:第25届中国国际高新技术成果交易会_中国高新技术论坛

  中国高新技术论坛于11月15日-17日举行。新加坡国立大学校长青年教授、潞晨科技创始人兼董事长尤洋出席并演讲。

  以下为演讲实录: 

  今天很高兴来到深圳和大家交流,我今天主要介绍一下大模型训练的一些关键技术,我们公司打造了面向大模型开发的软件系统叫Colossal-AI,我今天会重点介绍一下我们如何通过更好的软件,把相同硬件的价值发挥出来,同时大幅度降低AI大模型训练部署的成本。

  首先跟大家看一张图。这张图大家在别处可能也见过,它的横坐标是时间,纵坐标就是AI模型的参数量,从这张图可以看出有两条虚线和一条实线,两条虚线代表的是过去6年人工智能大模型每年平均,或者每18个月参数量增长40倍。比如2016年的时候,当时世界上最好的AI模型像微软亚洲研究院的,只有2000万参数。到2020年6月份,其实ChatGPT的核心技术,GPT3在疫情那一年的暑假已经出来了,有1750亿参数。从2016年-2020年,大模型一直是在高速蓬勃的发展,在短短四年之中,没有被大众关注到的时候,它的参数已经增长了一万倍。很有意思的点是,我们这一波用的大模型都是人工神经网络,到2015年前后的时候,大家都叫这个技术是深度学习,因为它相对80年代的神经网络多了很多层。

  我们看一下现在的大模型,比如2016年的时候的Resnet50是50层,2020年的GPT3的参数没有超过100层,我们现在这种AI的技术不能再叫做深度学习,其实更像是宽度学习,因为模型的层反而变得更宽了。但是现在一个很严重的问题是我们的算力、硬件跟不上,不管是中国还是美国,都无法充分地去满足大模型训练的全部能力。为什么?其实我们都知道,现在的GPT3、GPT4动辄都需要上T的内存,世界上最好的GPU,英伟达的H系列只有100GB左右内存,我们的单个GPU远远不足够去训练大模型,这就是我们为什么需要成千上万,甚至以后上十万GPU训练大模型的核心原因。

  我总结一下,从AI技术发展看到的问题,首先大模型成本特别高,根据一些报道,OpenAI的消息,他们训练GPT4的时候用了2000个GPU,成本是一美元一小时,大概是6300万美元左右,换上H100之后,他的成本降到2100万美元,不知道是不是在给英伟达打广告,直接换一个硬件,成本降了3倍,省了4000多万美元,这还是非常让人眼前一亮的。即便我们现在想训一个不是那么大的模型,像Palm,相当于谷歌版的GPT,它有5400亿个参数,训练它要900万美元,用A100训练的话,需要300年。我们训练大模型,如果只用几个GPU训练,虽然理论上可行,但是基本上这个产品就没法做了,300年显然是无法接受的。

  我们的角度来看,我认为未来AI大模型的生态和基础设施应该包括六层,首先最下层就是硬件,不管是英伟达的硬件,还是英特尔硬件、华为的硬件。第二层是更底层的软件,这个软件一般是由硬件厂商控制的。第三层是像集成管理工具,RAY 、SLURM等等这些工具。任务管理工具就是把上百个任务合理划分给GPU,相当于我是一个将军一样,要指挥一百个兵团作战,如何把有限的资源分给这一百个兵团,是集成管理工具要干的事情。第四层是集成训练,我的兵团内的这些士兵相互配合好去完成一个任务,这是分布式训练所做的事情。第五层是用户的编程接口。第六层是现在的大模型,不管是ChatGPT、llama等都是属于这一层。我简单解释一下,大模型到来的时代,第三层和第四层的关系发生很大变化,之前的模型不是很大的情况下,我们有一万个GPU,每天或者每个月要训10万个任务数,一个GPU同时在训多任务,多个小任务驱动环境,使得这个集群管理工具变得非常重要。但是现在大模型时代的计算特点发生了实质上的变化,一个任务占据了1000个GPU,占据20天、30天,或者一个任务占据5000个GPU一个月,它便成了每个任务都很重,所以任务之间的关系不是那么重要,因为我是一个一个很粗大的任务,把任务内的上千个GPU分配好是更关键的技术。为了应对目前的问题,我们团队打造了Colossal-AI这个软件,Colossal-AI主要包括三个层次,第一个层次是内存管理系统,我们希望通过Colossal-AI去大幅度降低AI大模型训练的内存开销和硬件需求成本。第二层就是并行技术,我们未来需要成千上万个GPU去训练,我把GPU的数量从十个上升几百倍,能否有效实际进行加速,GPU和GPU的数据传输和服务器与服务器的数据传输占满运行时间的80%到90%,我们的效率只有10%左右或者20%,这就是为什么英伟达要斥巨资收购ARM的原因。我们在全国都有很多算力,但是我们无法把它集中起来训练一个模型,因为这个数据传输的开销会远大于计算的开销,我们假定把内蒙古、北京、上海、天津各个分散的算力集中起来训练一个ChatGPT,它的训练速度还不到10个GPU的训练速度,因为它的所有计算能力都会浪费在通信上。因为这是现在大模型的特点,我们的大模型是很大的参数,我把它分割成很多块之后,最终都是需要汇总同步结果的。

  通过Colossal-AI软件,现在我们也在全球收获很多用户,我们在全球的下载榜单上非常好的。这张图的横坐标就是时间,竖坐标就是它的增速,我们的Colossal-AI已经超过了英伟达的训练工具,在AI软件基础设施,我们是排名最高的。Colossal-AI的用户遍布全球,中国、美国、欧洲、印度、东南亚都有很多的Colossal-AI的用户。我们知道现在NeurIPS是AI世界峰会,我们也入选了NeurIPS等顶级会议的官方tutorial。

  我接下来几分钟简单介绍一下Colossal-AI的核心技术,第一个是N维并行系统,它的核心目标就是希望通过更好的优化,把上千个GPU的能力彻底释放出来,比如我们都知道OpenAI用了2500个GPU训练他们的ChatGPT。但是还有一组数字更现实一点,它的GPU利用率只有30%多,像OpenAI、微软水平这么高的团队,它用GPU不是很高效,只有30%的效率。我和华为的朋友交流,他们用昇腾在训自己的模型,但是问题是每训一天,就有一些机器要出现故障,从出现故障到找到这些故障也需要一天,虽然我们的人工智能现在这么发达了,但是我们处理物理机器的效率还是很低。未来我们操控上万个GPU,如何把这些GPU稳定地运行一个月,其实这是一个技术含量非常高的工作。第一个就是节点崩溃问题,传统的机房或者大规模计算都有这样的问题,更严重的就是它的效率问题,比如说我们用商网GPU,一个集群GPU能否获得成千上万倍的加速是非常核心的问题。所以Colossal-AI团队就打造了六维并行技术,通过尽可能的所有的并行计算把每个单位GPU的效率都发挥到极致,其中包括流水线并行、张量并行、数据并行,它的核心思想就是用更多的局部通信去替换一个全局通信,我们在深圳开十个小时会议的代价高于我飞到洛杉矶开一个会议。GPU与GPU的通信远慢于GPU内部的计算,这是上百倍,上万倍的关系。

  在里我说一下目前AI大模型训练的核心技术的现状,GPT3出现以后,做GPT3的训练就是英伟达,英伟达用3072个GPU训练GPT3。经过几年的迭代,大家基本走向了一致,就是数据并行、张量并行、流水线并行,未来会是任何AI大模型训练的核心技术。我刚才也简单介绍了Colossal-AI团队的方案,比如我们设定了2维张量并行、2.5维张量并行、3维张量并行,把更多的张量并行把层内计算分割到硬件上,通过最小化的通信实现效率最大化。我们觉得张量并行可能是未来发展空间更大的,因为未来的模型变得更宽,而不是变得更深,比如说今天的GPT,或者LLM都没有超过一百层,包括网传GPT4是把多个专家放在同一个层,它的层变得更宽了,张量并行的发展空间,在以后很大的情况下,张量并行的优化变得至关重要。

  现在的很多模型都会声称自己支持超长序列的功能,为什么超长序列很重要?因为GPT类模型的核心原理是通过上下文的信息去预测下一个单词的概率,但是如果这个上下文太长,它会带来严重内存开销,所以我们就打造了环状通信的Self Attention,就是通过环状的方式去交换信息,这样就把通信复杂度从N平方变成N-1。举一个非常简单的例子,现在大家都坐在这里会场里,每个人都抱了一包很大很大的零食,我现在想让所有人都尝一下其他所有人的零食,显然最基本的方式就是两两互换,这样我们有一百人,就需要一万次操作,有P个人,就需要P平方次操作。这个方式显然不是最优的,最优的方式是大家手拉手拉成一个圈,我把这个零食拿过来,吃了之后再传给另外一个人,大家都这样操作,P-1次就可以完成这个操作,复杂的环状Self Attention系统就是这样实现的。

  Colossal-AI也提供了高效内存管理系统,主要是为了应对现在AI大模型训练的需求。比如说我们现在一个很典型的GPU服务器就是这样的构造,往往有多个GPU,CPU内存,以及硬盘,这三者的关系是GPU最贵最小,CPU内存更大更便宜,DISK是最大最便宜。举个例子,我需要在深圳盖一栋楼,需要很多原材料,这个原材料如果放不下,我就放到楼下工地,楼下工地放不下就放到隔壁工厂,隔壁工厂放不下,我就放到东莞,但是如果我每盖一层楼到东莞拿原材料,这个开销非常大。我们在显卡内存有限情况下,我们需要把内存卸载到CPU上,就需要最小化CPU和GPU的数据移动。Colossal-AI通过一套高效的软件系统优化,我们可以把张量进行高效的分组和移动,卸载到GPU上。目前Colossal-AI的效果非常好,在这里给大家展示一张图,左上方这张图就是一个很直接的比较,在同样的设备条件下,可以看到Colossal-AI相比原生PyTorch提升上百倍的模型容量。比如说,我现在想训练GPT3,我本来需要100台机器,现在不到10台机器就可以了。通过更好的优化,Colossal-AI把ChatGPT的训练速度提高10倍左右,我们现在也开源了流程的复现方案。Colossal-AI前一段时间发布了Colossal-LLaMA-2模型,它比国内任何大模型公司的模型下载量都要高,我们是做基础设施的公司,但是我们的人工智能模型也做得比较好。我们少两个数量级数据的情况下,性能达到甚至超过了各大知名模型厂商。我们通过Colossal-LLaMA-2的技术方案,帮助客户部署了他们自己的大模型。客户的疑虑是布置大模型的成本很高,我们只需要通过几千块钱的预算,可以快速迭代出高质量的私有化模型,他们就很愿意尝试,通过Colossal-LLaMA-2,我们帮助客户落地他们结合私有数据的业务大模型,见到效果后,他们也有信心做更大的模型。虽然只有70亿参数成本便宜,但也能够测试一些初步的效果,未来几百亿参数也不是太难。包括Colossal-LLaMA-2是排在全球开源社区的第一位,世界顶级AI技术峰会上的模型列表也包括了Colossal-LLaMA-2。

  最后我简单介绍一下我们公司的产品。我们公司很荣幸也在成立两年多的情况下收获了很多融资,我们的投资人包括红杉、华为、新加坡电信等等,通过跟这些渠道合作,我们打造了云平台和一体机。Colossal-AI云平台就是希望客户用两个初始工程师就可以取代原来30个AI专家加上一千个GPU干的事情,我们公司通过软硬一体的方案,把这个算力成本降到最低,我本来训练一个ChatGPT需要一千万美金,现在在云平台上400万美金、300万美金可以做,本来我有一亿人民币的预算训10个模型,我们现在可以训20个甚至10倍参数量的模型,可以帮助客户把模型训练质量更好,帮助用户赚更多的钱。我们也打造了Colossal-AI一体机,让客户可以一键部署自己的产品,我们的很多模型在一体机里都有,各位如果感兴趣可以看一下我们公司的二维码,我们公司的代码基础部分都是开源的,第一个就是Colossal-AI的系统,开发者可以自由尝试和验证。

  谢谢大家。

  新浪声明:所有会议实录均为现场速记整理,未经演讲者审阅,新浪网登载此文出于传递更多信息之目的,并不意味着赞同其观点或证实其描述。

阅读
分享