GPipe它是一个加速器?谷歌开源有什么用?
加速DNN模型训练速度方法中,数据并行受到单个加速器可支持模型大小的限制;而模型并行因为DNN顺序性导致大量算力浪费。目前Google推出GPipe,将两种方法的优势进行结合,解决了两者的劣势,成功提升训练速度。
深度神经网络(DNN)已经推动了许多机器学习任务,比如语音识别,视觉识别和语言处理。
BigGan、Bert和GPT2.0的最新进展表明,越大的DNN模型,越能带来更好的性能。
而视觉识别任务的过去进展也表明,模型大小和分类准确性之间,存在很强的相关性。
例如2014年ImageNet视觉识别挑战赛中,获胜者GoogleNet使用400万参数,精确度达到了74.8%。
而2017年ImageNet挑战赛的获胜者Squeeze-and-Excitation Networks,使用1.5亿参数,精确度达到了82.7%。
仅仅3年,数据处理能力翻了36番。而在同一时期,GPU内存仅增加了约3倍。
当前最先进的图像模型,已经达到了云TPUv2内存的可用上限。因此,迫切需要一种更高效、可扩展的基础设施,以实现大规模深度学习,并克服当前加速器的内存限制。
ImageNet精度和模型大小之间的强相关性
基于以上目的,Google推出了GPipe。
GPipe是什么,效果如何?
GPipe是一个分布式机器学习、可扩展的管道并行库,可以学习巨型深度神经网络。
使用同步随机梯度下降和管道并行性进行训练,适用于由多个连续层组成的任何DNN。
GPipe允许研究人员轻松部署更多加速器来训练更大的模型,并在不调整超参数的情况下,达到提升性能的效果。
GPipe将跨加速器和管道执行的网络层进行分区,以便实现对硬件更高的利用率,同时利用重新计算来将激活的内存使用降至最低。
例如,使用8个加速器的分区,GPipe就可以训练25倍大神经网络。
而GPipe也几乎实现了线性加速。使用4倍数量的加速器,处理同一个模型的速度提升了3.5倍;16倍加速器速度提升11倍。
同时它也要保证计算的梯度和分区的数量保持一致,从而在不对模型的参数做任何改动的前提下,都能保持线性加速。
目前,核心GPipe库已在Lingvo框架下开源。
为什么要对跨加速器的模型进行分区?
有两种标准方法可以加速DNN模型:
数据并行方法,使用更多的机器并将输入数据分开
模型并行性。将模型移动到如GPU或TPU等具有加速模型训练的特殊硬件
然而加速器的内存、与主机的通信带宽均有限。因此模型并行性就需要将模型进行分割,将不同的分区分配给不通过的加速器。
可是由于由于DNN的顺序性,这种朴素的策略可能导致在计算期间,只有一个加速器处于激活状态,导致大量算力的浪费。
而标准数据并行方法是允许在多个加速器上,同时训练不同输入数据的相同模型,但每个加速器可支持模型大小又有限制。
GPipe的做法是将模型分割,并划分给不同的加速器,自动将小Batch拆分为更小的微Batch,这样就实现了跨多个加速器的高效训练。
此外,因为梯度一直在微批次中累积,所以分区数量不会影响模型质量。
Time部分:由于网络的连续性,幼稚模型并行策略导致严重的未充分利用。 一次只有一个加速器处于活动状态。
Bubble部分:GPipe将输入小批量分成较小的微批次,使不同的加速器可以同时在单独的微批次上工作。
使用GPipe和不使用,之间的差异有多大?
一个TPUv2有8个加速器核心和64GB内存(每个加速器8GB),由于内存限制,单个加速器可以训练的参数量上限是8200万。
借助反向传播和批量分割中的重新计算,GPipe将中间激活内存从6.26GB减少到3.46GB,将单个加速器参数处理上限提升至3.18亿个。
我们还看到,通过管道并行性,最大模型大小与分区数成正比,如预期的那样。
通过GPipe,AmoebaNet能够在云TPUv2的8个加速器上加入18亿个参数,比没有GPipe的情况下多25倍。
Google测量了GPipe对AmoebaNet-D模型吞吐量的影响。效率和加速器的数量几乎是呈线性加速,8个加速器+8个分区,比2个加速器+2个分区快2.5倍。
TPUv3效果更好。在1024个令牌句子上启用了80亿个参数Transformer语言模型,16个加速器将速度提升了11倍
使用GPipe加速AmoebaNet-D,这种模型不适合一个加速器。基线naive-2是将模型拆分为两个分区时本机分区方法的性能。Pipeline-k指的是GPipe的性能,它将模型分成带有k个加速器的k个分区。
GPipe还可以通过使用更多加速器来扩展训练,而无需更改超参数。因此,它可以与数据并行性相结合,以互补的方式使用更多的加速器来扩展神经网络训练。
GPipe精确度能达到多少?
前面我们提到,处理的数据量越大,获得的精度就越高。
Google在ImageNet ILSVRC-2012数据集上,使用Cloud TPUv2训练了一个有5.57亿参数、480 x 480输入图像尺寸的AmoebaNet-B模型。
该网络被分成4个分区,这个巨型模型在多个流行数据集上表现良好,在没有任何外部数据的情况下,精度达到了最先进的84.3% top-1,以及97% top-5的single-crop验证准确度。
大型神经网络不仅适用于ImageNet等数据集,还通过迁移学习,与其他数据集息息相关。
目前我们已知ImageNet模型越好,迁移就越好。Google在CIFAR10和CIFAR100数据集上进行了迁移学习实验,将最佳公布的CIFAR-10精度提高到99%,将CIFAR-100精度提高到91.3%。
推荐阅读
运动型轿车是什么 运动型轿车与普通车有何区别?
运动型轿车凭借着外观酷炫,动力性能强的特点,深受国内众多消费者的喜爱。特别是在年轻消费者心目中,运动型轿车基本上是购车的首选。但是 【详细】
汽油清洗剂是什么 汽油清洗剂加在汽油里是干嘛的?
最近有很多车主反映加油的时候总是建议用汽油清洁剂。但是,大部分人还是不太了解,还有就是一部分人纳闷汽油清洗剂加在汽油里是干嘛的?汽 【详细】
中国最便宜的汽车是哪个 最便宜的汽车汇总
现在汽车已经成为了大家最常见的交通代步工具了。但是,依然还是有很多的家庭非常的需要代步工具,却买不起特别贵的汽车。所以今天,我们就 【详细】
伊莱克斯冰箱质量怎么样 伊莱克斯冰箱质量好不好?
伊莱克斯冰箱质量怎么样:在2018年全球500强企业中,伊莱克斯排名第162位,在2020年全球2000强企业中,伊莱克斯排名第1965位,可见伊莱克斯 【详细】
劳动保护用品是什么 劳动保护用品有哪些?
劳动保护用品有哪些?劳动防护用品分为特殊劳动防护用品和一般劳动防护用品,一般劳动防护用品是指未列入目录的一般劳动防护用品。以下产品 【详细】
相关新闻
- 女闺蜜是什么意思(女生喜欢你的几大表现 你遇到过几个?)
- 快资讯丨shift键(Excel 中 Shift键的奇妙玩法,你知道几个?)
- 斐纳TOMEFON使用状况 斐纳TOMEFON吸尘器好不好用?
- 国产手机排名前十 国产手机排名前汇总
- 环球观点:至今还没有阳的人,他们天赋异禀,还是另有隐情?研究结果来了
- 新动态:iPhone 15 太炸了,标准版有大提升
- 全球即时看!vivo拒绝高价低配:骁龙870+144Hz屏,12GB+256GB跌至1769元
- 实现高并发秒杀的七种方式
- 全球看热讯:3D渲染引擎 HOOPS Visualize 2023全新发布-增加对顶点着色器支持
- 世界看热讯:「升级」Hubstudio多账号安全管理浏览器之扩展中心上线啦!
- 汽车早报 - 消息称蔚来布局百万元级别电动车 广汽称将继续为讴歌中国客户提供售后服务
- 今头条!车轮上的2022∣新能源与汽车出口带动:全国乘用车零售量同比增长1.9%
- 谷歌文档新功能:看到非打印字符
- 世界新消息丨一加新机质感高级,更有多项黑科技加持,3999的价格入手值吗?
- 焦点信息:中国手机品牌在2022年拿下俄罗斯市场份额65% 但高价机一个没有
- 2022年这5款熟悉的产品向我们告别
- 即时:陈副区长事件,引出一个老生常谈的问题,腾讯是否会保留聊天记录
- 我国首个具备独立运行能力的新能源储能项目在内蒙古并网通电
- 上海奉贤区初中转学条件2023
- 新冠病毒变异逻辑的猜测