异动
登录注册
字节跳动大模型训练框架 veGiantModel-错过同花顺,不能再错过华林证券
本ID
2023-03-28 22:54:57

火山引擎网址https://www.volcengine.com/ 


字节跳动 AML 团队内部开发了火山引擎大模型训练框架 veGiantModel,比 Megatron 和 DeepSpeed 更快。


veGiantModel 现已在 GitHub 上开源,GitHub 上详细介绍了如何使用 veGiantModel 以及如何使用 veGiantModel 快速跑起一个 GPT 的预训练开源地址如下:

https://github.com/volcengine/veGiantModel 


火山引擎机器学习平台原生支持了 veGiantModel,目前平台正在公测中,欢迎大家试用:


性能最高提升6.9倍,火山引擎大模型训练框架 veGiantModel

近些年,NLP 应用方面有所突破,Bert、GPT、GPT-3 等超大模型横扫各种 NLP 测试后,人们发现参数量越大的模型,在算法方面表现越好,于是纷纷开始迅速向大模型方向发展,模型体积爆炸式增长。而大模型训练给现有的训练系统带来的主要挑战为显存压力,计算压力和通信压力。针对这个需求,字节跳动 AML 团队内部开发了火山引擎大模型训练框架 veGiantModel。基于 PyTorch 框架,veGiantModel 是以 Megatron 和 DeepSpeed 为基础的高性能大模型训练框架。其特点包括:

  • 同时支持数据并行、算子切分、流水线并行 3 种分布式并行策略,同时支持自动化和定制化的并行策略;

  • 基于 ByteCCL 高性能异步通讯库,训练任务吞吐相比其他开源框架有 1.2x-3.5x 的提升;

  • 提供了更友好、灵活的流水线支持,降低了模型开发迭代所需要的人力;

  • 可在 GPU上高效地支持数十亿至上千亿参数量的大模型;

  • 对带宽要求低,在私有化部署无 RDMA 强依赖。

其中,ByteCCL 为字节跳动自研的 BytePS 的升级版,针对 A100/V100 等各种机型拓扑做了分层规约优化,并支持了 allgather、alltoall 等更全面的通讯原语。


硬件配置

为了展示 VeGiantModel 的性能,veGiantModel 团队使用了自建机房的物理机,分别在 A100 和 V100 机型上做了测试,实验配置分别如下:

  • V100 测试:每个机器 8 张 Tesla V100 32G 型号 GPU,网络带宽 100G

  • A100 测试:每个机器 8 张 Ampere A100 40G 型号 GPU,网络带宽 800G

模型和对照组选择

veGiantModel 选择了 GPT-13B 模型进行评估,seq length 是 256, global batch size 是 1536。GPT 为目前市面上最为流行的 transformer based 语言模型。性能对照组选择了开源社区最流行的 Megatron 和 DeepSpeed。

测试结果

  • 模型:GPT-13B

  • Megatron:v2.4,tensor-model-parallel-size 设置为 4, pipeline-model-parallel-size 设置为 4

  • DeepSpeed:v0.4.2,使用 DeepSpeedExamples 开源社区中默认的 zero3 的配置

  • 运行环境

    • V100/TCP :100Gb/s TCP 网络带宽,4 机,每机 8 张 Tesla V100 32G GPU

    • V100/RDMA:100Gb/s RDMA 网络带宽,4 机,每机 8 张 Tesla V100 32G GPU

    • A100/TCP:800Gb/s TCP 网络带宽,4 机,每机 8 张 Tesla A100 40G GPU

    • A100/RDMA:800Gb/s RDMA 网络带宽,4 机,每机 8 张 Tesla A100 40G GPU

  • 统计值:Throughtput (samples/s)

 从上述数据可以看出:

  1. veGiantModel 性能更优:无论是在高带宽还是低带宽的场下,veGiantModel 在 V100 和 A100 上均胜出 Megatron 和 DeepSpeed,最高可达 6.9 倍提升。

  2. veGiantModel 对网络带宽要求低:veGiantModel 在带宽变化对吞吐的影响相对最小 (<10%),而 DeepSpeed(ZeRO) 是对带宽要求最高的,最高可达将近 5 倍的差距。

原因解析

veGiantModel 为什么比 Megatron 和 DeepSpeed 更快?原因如下:

  • ByteCCL (BytePS) 高性能异步通讯库。

  • 支持定制化的并行策略,可以将性能优化推到极致。

  • 在支持数据并行、算子切分、流水线并行 3 种分布式并行策略时,veGiantModel 会综合考虑到跨机的带宽,自动调整 toplogy 的 placement。


华林证券董事长林立在发布会上表示,华林证券希望将海豚App打造成“有得看、有得玩、有得学,有得赚”符合新时代年轻人需求的金融理财App。

据火山引擎总经理谭待介绍,火山引擎提供的三大解决方案贯通了IaaS、PaaS和SaaS,为新版海豚股票的需求提供了完整的端到端解决方案。

在智能内容运营方面,火山引擎依托今日头条、抖音等内容生态和AI质检、推荐算法等领先技术,为海豚股票搭建了从内容建设到内容运营的用户全生命周期成长体系。

火山引擎提供的智能体验解决方案则通过领先的特效、视频云技术,激发用户积极参与社区互动。

此外,火山引擎为新版海豚股票App提供了金融云解决方案,提供证券上云所需的计算、存储、网络、安全、研发、业务风险识别等服务;通过容器化和微服务治理等云原生方式构建业务应用,更加敏捷地响应证券用户需求高峰,实现按需扩缩容;“云+研发”的一站式解决方案可以为新版海豚股票App的用户快速增长提供长期支持。

 

 

 

 

 火山引擎智能应用

 火山引擎+英伟达组合

 

作者在2023-03-28 23:18:51修改文章
作者利益披露:原创,不作为证券推荐或投资建议,截至发文时,作者持有相关标的,下一个交易日内可能择机卖出。
声明:文章观点来自网友,仅为作者个人研究意见,不代表韭研公社观点及立场,站内所有文章均不构成投资建议,请投资者注意风险,独立审慎决策。
S
华林证券
S
同花顺
工分
12.95
转发
收藏
投诉
复制链接
分享到微信
有用 12
打赏作者
无用
真知无价,用钱说话
0个人打赏
同时转发
评论(7)
只看楼主
热度排序
最新发布
最新互动
  • 只看TA
    2023-03-28 23:31
    感谢分享,遗憾没推荐代码
    0
    0
    打赏
    回复
    投诉
    于2023-04-08 19:25:33更新
    查看2条回复
  • 股市印钞机88
    只买龙头的公社达人
    只看TA
    2023-04-08 21:56
    字节跳动不是省广和天龙最正宗吗?
    0
    0
    打赏
    回复
    投诉
  • 只看TA
    2023-04-08 21:39
    没明白,和华林有什么关系
    0
    0
    打赏
    回复
    投诉
  • 只看TA
    2023-04-08 16:46
    谢谢
    0
    0
    打赏
    回复
    投诉
  • 只看TA
    2023-04-08 16:34
    感谢分享
    0
    0
    打赏
    回复
    投诉
  • 1
前往