Job description
大模型分布式训练专家/leader北京、上海社招全职职位描述1.负责大模型分布式训练框架的开发和优化,构建一流和稳定的分布式能力,包括但不限于功能特性开发、通信和计算性能优化等。
2.参与大模型训练各个环节的工程开发,处理训练过程中遇到的技术挑战。
3.跟进和引入业界先进的分布式训练相关的技术,做前沿的技术创新。
职位要求1.熟悉常见的深度学习训练框架,如PyTorch、 Megatron、Deepspeed等,并具有相关分布式3D并行训练开发和调试经验。
2.熟悉NVIDIACUDA的开发流程和kernel优化,对常用GPULibrary有使用和开发经验,如cuDNN/ cuBlas/NCCL/Cutlass等。
3.有大模型训练的项目开发经验,熟悉常见的 Transformer架构实现。
4.具有良好的团队合作精神和管理能力,能够跨团队紧密合作,共同推动项目的成功。投递
