Job description
百川智能- 分布式训练工程师北京社招全职工程职位描述1. 负责大模型训练框架开发和优化,包括但不限于优化常见框架(如Megatron,DeepSpeed),数据读取、网络通信、计算算子等方面。
2. 参与大模型训练各个环节的工程开发,处理大规模训练过程中遇到的技术挑战。
3. 跟进和落地业界先进的分布式训练技术,做前沿的技术创新。职位要求1. 熟悉数据并行、模型并行、数据并行等并行策略,具备深入的理论和实践经验。
2. 具备大规模训练框架的架构设计经验,熟悉分布式系统和网络架构。
3. 精通常见深度学习框架,包括但不限于TensorFlow、PyTorch、Horovod等,能够快速实现并调试相关算法。
4. 对大规模预训练模型有较好的理解,掌握常见预训练模型的训练方法和优化技巧。投递
