Job description
MiMo-大模型训练框架开发工程师北京社招全职职位 ID:A142530职位描述- 基于 PyTorch、DeepSpeed、Megatron-LM 等技术,参与大模型训练框架的设计、开发与优化,提升模型训练的效率、稳定性与扩展性,支撑大规模模型的高效训练和部署。
- 解决万卡集群中大模型训练中的关键技术难题,包括分布式训练通信、内存显存优化、数据加载与预处理加速等,保障训练高效稳定,降低资源消耗。
- 开展大模型框架性能评估和调优工作,构建并完善性能监控体系,通过实时监测训练指标,定位性能瓶颈,提出优化方案,确保在不同硬件上达到最优性能。职位要求- 1–5 年高性能计算 / 分布式训练 / 深度学习系统研发经验;
- 熟练阅读并修改 PyTorch/DeepSpeed/Megatron-LM 核心源码,有线上调优案例;
- 熟练使用 nsight/NCCL profiler 分析任务训练性能瓶颈;
- 熟悉 InfiniBand/RoCEv2 网络拓扑,能独立调优 DP/TP/PP/EP 切分策略,解决大规模下通信-计算重叠问题;
- 具备 Python/C++ 混合开发能力,代码洁癖+CI/CD 意识。投递
