Job description
大模型训练系统工程师北京、上海社招全职互联网 / 电子 / 网游 - 研发大模型系统职位描述1. 建设超大规模AI训练集群,保证训练的稳定性,提升资源效率和硬件效率;
2. 深度参与大模型技术迭代,构建预训练、SFT、RLHF等算法方向的工程架构,解决底层基建问题,提升模型整体的迭代效率;
3. 探索业界前沿的AI Infra技术,建设行业领先的大模型基础设施解决方案。职位要求1. 扎实的计算机体系结构和分布式系统基础,熟悉GPU硬件架构,具备Kubernetes及云原生技术栈,了解 RDMA、InfiniBand、NVLink 等高性能网络技术;
2. 扎实的工程素养,良好的代码习惯(Golang/Python/C++),善于使用AI Coding提升工作效率;
3. 对大模型架构和工程链路有了解,了解Megatron、Verl、Ray等训练框架;
4. 优秀的学习能力,对AI有热情和好奇心,追求技术成长和认知快速迭代,表达清晰,逻辑严谨;
5. 良好的沟通协作能力,能够与算法团队紧密配合,一起探索大模型新技术,推动模型快速迭代。投递
