Job description
AI Infra平台研发工程师上海、北京社招全职互联网 / 电子 / 网游大模型系统职位描述1. 负责 MiniMax 机器学习平台的研发,设计和实现机器学习相关的基础设施/算法框架/工具链等,关注机器学习研发过程的稳定性、资源利用率等问题;
2. 基于机器学习系统、云原生、云计算架构等多个角度做技术问题解决和探索;
3. 覆盖机器学习系统多个子方向领域的工作,包括:资源调度、任务编排、模型训练、模型管理、数据集管理、工作流编排、ML for System等。职位要求1. 熟悉Linux平台下的分布式系统的开发及运维;
2. 具有Golang/Python/C/C++等一种高级语言开发经验;
3. 熟悉计算机组成、操作系统原理;
4. 掌握分布式系统原理,参与过大规模分布式系统的设计、开发和维护优先;
5. 熟悉容器技术,具有Docker、Kubernetes开发或使用经验
6. 有机器学习平台研发经验, 有大规模训练任务和推理服务的编排、在离线混部及资源调度经验者优先
7. 了解 Pytorch/Tensorflow/JAX/PaddlePaddle/Mindspore等机器学习框架、GPU/NPU/ARM等最新异构计算系统与架构、RDMA高性能网络, 有相关系统研发经验者优先。投递
