Job description
机器学习平台运维工程师北京社招全职金融职位描述1. 负责机器学习平台的稳定运转,支持模型开发、训练与部署的多个环节
2. 负责训练任务的各类问题排查和解决,包括GPU服务器和RDMA网络的故障处理
3. 负责机器学习平台监控告警和各类问题排查工具的建设,包括常见问题排查流程建立
4. 负责资源成本管理与规划,优化计算和存储资源,提升机器学习任务的执行效率
5. 分析GPU应用中的质量性能表现,提供系统的技术支持能力,推动改进识别和落地
职位要求1. 本科及以上学历,3年以上工作经验,有机器学习平台相关开发或运维经验;
2. 熟练使用Go、Python、Shell等编程语言,善于使用自动化/智能化方法让服务稳定高效;
3. 熟悉容器技术、掌握K8s、Docker的技术原理,有实际使用和运维GPU集群的经验;
4. 对于机器学习模型的构建、部署和维护过程有深入理解;
5. 有优秀的逻辑分析能力,能够对业务逻辑进行合理的抽象和拆分;
6. 具有良好的沟通协调能力,较好的团队合作精神、责任心和一定抗压能力投递
