Job description
大模型数据链路工程师上海、北京社招全职互联网 / 电子 / 网游 - 研发职位描述1. 与算法团队深度合作,推进数据清洗、样本生成等场景下多阶段复杂 pipeline 的分布式引擎设计和落地;
2. 支撑大模型数据的清洗/分类/采样等场景,持续完善 Ray/Spark 内核功能及性能
3. 通过云原生技术栈搭建多云多地域的混合计算底座, 参与 Ray/Spark 在 K8S 上的弹性 /潮汐资源集群稳定性 /可观测性 /平台化对接等能力建设职位要求1. 扎实的 Python/Java/Scala/C++/Go 等高级语言编程功底;
2. 熟悉 Ray 内核或者 Ray 相关框架应用;
3. 熟悉常见的分布式计算框架(如 Spark/Flink 等);
4. 熟悉常见的数据湖框架(Delta/Iceberg/Hudi 等);
5. 有良好的团队沟通协作能力,及优秀的项目驱动能力;
6. 有数据平台研发、机器学习相关背景、k8s 研发经验者优先投递
