Job description
大模型部署和加速工程师北京全职职位描述1.参与针对大模型的训练\推理加速、模型服务化、GPU资源调度等功能的研发;
2.模型轻量化:包括但不限于量化、剪枝、蒸馏、知识蒸馏、编译优化等,以满足端侧或云端部署的性能要求(低延迟、高吞吐、低功耗);
3.负责大模型封装、部署pipeline的开发,负责将优化后的模型部署到各种目标硬件平台(AGX、thor、4090等);职位要求1计算机及相关专业硕士及以上,2年以上工作经历;
2.扎实的计算机和软件工程基础,精通 C++ 、python编程,熟悉shell、docker使用,了解基本的操作系统、计算机体系结构、编程语言、计算机网络知识;
3.熟悉至少一种主流AI训练框架,如PyTorch、FensorFlow、FLAX等;
4.熟悉至少一种大模型加速技术,如kv-cache、flash-attention、trnsorrt-llm等,熟悉常见的大模型推理框架,如如vLLM、TGI、SGLang、TensorRT-LLM、LightLLM、lmdeploy等;
5.深入理解模型性能分析工具和方法,能够准确评估模型在不同硬件上的性能,熟悉GPU、NPU等硬件上的性能分析工具;
符合以下一项或多项条件者优先考虑:
1.端侧硬件实战经验:在端侧硬件(AGX、thor等)有实际加速深度学习模型经验,熟悉常见硬件的体系架构和性能特性,熟悉相关推理框架(如 TensorRT, ONNX Runtime, OpenVINO, TVM 等);
2.具备大模型训练、推理加速实战经验;投递
