大模型部署和加速工程师

🇨🇳Beijing, Beijing, China3 months ago

Full TimeZHAsia/Pacific

Application status

Job description

大模型部署和加速工程师北京全职职位描述1.参与针对大模型的训练\推理加速、模型服务化、GPU资源调度等功能的研发； 2.模型轻量化：包括但不限于量化、剪枝、蒸馏、知识蒸馏、编译优化等，以满足端侧或云端部署的性能要求（低延迟、高吞吐、低功耗）； 3.负责大模型封装、部署pipeline的开发，负责将优化后的模型部署到各种目标硬件平台（AGX、thor、4090等）；职位要求1计算机及相关专业硕士及以上，2年以上工作经历； 2.扎实的计算机和软件工程基础，精通 C++ 、python编程，熟悉shell、docker使用，了解基本的操作系统、计算机体系结构、编程语言、计算机网络知识； 3.熟悉至少一种主流AI训练框架，如PyTorch、FensorFlow、FLAX等； 4.熟悉至少一种大模型加速技术，如kv-cache、flash-attention、trnsorrt-llm等，熟悉常见的大模型推理框架，如如vLLM、TGI、SGLang、TensorRT-LLM、LightLLM、lmdeploy等； 5.深入理解模型性能分析工具和方法，能够准确评估模型在不同硬件上的性能，熟悉GPU、NPU等硬件上的性能分析工具；符合以下一项或多项条件者优先考虑： 1.端侧硬件实战经验：在端侧硬件（AGX、thor等）有实际加速深度学习模型经验，熟悉常见硬件的体系架构和性能特性，熟悉相关推理框架（如 TensorRT, ONNX Runtime, OpenVINO, TVM 等）； 2.具备大模型训练、推理加速实战经验；投递

Apply on company site