Job description
多模态交互大模型研究员深圳、上海正式职位描述- 设计、构建、训练和优化面向机器人交互场景的端到端多模态大模型架构。
- 探索和实现模型对多模态输入(语音、文本、图像/视频、深度信息、传感器数据、环境上下文等) 的深度融合与理解。
- 研发模型生成多模态输出(语言语音、情绪、表情、移动、行为动作等) 的能力,确保输出的一致性与自然性。
- 重点攻克人机交互闭环中的关键问题:上下文记忆与理解、意图识别与澄清、个性化交互、情感感知与表达、长时程对话一致性、任务导向交互等。职位要求- 本科及以上学历,计算机、人工智能、电子、数学等相关专业;
- 出色的问题分析和解决能力,自主探索新解决方案的能力强;
- 关注生成式 AI 和多模态交互技术,对推动人形机器人智能化有热情;
- 熟悉 VLM / VLA / VLP / MLM等多模态任务建模、具备跨模态模型设计与训练经验;
- 理解多模态对齐(如 cross-attention、token-level alignment)、条件生成、多模态融合机制。
加分项:
- 有端到端多模态大模型研究经验,或实际落地应用项目经验者;
- 在 CVPR、NeurIPS、ICLR、ACL 等会议发表多模态相关工作者优先。
- 具有优秀的代码能力和竞赛精神,ACM/ICPC、RoboMaster等比赛获奖者。投递
