Job description
多模态(语音大模型)算法暑期实习生北京实习互联网 / 电子 / 网游职位描述1、负责语音大模型、多模态大模型算法研发与迭代,涵盖语音理解、语音生成、语音对齐、音频文本多模态融合等核心技术研发工作;
2、参与语音大模型预训练、微调、Prompt优化与模型对齐实验,针对语音降噪、语音合成、口语理解、多模态交互等场景优化模型效果;
3、调研跟进语音大模型、多模态融合领域前沿论文与业界方案,完成算法复现、实验对比、方案迭代,解决语音模型泛化差、推理精度不足等场景问题;
4、负责语音数据集清洗、构建、标注优化,完成模型训练、评测、复盘,输出实验文档与技术报告,协助推进多模态语音模型业务落地。职位要求1. 实习地点:北京
2. 学历要求:硕士研究生(2027、2028届优先),计算机、人工智能、信号与信息处理、自动化等相关专业;
3. 技术背景:扎实掌握深度学习基础,了解语音信号处理、预训练大模型、多模态融合基础原理,熟悉语音大模型、ASR、TTS任一方向者优先;
4. 技能要求:熟练使用Python,熟悉PyTorch深度学习框架,了解主流语音开源工具、多模态大模型架构者优先;
5. 能力加分:有语音识别、语音合成、语音大模型微调、音文多模态融合、相关顶会论文、科研项目、竞赛获奖经历者优先;
6. 个人素质:代码功底扎实,具备独立实验、问题排查与数据分析能力,学习主动性强,可全职实习,连续实习2个月及以上。投递
