职位描述
1.高表现力语音合成系统开发: 负责淘宝直播数字人的TTS系统研发,重点突破多情感、高表现力、极具电商直播感染力的语音建模,实现语速、重音、情感的动态可控;
2. 全双工交互系统构建: 设计并实现数字人全双工语音交互架构,包括语音活动检测、打断唤醒、交互逻辑控制等,提升数字人在直播场景下的即时互动感;
3. 端到端交互大模型研发: 参与并研究应用端到端语音大模型,探索流式语音输入与输出的深度融合,解决传统级联模型的语义割裂与延迟问题;
4. 极致性能优化: 针对直播实时性要求,优化语音全链路延迟,从模型压缩、推理加速到流式处理,保障低延时体验;
5. 场景化落地: 与产品和工程团队紧密配合,将全双工交互技术应用于直播间智能导购、等业务场景,提升用户留存与转化;