职位描述
面向淘宝营销业务,围绕商品运营、用户运营等具体方向,开展训练数据构建、后训练方案设计、实验评估与效果迭代,推动模型持续优化并提升业务效果。
具体职责包括:
1. 后训练方案设计与优化:结合业务目标、数据特点和模型现状,制定后训练优化方案,选择合适的训练策略并完成效果验证;
2. 训练工程与实验执行:负责训练任务的工程化执行与过程管理,完成数据准备、训练配置、实验运行、效果对比和结果分析,支撑模型版本迭代;
3. 业务数据构建与质量控制:围绕具体业务场景,完成指令数据、偏好数据、拒答数据、评测回流数据等训练数据的采集、清洗、去重、分层、标注与质量控制;
4. 效果评估与持续迭代:结合离线评测、人工评审、线上实验、badcase 分析和业务反馈,系统评估训练收益,定位效果退化、覆盖不足等问题,并推动优化迭代;
5. 跨团队协同与落地推进:协同产品、运营、数据、工程等团队成员,完成需求澄清、数据对接、训练评估与上线支持,推动模型能力在业务场景中的落地应用。
职位要求
1. 硕士及以上学历,计算机、人工智能、软件工程、数学、统计学等相关专业优先;
2. 具备扎实的软件工程与机器学习基础,熟悉 Python/JAVA 等至少一门主流编程语言;
3. 熟悉 SFT、DPO、GRPO、RLHF 等主流后训练方法,能够结合业务场景说明不同方法的适用边界;
4. 熟练应用 LoRA、QLoRA、分布式训练、混合精度、Checkpoint 管理等训练工程方法,具备训练任务执行与实验分析经验;
5. 具备训练数据构建能力,能够完成指令数据、偏好数据、拒答数据或评测回流数据的整理、清洗、标注与质量控制;
6. 具备较强的业务理解能力、逻辑分析能力和跨团队协作能力,能够持续推动模型效果优化与业务落地。
加分项:具备垂直业务场景大模型后训练、评测与持续优化的完整实践经验,能够围绕业务目标形成训练-评测-迭代闭环。