职位描述
加入我们,你将构建阿里集团企业级Agent平台后训练技术体系,支撑核心电商、零售、本地生活等丰富业务场景的AI方案效果持续提升,通过先进AI技术探索,持续提升业务效果迭代飞轮,发现新的业务机会!
具体你将会负责:
1. Agent效果优化体系建设
构建面向Agent平台的模型后训练技术体系,包括SFT(监督微调)、RLHF(基于人类反馈的强化学习)、DPO(直接偏好优化)等技术栈
设计并实施Agent效果持续优化的数据飞轮机制,实现模型能力的自动化迭代升级
2. 平台化能力建设
将复杂的后训练技术封装为平台化能力,降低业务方使用门槛
支持多种场景的Agent定制化优化,如对话理解、任务规划、工具调用等
3. 评测与对齐体系
建立Agent效果评测体系,包括自动化评测和人工评测
设计偏好学习和人类反馈收集机制,确保Agent行为符合业务预期