职位描述
1、负责淘宝首页AI产品评测体系建设,运用科学方法与前沿技术,推动评测方法及工具应用迭代,牵引大模型能力迭代。
2、基于淘宝用户体验提升的目标,结合用户画像和特征,制定大模型应用策略,并通过不断迭代评测集和评测体系,指导模型能力的提升方向。
3、探索模型在预训练阶段与上线后用户验证的内在一致性,跨训练阶段预测模型性能上限;并适配最新的前沿评测方向,确保评测的全面性和线上数据后验有效性。
4、具备敏锐的数据敏感度,跟踪评测核心数据,定位模型能力薄弱点、特征、优劣、评测优化空间,输出评测分析报告,构建评测异常处理流程;