职位描述
加入我们,你将构建阿里集团企业级AI评测平台,支撑核心电商、零售、本地生活等丰富业务场景的AI方案落地,实现效果评估、效果追踪、效果调优的完整闭环,持续提升业务效果迭代飞轮!
具体你将负责:
1. Agent效果评测体系建设
设计和实现Agent全生命周期的评测框架,包括功能测试、性能测试、效果评测
建立多维度的Agent能力评估标准(如:任务完成率、响应准确性、工具调用准确率、推理链路合理性等)
构建自动化评测pipeline,支持持续集成和持续评测
2. 评测数据集与Benchmark建设
构建行业级和场景化的评测数据集
设计涵盖不同难度级别的测试用例
建立内部Benchmark体系,对标业界主流评测标准(如AgentBench、ToolBench等)
3. 效果调优支持
基于评测结果提供Agent优化建议
设计A/B测试方案,支持Prompt工程优化、Agent架构优化等
建立效果追踪和回归测试机制
4. 平台化能力建设
开发用户友好的评测工具和界面
支持研发和非研发用户的自助式评测
提供评测报告自动生成和可视化展示