您尝试查看的职位已过期。请重新搜索以查找现有职位。

业务技术-AI Agent 评测专家(急招)-杭州

Alibaba -
杭州市

职位详情

完整职位描述

基础信息

所属部门:

淘天集团

学历:

硕士

工作年限:

2 年

职位描述

加入我们，你将构建阿里集团企业级AI评测平台，支撑核心电商、零售、本地生活等丰富业务场景的AI方案落地，实现效果评估、效果追踪、效果调优的完整闭环，持续提升业务效果迭代飞轮！具体你将负责： 1. Agent效果评测体系建设设计和实现Agent全生命周期的评测框架，包括功能测试、性能测试、效果评测建立多维度的Agent能力评估标准（如：任务完成率、响应准确性、工具调用准确率、推理链路合理性等）构建自动化评测pipeline，支持持续集成和持续评测 2. 评测数据集与Benchmark建设构建行业级和场景化的评测数据集设计涵盖不同难度级别的测试用例建立内部Benchmark体系，对标业界主流评测标准（如AgentBench、ToolBench等） 3. 效果调优支持基于评测结果提供Agent优化建议设计A/B测试方案，支持Prompt工程优化、Agent架构优化等建立效果追踪和回归测试机制 4. 平台化能力建设开发用户友好的评测工具和界面支持研发和非研发用户的自助式评测提供评测报告自动生成和可视化展示

职位要求

1. 本科及以上学历，具备计算机科学/人工智能/统计学/数学或相关专业背景 2. 2年以上软件工程经验，1年以上AI应用评测经验，精通Python/JAVA主流编程语言 3. 深入掌握AI评测体系理论，精通多维度评测体系构建方法论（准确性、鲁棒性、安全性等)，能够使用统计方法分析评测结果，发现问题和优化点 4. 熟悉软件测试原理、测试用例设计方法、质量保障体系 5. 加分项：参与或使用过主流开源评测框架；贡献过国际基准评测集；有AI Agent项目的评测方案设计和落地经验优先

求职者工具

雇主工具

浏览

保持联系