您尝试查看的职位已过期。请重新搜索以查找现有职位。

业务技术-AI Agent 优化工程师(评测方向)-用户场景营销

Alibaba -
杭州市

职位详情

完整职位描述

基础信息

所属部门:

淘天集团

学历:

硕士

工作年限:

1 年

职位描述

在大模型与智能体（Agent）成为核心交付形态的趋势下，我们亟需构建科学、高效、贴合业务目标的AI评测能力，驱动Agent能力持续突破上限。作为AI评测工程师，你将深度参与从需求定义到上线监控的全生命周期，打造覆盖能力、鲁棒性、安全性与业务价值的多维评测体系。具体你将负责： 1. 设计并落地面向真实业务的 Agent 评测体系：针对多步推理、工具调用、代码生成、记忆管理、多Agent协作等核心能力，构建覆盖准确性、鲁棒性、一致性、安全性、执行效率等的多维评估标准与场景化 Benchmark； 2. 构建高质量动态评测数据集：基于真实业务轨迹、合成数据（Synthetic Data）、对抗样本与失败案例（Badcase），持续演进评测集，探索 Agent 能力边界； 3. 研发自动化、高扩展的评测框架与工具链流水线：实现数据管理、指标计算、结果分析与可视化的一站式支持，提升评测效率； 4. 深度分析评测结果：精准定位Agent在推理、规划、记忆、工具使用等环节的缺陷，输出结构化诊断报告与优化建议，推动agent开发团队持续迭代； 5. 评测流程标准化建设：参与AI项目全流程，从需求阶段提供评测支持到上线后的持续观测，保障评测环境稳定性、数据质量与结果可复现性 6. 跟踪LLM与Agent前沿技术（如ReAct、Plan-and-Execute、Self-Reflection等），研究并引入先进评测方法（参考GAIA、AgentBench等行业基准）；

职位要求

1. 学历背景：硕士及以上学历，计算机、人工智能、软件工程、数据科学或相关专业； 2. 技术能力： a. 评测体系设计：具备评测体系设计能力，能将业务目标转化为可量化、科学、全面的技术指标； b. 工程能力：熟练掌握Python/Java等编程语言，具备工程化开发能力，有自动化评测工具或平台开发经验者优先； c. 数据分析与优化：分析模型缺陷，提出调优建议，协助agent开发团队改进; d. 工具与指标：熟练使用SQL、数据分析工具，熟悉A/B测试、模型可解释性方法等； e. 技术理解：熟悉大模型基础原理（Transformer架构、SFT/RLHF训练范式、Prompt/Agent工程）； f. 对主流Agent评测框架（如AgentBench、C-Eval、LiveCodeBench）有研究；具备模型微调等相关实践经验； 3. 经验要求：1-3年AI模型或Agent评测、算法测试相关经验，有大规模LLM/Agent项目评测实践者优先； 4. 软技能：逻辑严谨，问题拆解能力强，具备优秀的跨团队沟通与文档撰写能力； 5. 加分项：参与过开源Benchmark建设，对AI评测技术有强烈兴趣，持续关注行业动态与学术进展。

求职者工具

雇主工具

浏览

保持联系