职位描述
在大模型与智能体(Agent)成为核心交付形态的趋势下,我们亟需构建科学、高效、贴合业务目标的AI评测能力,驱动Agent能力持续突破上限。作为AI评测工程师,你将深度参与从需求定义到上线监控的全生命周期,打造覆盖能力、鲁棒性、安全性与业务价值的多维评测体系。
具体你将负责:
1. 设计并落地面向真实业务的 Agent 评测体系:针对多步推理、工具调用、代码生成、记忆管理、多Agent协作等核心能力,构建覆盖准确性、鲁棒性、一致性、安全性、执行效率等的多维评估标准与场景化 Benchmark;
2. 构建高质量动态评测数据集:基于真实业务轨迹、合成数据(Synthetic Data)、对抗样本与失败案例(Badcase),持续演进评测集,探索 Agent 能力边界;
3. 研发自动化、高扩展的评测框架与工具链流水线:实现数据管理、指标计算、结果分析与可视化的一站式支持,提升评测效率;
4. 深度分析评测结果:精准定位Agent在推理、规划、记忆、工具使用等环节的缺陷,输出结构化诊断报告与优化建议,推动agent开发团队持续迭代;
5. 评测流程标准化建设:参与AI项目全流程,从需求阶段提供评测支持到上线后的持续观测,保障评测环境稳定性、数据质量与结果可复现性
6. 跟踪LLM与Agent前沿技术(如ReAct、Plan-and-Execute、Self-Reflection等),研究并引入先进评测方法(参考GAIA、AgentBench等行业基准);
职位要求
1. 学历背景:硕士及以上学历,计算机、人工智能、软件工程、数据科学或相关专业;
2. 技术能力:
a. 评测体系设计:具备评测体系设计能力,能将业务目标转化为可量化、科学、全面的技术指标;
b. 工程能力:熟练掌握Python/Java等编程语言,具备工程化开发能力,有自动化评测工具或平台开发经验者优先;
c. 数据分析与优化:分析模型缺陷,提出调优建议,协助agent开发团队改进;
d. 工具与指标:熟练使用SQL、数据分析工具,熟悉A/B测试、模型可解释性方法等;
e. 技术理解:熟悉大模型基础原理(Transformer架构、SFT/RLHF训练范式、Prompt/Agent工程);
f. 对主流Agent评测框架(如AgentBench、C-Eval、LiveCodeBench)有研究;具备模型微调等相关实践经验;
3. 经验要求:1-3年AI模型或Agent评测、算法测试相关经验,有大规模LLM/Agent项目评测实践者优先;
4. 软技能:逻辑严谨,问题拆解能力强,具备优秀的跨团队沟通与文档撰写能力;
5. 加分项:参与过开源Benchmark建设,对AI评测技术有强烈兴趣,持续关注行业动态与学术进展。