职位描述
关于我们
我们致力于把大模型 Agent 打造成“能解决业务问题的生产力系统”:不仅会对话,更能规划、推理、调用工具、洞察数据,在多个业务场景形成端到端闭环。团队长期坚持“学术先进性 + 工程可落地 + 指标可验证”三位一体,推动多项技术在真实业务中规模化应用,并持续输出可复用的训练与评测体系。
你将获得什么
覆盖多模型、多尺寸的系统化训练能力:团队训练资源充足,能在不同架构/不同规模模型上完成微调、对齐与能力专项提升,并形成可复用的训练范式。
论文级问题 + 业务级验证:我们鼓励你做可发表的创新,同时确保每个方向都能进入线上评测与业务闭环,真正做到 有创新、有落地、有收益。
完整的 Agent RL 研发舞台:从环境构建、Reward 设计、策略优化到自动评估工具链,你将能主导一条完整的 RL-Driven Agent 能力演进路径。
个人影响力与成长:支持对外分享、论文/专利沉淀与跨团队共建
岗位职责
1、主导基于大模型的 AI Agent 全生命周期研发,包括通用型及垂直领域 AI Agent 的应用架构设计、数据构建、模型训练与评测;
2、运用 SFT、RL 等 Post-training 训练方法,提升大模型在自主规划(Planning)、多步推理、RAG 增强生成、工具调用、数据问答等方面的能力;
3、构建 Agent RL 所需的环境与训练方法,设计合理的 Reward Function 和优化函数,激发模型在垂直领域内的泛化性,探索无/少人类专家样本依赖的 Agent 优化方案;
4、跟踪 LLM 与 Agent 领域的国际前沿技术动态,推动技术创新在业务场景中的落地应用,重点突破工具集成复杂推理、数据洞察、AI 搜索等方向的应用创新;
5、持续优化 Agent 算法与系统架构,构建端到端智能体评测体系,开发自动化评估工具与多维评价指标,提升系统性能与效率。
职位要求
1、计算机/人工智能/数学等相关专业硕士及以上学历(博士及顶会论文发表者优先);
2、熟悉 MoE 模型架构设计和原理,具有 MoE 模型预训练或强化学习训练实操经验者优先;
3、精通 Python 及 PyTorch/TensorFlow 等框架,具备 Qwen、Llama、Deepseek 等模型二次开发经验者优先;
4、深入理解 Transformer 架构、SFT/RL 训练范式及 Prompt 工程,了解 LangChain、AutoGen 等 Agent 开发框架,有完整智能体系统搭建经验者优先;
5、熟悉常用 RL 训练框架和训练技巧,有 Verl、ROLL 等强化学习训练框架使用经验者优先。