淘宝闪购-算法工程专家-营销超算-杭州

Alibaba -
杭州市

立即申请

职位详情

完整职位描述

基础信息

所属部门:

淘宝闪购

学历:

硕士

工作年限:

3 年

职位描述

1.负责LLM RL、Agentic RL强化学习训练框架的设计、开发与性能优化，支撑大规模 RL算法（如 PPO、DQN、GRPO等）的高效落地； 2.构建分布式训练体系，优化训推异步、partial rollout、数据并行、模型并行、Replay Buffer分布式存储与调度策略，提升GPU 利用率与训练吞吐； 3.设计并实现 RL 训练全流程工具链：包括环境封装、数据预处理、模型版本管理、训练日志监控、指标可视化（TensorBoard/Weights & Biases）等； 4.解决 RL 训练中的工程瓶颈：如样本传输延迟、GPU 显存溢出、训练稳定性（梯度爆炸/消失）等问题，提供工程化解决方案； 5.与 RL 算法团队紧密协作，理解算法需求，迭代基础设施，适配多场景的训练需求； 6.跟进强化学习与分布式训练领域的前沿技术（如 VERL、rllm、Agentlightning、Ray、Megatron-LM等），并落地到实际系统中。

职位要求

1.计算机科学、软件工程、人工智能等相关专业，3年以上工程化开发经验（含1年以上 RL 或深度学习基础设施相关经验）； 2.熟练掌握 Python编程，具备扎实的工程编码能力，熟悉 C/C++ 者优先（底层优化场景）； 3.深入理解深度学习框架（PyTorch），精通分布式训练原理与实践（FSDP/DeepSpeed/Megatron/Ray 等工具使用经验）； 4.具备强化学习基础，理解 RL 训练流程（智能体、环境、奖励机制、经验回放等核心组件），熟悉主流 RL 框架（Ray、VERL、rllm、Agentlightning）者优先； 5.具备复杂系统设计能力，能独立负责基础设施模块的从0到1搭建； 6.强问题排查能力，能快速定位训练过程中的工程问题（性能、稳定性、资源瓶颈）； 7.良好的跨团队沟通能力，能准确理解算法需求并转化为工程方案； 8.自驱力强，乐于跟进前沿技术，具备快速学习与落地能力。

立即申请

求职者工具

雇主工具

浏览

保持联系