职位描述
聚焦用户增长(User Growth)核心业务场景,利用强化学习(RL)与生成式 AI 技术推动业务智能化升级。你将在真实的亿级流量场景中,参与从算法策略到工程落地的全链路建设,解决广告竞价、创意生成、用户生命周期管理等高价值问题。
岗位职责:
1. RL 出价与竞价策略
参与基于强化学习的广告出价系统建设,将静态出价升级为多步序列决策范式,构建 State 推理 Action Reward 的完整闭环
探索 Decision Transformer / Offline RL 等前沿方法在 RTB 竞价场景的落地
2. RL 训练与推理工程
参与 RL / LLM RL 训练框架建设,支撑 PPO、DQN、GRPO 等算法的高效落地,优化训推异步与分布式训练策略
解决 RL 训练中的工程瓶颈(样本传输延迟、显存优化、训练稳定性),跟进 VERL、Ray 等前沿框架并结合业务落地
3. AIGC 创意与 Agent 工程
设计和实现 AIGC 驱动的规模化创意供给体系,覆盖文案生成、图片创意、视频素材等多模态内容生产,构建生成 风控审核 语义去重 效果反馈的全链路闭环
构建面向用增业务的 AI Agent 系统(创意 Agent、广告优化师 Agent 等),设计多智能体协同架构与工具集成方案
4. AI Coding 与研发效能
深度使用 AI 编程工具(Cursor、Claude Code 等)驱动日常研发,探索 AI 辅助代码生成、代码审查、自动化测试等场景的最佳实践
参与 AI Coding 全链路覆盖的推进,提升团队 AI 辅助代码占比与研发效能
5. 在线引擎与实验体系
参与用增引擎体系(RTA / RTB / 创意供给引擎)核心模块开发,优化高并发系统性能与稳定性
建设特征工程、样本回流与 AB 实验体系,支撑策略的科学评估
职位要求
1. 专业能力
RL / 决策智能:理解 MDP、策略梯度、Q-Learning、Actor-Critic 等核心概念,了解 Offline RL 或 Model-based RL;能将业务问题建模为 RL 问题
工程能力:精通 Python,熟练掌握 Java 或 C/C++ 至少一种;熟悉 PyTorch,了解分布式训练原理
生成式 AI:理解 LLM 的能力与局限,熟悉 Prompt Engineering、RAG、Agent 框架等应用范式;对多模态内容生成有基本认知
AI Coding:AI 编程工具重度玩家,具备极强的 Prompt 编写与调优能力,理解如何让 AI 写出生产级代码
2. 能力特质
能快速啃透前沿论文并转化为工程代码
有独立完成的开源项目或个人 Demo,展现极客精神
强自驱力,主动探索边界
加分项:
1.有 RL 在广告/推荐/竞价场景的落地经验,了解 Reward Shaping、OPE
2.了解 Decision Transformer、RLHF、DPO 等 RL × 生成式交叉方向
3.熟悉分布式 RL 训练框架(Ray、VERL、DeepSpeed),有大规模训推优化经验
4.有 AIGC 内容生成落地经验(文案/图片/视频),熟悉扩散模型或多模态生成技术
5.具备 GPU 异构计算基础,了解 CUDA 编程与性能优化
6.有 AI Agent 实际落地经验(多智能体编排、RAG 系统、工具集成),有可展示的项目成果
7.在 GitHub 上有高质量 AI/RL 项目或技术影响力