职位描述
我们是淘天集团淘宝用户算法团队,致力于通过外投广告算法、商品推荐算法、权益激励算法及消息触达策略的深度融合,驱动淘宝用户的高效增长与长期价值提升。团队聚焦用户全生命周期管理,以大规模机器学习、商品召回排序,序列建模、因果推断、运筹优化等为核心技术引擎,在获客效率、增量GMV和用户LTV等关键指标上持续突破。
我们正在寻找在外投广告出价方面有深厚技术积累和实战经验的资深工程师,共同构建业界领先的出价链路。
核心职责:
1. 负责手淘外投广告场景的算法优化工作,包括RTA、RTB智能出价与跨渠道成本规划等算法研发;
2. 完善离线仿真环境,利用前沿的强化学习、生成式模型及LLM后训练等技术,解决复杂约束下的多目标优化问题;
3. 优化多ADX环境下的多智能体强化学习模型,提高广告主收益;
4. 深入理解外投的业务特点,结合素材理解,广告位理解,标题生成等方向,挖掘算法驱动业务的增长点,搭建算法模型并推动落地;
5. 搭建基于LLM的Agent架构,根据自然语言指令生成调价参数,实现更灵活的人机协同广告投放。
为什么选择我们?
聚焦核心算法链路: 深度参与淘宝核心用增场景的出价环节,你的工作直接影响亿级用户的体验与核心业务指标。
直面技术挑战: 处理海量数据与高并发请求,优化大规模分布式训练与推理效率,在工业级场景下实现算法突破。
前沿技术实践: 在强化学习、生成式模型、大模型应用等方向持续探索与落地。
精英技术团队: 与顶尖的算法工程师共事,在浓厚的工程与算法氛围中快速成长。
关键角色定位: 负责用增外投系统最核心的出价模块,技术贡献清晰可见。
职位要求
1. 具备优秀的代码规范与系统工程能力,熟悉TensorFlow/PyTorch等深度学习框架,有大规模分布式训练与在线服务部署经验;
2. 深入理解强化学习理论,熟悉生成式模型在序列决策或轨迹生成中的应用;
3. 具备大模型后训练经验,熟悉SFT、RLHF、DPO等技术栈,了解如何将LLM融入传统推荐/广告排序或智能决策链路;
4. 关注行业前沿技术应用和学术界较新理论突破,对具挑战性的问题充满热情,拥有良好的团队合作意识,拥有良好的沟通能力;
5. 加分项:
a.在KDD、SIGIR、WWW、ICML、NeurIPS、RecSys等国际顶会发表过推荐/广告或大模型相关论文优先;
b.有大规模在线广告、推荐系统实战经验,或成功将大模型技术应用于工业级场景;
c.在ACM、Kaggle、天池等竞赛中取得优异成绩,或在开源社区有高星贡献项目。