职位描述
立足 AI Agent 业务的研发运维全链路视角,重点保障搜推广算法相关服务的稳定性、效率和成本,支持好搜推广业务
1.管理数万台设备,并为各产品线合理规划容量,制定交付方案,利用技术和运维的手段提升CPU/GPU利用率
2.负责FinOps工作,完成成本追踪,成本优化,并开发落地到相关平台中,提升资源成本的投入产出
3.负责阶段性或长期业务相关的SaaS平台业务资源成本以及稳定性治理专项
4.负责业务相关云原生平台以及中间件相关的业务容灾,整体技术方案升级,以及平台相关的业务异常问题定位,提升业务稳定性
5.参与SRE Agent产品研发,通过搭建胜任复杂SRE工作的智能体,提升资源运维效率