业务技术-Agent infra工程师(急招)-杭州

Alibaba -
杭州市

立即申请

职位详情

完整职位描述

基础信息

所属部门:

淘天集团

学历:

本科

工作年限:

2 年

职位描述

1. 建立并落地核心Agent的稳定性保障体系，覆盖SLO/告警/应急/复盘与演练。 2. 建设Agent端到端可观测性与治理面能力，统一指标口径、链路追踪、日志与审计。 3. 推动变更治理与发布门禁，结合Evals回归、灰度对照与一键回滚降低上线风险。 4. 治理质量、成本与安全风险，建设漂移监测、预算/配额、限流熔断降级与越权检测。 5. 参与一站式Agent平台可靠性设计与能力产品化，并与AI Infra协同完成推理侧定位与容量治理。

职位要求

1. 具备3年以上SRE/后端经验，能独立完成线上故障定位、值班体系建设与复盘改进闭环。具有高并发大流量的复杂分布式系统治理、保障经验者优先。 2. 熟悉云原生与可观测技术栈（K8s、Prometheus、日志与Tracing），能建立统一监控与告警体系。 3. 熟悉发布、灰度、回滚与限流熔断等稳定性工程方法，并能在多依赖链路中设计降级方案。 4. 理解LLM/Agent与RAG基本架构，掌握推理时延/吞吐/限流等关键指标，能与AI Infra高效协同。 5. 具备数据分析与评测意识，能推动Evals回归门禁、成本治理与安全审计机制在平台中落地。

立即申请

求职者工具

雇主工具

浏览

保持联系