职位要求
1. 具备3年以上SRE/后端经验,能独立完成线上故障定位、值班体系建设与复盘改进闭环。具有高并发大流量的复杂分布式系统治理、保障经验者优先。
2. 熟悉云原生与可观测技术栈(K8s、Prometheus、日志与Tracing),能建立统一监控与告警体系。
3. 熟悉发布、灰度、回滚与限流熔断等稳定性工程方法,并能在多依赖链路中设计降级方案。
4. 理解LLM/Agent与RAG基本架构,掌握推理时延/吞吐/限流等关键指标,能与AI Infra高效协同。
5. 具备数据分析与评测意识,能推动Evals回归门禁、成本治理与安全审计机制在平台中落地。