职位描述
1. 面向淘宝直播等高并发业务场景,负责大模型推理系统研发与性能优化,覆盖 LLM / MLLM / Omni / DiT / I2V / S2V等模型形态,构建高吞吐、低时延、稳定可用的在线与离线推理服务。
2. 负责推理加速关键技术落地:KV Cache 管理与复用、PagedAttention/FlashAttention、Speculative Decoding、并行与调度(TP/PP/EP、Continuous Batching)、量化(FP8/INT8/INT4)以及端到端链路性能优化与成本治理。
3. 负责直播场景多轮交互/Agent 推理链路建设:流式生成(Streaming)、会话状态与长上下文管理、工具调用与多模型协同(如检索/重排/审核/生成),提升数字人/智能助理在直播间的实时互动体验与稳定性。
4. 负责多模态与全模态推理工程化:图文音视频统一表征与跨模态对齐的推理落地,视频生成与人像驱动的高效推理,以支持数字人直播在业务侧规模化应用。
职位要求
1. 硕士及以上学历,计算机/人工智能/系统等相关方向;编程能力扎实,熟练 Python/C++,具备良好的工程实现与优化能力。
2. 熟悉至少一种大模型推理框架或部署体系并有实战经验:vLLM、TensorRT-LLM、TGI、FasterTransformer、SGLang、Triton Inference Server 等;
3. 熟悉大模型推理核心机制与优化点:KV Cache、Attention 加速、Batching/调度、并行策略(TP/PP/EP)、权重与激活精度管理(FP16/BF16/FP8/INT8/INT4)。
4. 有 CUDA/Triton/算子优化或编译优化经验者优先;能使用 Nsight Systems/Compute、torch profiler 等工具定位性能瓶颈。
5. 有多模态/Omni 或视频生成推理经验者优先:视频理解/生成(Diffusion/DiT)、音频/语音与视觉融合、流式交互、多轮会话状态管理与稳定性治理。
6. 有顶会顶刊论文、或高影响力开源贡献、或大规模线上系统实践经验者优先。