职位描述
1. 评测体系设计
- 针对电商搜索(queryitem 相关性、意图覆盖、长尾、新品冷启等)和推荐(相关性、惊喜度、多样性、疲劳度、场景适配等)定义多维度评测标准与打分规则;
- 建立分层评测框架:badcase 排查 · 离线评测集 · 在线人工巡检 · A/B 主观补充评估。
2. 数据 & 流程建设
- 主导评测样本的采样策略(高价值流量、长尾、争议 case、回归集等);
- 设计 query/item 标注 SOP、培训机制、质检与一致性(IAA)管理;
- 建设可复用的评测平台/工作流,将一次性评测沉淀为可回归的资产。
3. 碳基 + 硅基协同
- 推动 LLM-as-a-judge 在大规模评测中的落地,与人工评测形成互校验闭环;
- 设计 prompt、校准方法与置信度机制,控制硅基评测的偏差与漂移;
- 将主观评测信号回流到模型训练(SFT/RLHF/偏好对)与策略迭代。
4. 驱动业务决策
- 将评测结论翻译成搜推算法、产品、运营可执行的优化方向;
- 作为搜推方向的"质量代言人",参与重大版本、模型升级、策略变更的 go/no-go 决策;
- 定期对外输出搜推体验质量报告。
5. 团队搭建与管理
- 组建并培养评测分析师、标注运营、评测算法工程师组成的复合团队;
- 与算法、产品、数据、标注供应商建立稳定的协作机制。
职位要求
- 至少 3 年聚焦在搜索 / 推荐 / 内容质量 / 评测体系,有团队管理经验优先;
- 深入理解电商场景的搜推业务链路(query 理解、召回、粗排、精排、重排、多目标)以及对应的质量痛点;
- 主导过 01 或 110 的评测体系搭建,包括标准制定、流程沉淀、平台化建设;
- 熟悉 NDCG / GSB / side-by-side / preference labeling等主流主观评测方法,能根据业务场景设计合适的方案;
- 数据敏感,能够从主观评测样本中识别系统性问题并量化影响。
强烈加分
- 有 LLM-as-a-judge / 模型自动评测的设计或落地经验,理解硅基评测的偏差来源与校准手段;
- 有 RLHF / 偏好数据 / 评分模型 训练数据建设的经验;
- 在头部电商(综合 / 垂类 / 跨境)担任过搜推质量或评测负责人;
- 有标注供应商管理、众包评测、专家评审池建设经验。
我们看重的特质
- 业务体感优先:愿意亲自看 case、亲自做几轮标注,而不是只看报表;
- 既能往下扎、又能往上抽:能把一条 badcase 讲清楚,也能把一个评测框架卖给老板;
- 闭环意识:评测不是终点,能推动结果真正回流到迭代里。