预训练给了模型"生成"的能力;真正决定它能否被信任的,是后训练阶段的评测、对齐与验证。AI 已经能写出"看起来对"的答案,问题在于:谁来判断它"真的对"?
过去几年,模型的生成能力突飞猛进。但在医学、金融、法律、代码这些高风险领域,"流畅"和"正确"是两回事。一份读起来专业的诊断建议、一段能跑通的代码、一条引用了法条的合同意见,可能在关键细节上是错的——而错误恰恰发生在只有领域专家才能识别的地方。
为什么通用标注解决不了
大规模众包标注擅长"量",但正确性判断要的是"专业度"。判断一条推理链是否成立、一个 Agent 的工具调用轨迹是否合理、一份研报评分是否公允,需要的不是更多的人,而是对的人,加上一套能让判断可复现的机制。
提壶的做法
- 领域专家分层准入——按医、金、码、法等领域和能力分级,不是谁都能接每种任务;
- 专家级 rubric 评分——把"对不对"拆成可打分的维度,而不是凭感觉;
- 多裁判一致性 + 专家复核——降低单点偏差,分歧进入复核;
- 失败回流迭代——错判和争议沉淀回 rubric,持续校准。
这套流程的数据全程在境内采集、处理、存储,支持数据不出境的合规交付。
我们不和谁比"标注了多少",我们比"判断的专业度"。AI 越强,越需要一层可靠的人类验证。
提壶智能