RESEARCH · 研究

面向前沿 AI 的
中文评测研究

面向中国 AI 实验室与模型公司,围绕评测设计强化学习环境专家验证持续构建研究方法、能力体系与开放协作样本。

8
评测能力维度
6
领域专家分层
4
数据合规等级
2
中英双语对齐

面板为提壶评测能力维度规划(capability scope),非用户量 / 任务量 / 客户数等运营 traction 数字。

中文 AI 后训练评测的
研究方向

面向中国 lab 的评测、强化学习环境、专家验证三大研究线 —— 以人类专家定义模型当下尚不可靠的能力边界。

评测设计 Evaluation Design

面向复杂推理 / 多步骤 / Agent 行为的 rubric 评测体系,以专家级评分标准 + 多裁判一致性校验为核心,持续把模型失败模式回流到 rubric 迭代,形成评测质量复利。

强化学习环境 RL Environments

构建任务可复算、奖励可审计的 RL 环境与轨迹复盘体系;支持 Agent 行为评测 / 工具调用验证 / 多轮对话偏好对齐等典型场景下的 ground-truth 与 reward shaping。

专家验证 Expert Verification

以分层准入的全球远程专家网络,提供推理 correctness、Agent trajectory、安全风险等多维度专家验证;以人类专家定义"模型应当被怎样判定为正确"。

模型当前能力 lab 期望模型达到 提壶 前沿评测覆盖区 Frontier Evaluation

评测能力矩阵

面向前沿模型的中文评测能力矩阵 —— 方法论、维度与对齐公开 benchmark。bar 仅示意各能力维度覆盖度,非任何模型真实分数。

TIHU-Reasoning

中文复杂推理评测能力,覆盖多步逻辑、长上下文、跨学科 reasoning。以专家级 rubric 与多裁判一致性为核心,持续校准 judge-人对齐。

Rubric 设计
设计中
多裁判一致性
设计中
中英双语
能力具备
长上下文
设计中
能力规划能力具备
示意能力覆盖度 · 非模型分数 · 非真实数据

TIHU-Agent

Agent 行为与轨迹评测能力,覆盖多步 tool-use trajectory 审阅、错误步定位、回归验证。以"根因归类"代替"整体打分",定位 Agent 真实失败模式。

Trajectory 审阅
设计中
Tool-Use 验证
设计中
失败根因归类
设计中
回归验证
规划中
能力规划能力具备
示意能力覆盖度 · 非模型分数 · 非真实数据

TIHU-Safety

模型安全与红队评测能力,覆盖诱导 / 越狱 / 有害输出探测,按危害类型分级评测,风险回流到防护迭代。架构对齐《生成式 AI 服务管理办法》。

红队对抗
设计中
风险分级
设计中
有害输出探测
设计中
合规对齐评测
能力具备
能力规划能力具备
示意能力覆盖度 · 非模型分数 · 非真实数据
PUBLIC BENCHMARK ALIGNMENT

对齐的公开 benchmark

提壶不发布自创垄断 benchmark,而是以公开学术 / 工业 benchmark 为对齐基准,在此基础上扩展中文专项评测能力。"对齐"状态为方法论上的覆盖能力,非任何已认证或第三方机构背书。

BENCHMARK语言类型提壶对齐状态
SuperCLUE中文综合中文综合理解能力对齐
C-Eval中文学科中文学科推理能力对齐
CMMLU中文多任务中文多任务 QA能力对齐
MMLU英文学科英文学科推理扩展中
SWE-bench代码工程英文代码 / SWE扩展中
GAIAAgent 助手英文Agent 任务规划中
HumanEval代码生成英文代码生成扩展中
FLAMES中文安全中文安全 / 价值扩展中

benchmark 名称为各项目官方公开称呼;"对齐 / 扩展 / 规划"代表提壶评测能力相对其方法学覆盖度,不代表已获得任何认证或独家授权。

研究笔记

评测方法论、Distributed Expert 工作流、合规框架与前沿观察。下列为研究路线规划稿,正式发布前以"草稿 / v0.1 / 待发布"状态标识。

RESEARCH NEWSLETTER

订阅提壶研究通讯

方法论 brief、对齐 benchmark 进展、合规框架更新 —— 我们正式发布时优先送达订阅者。

订阅表单仅前端示意,正式上线后将对接合规邮件服务并展示退订机制。研究合作可直接 press@teehuai.com · 商务合作 business@teehuai.com