RESEARCH · 研究

面向前沿 AI 的
中文评测研究

面向中国 AI 实验室与模型公司,围绕评测设计、强化学习环境与专家验证持续构建研究方法、能力体系与开放协作样本。

查看评测能力订阅研究通讯

评测能力维度

领域专家分层

数据合规等级

中英双语对齐

面板为提壶评测能力维度规划(capability scope),非用户量 / 任务量 / 客户数等运营 traction 数字。

中文 AI 后训练评测的
研究方向

面向中国 lab 的评测、强化学习环境、专家验证三大研究线 —— 以人类专家定义模型当下尚不可靠的能力边界。

评测设计 Evaluation Design

面向复杂推理 / 多步骤 / Agent 行为的 rubric 评测体系,以专家级评分标准 + 多裁判一致性校验为核心,持续把模型失败模式回流到 rubric 迭代,形成评测质量复利。

强化学习环境 RL Environments

构建任务可复算、奖励可审计的 RL 环境与轨迹复盘体系;支持 Agent 行为评测 / 工具调用验证 / 多轮对话偏好对齐等典型场景下的 ground-truth 与 reward shaping。

专家验证 Expert Verification

以分层准入的全球远程专家网络,提供推理 correctness、Agent trajectory、安全风险等多维度专家验证;以人类专家定义"模型应当被怎样判定为正确"。

评测能力矩阵

面向前沿模型的中文评测能力矩阵 —— 方法论、维度与对齐公开 benchmark。bar 仅示意各能力维度覆盖度,非任何模型真实分数。

TIHU-Reasoning

中文复杂推理评测能力,覆盖多步逻辑、长上下文、跨学科 reasoning。以专家级 rubric 与多裁判一致性为核心,持续校准 judge-人对齐。

方法论 brief 〔v0.1 待发布〕示例任务〔待〕对齐 benchmark 〔下表〕合作申请 →

Rubric 设计

设计中

多裁判一致性

设计中

中英双语

能力具备

长上下文

设计中

能力规划能力具备

示意能力覆盖度 · 非模型分数 · 非真实数据

TIHU-Agent

Agent 行为与轨迹评测能力,覆盖多步 tool-use trajectory 审阅、错误步定位、回归验证。以"根因归类"代替"整体打分",定位 Agent 真实失败模式。

方法论 brief 〔v0.1 待发布〕示例任务〔待〕对齐 benchmark 〔下表〕合作申请 →

Trajectory 审阅

设计中

Tool-Use 验证

设计中

失败根因归类

设计中

回归验证

规划中

能力规划能力具备

示意能力覆盖度 · 非模型分数 · 非真实数据

TIHU-Safety

模型安全与红队评测能力,覆盖诱导 / 越狱 / 有害输出探测,按危害类型分级评测,风险回流到防护迭代。架构对齐《生成式 AI 服务管理办法》。

方法论 brief 〔v0.1 待发布〕示例任务〔待〕对齐 benchmark 〔下表〕合作申请 →

红队对抗

设计中

风险分级

设计中

有害输出探测

设计中

合规对齐评测

能力具备

能力规划能力具备

示意能力覆盖度 · 非模型分数 · 非真实数据

PUBLIC BENCHMARK ALIGNMENT

对齐的公开 benchmark

提壶不发布自创垄断 benchmark,而是以公开学术 / 工业 benchmark 为对齐基准,在此基础上扩展中文专项评测能力。"对齐"状态为方法论上的覆盖能力,非任何已认证或第三方机构背书。

BENCHMARK语言类型提壶对齐状态

SuperCLUE中文综合中文综合理解能力对齐

C-Eval中文学科中文学科推理能力对齐

CMMLU中文多任务中文多任务 QA能力对齐

MMLU英文学科英文学科推理扩展中

SWE-bench代码工程英文代码 / SWE扩展中

GAIAAgent 助手英文Agent 任务规划中

HumanEval代码生成英文代码生成扩展中

FLAMES中文安全中文安全 / 价值扩展中

benchmark 名称为各项目官方公开称呼;"对齐 / 扩展 / 规划"代表提壶评测能力相对其方法学覆盖度,不代表已获得任何认证或独家授权。

研究笔记

评测方法论、Distributed Expert 工作流、合规框架与前沿观察。下列为研究路线规划稿,正式发布前以"草稿 / v0.1 / 待发布"状态标识。

v0.1 草稿

Expert Verification 方法论

从专家级 rubric 设计、多裁判一致性,到 judge-人对齐的持续校准。

v0.1 草稿

Distributed Expert 工作流白皮书

分层准入、远程协作、按 rubric 与 cohort 精准匹配的工作流参考。

待发布

中文 AI 评测的数据合规框架

面向《数据安全法》《个人信息保护法》《生成式 AI 服务管理办法》的合规对齐参考。

待发布

Continuous Evaluation Pipeline 实战

从模型回归评测到失败回流的持续评测管线设计参考。

面向前沿 AI 的中文评测研究

中文 AI 后训练评测的研究方向

评测设计 Evaluation Design

强化学习环境 RL Environments

专家验证 Expert Verification

评测能力矩阵

TIHU-Reasoning

TIHU-Agent

TIHU-Safety

对齐的公开 benchmark

研究笔记

Expert Verification 方法论

Distributed Expert 工作流白皮书

中文 AI 评测的数据合规框架

Continuous Evaluation Pipeline 实战

订阅提壶研究通讯

面向前沿 AI 的
中文评测研究

中文 AI 后训练评测的
研究方向