Files

2.7 KiB
Raw Permalink Blame History

评测命令Eval Command

管理评测驱动开发eval-driven development工作流。

用法Usage

/eval [define|check|report|list] [feature-name]

定义评测Define Evals

/eval define feature-name

创建一个新的评测定义:

  1. 创建 .claude/evals/feature-name.md 文件,使用以下模板:
## EVAL: feature-name
创建时间:$(date)

### 能力评测Capability Evals
- [ ] [能力描述 1]
- [ ] [能力描述 2]

### 回归评测Regression Evals
- [ ] [现有行为 1 仍然正常工作]
- [ ] [现有行为 2 仍然正常工作]

### 通过准则Success Criteria
- 能力评测capability evals的 pass@3 > 90%
- 回归评测regression evals的 pass^3 = 100%
  1. 提示用户填写具体准则。

检查评测Check Evals

/eval check feature-name

运行特定功能的评测:

  1. .claude/evals/feature-name.md 读取评测定义。
  2. 对于每一项能力评测:
    • 尝试验证准则。
    • 记录 PASS/FAIL。
    • .claude/evals/feature-name.log 中记录尝试日志。
  3. 对于每一项回归评测:
    • 运行相关测试。
    • 与基准baseline进行对比。
    • 记录 PASS/FAIL。
  4. 报告当前状态:
EVAL CHECK: feature-name
========================
能力Capability: X/Y 通过
回归Regression: X/Y 通过
状态Status: 进行中IN PROGRESS/ 已就绪READY

生成报告Report Evals

/eval report feature-name

生成完整的评测报告:

EVAL REPORT: feature-name
=========================
生成时间:$(date)

能力评测CAPABILITY EVALS
----------------
[eval-1]: PASS (pass@1)
[eval-2]: PASS (pass@2) - 需重试
[eval-3]: FAIL - 见备注

回归评测REGRESSION EVALS
----------------
[test-1]: PASS
[test-2]: PASS
[test-3]: PASS

指标METRICS
-------
能力 pass@1: 67%
能力 pass@3: 100%
回归 pass^3: 100%

备注NOTES
-----
[任何问题、边界情况或观察结果]

建议RECOMMENDATION
--------------
[可发布SHIP/ 需改进NEEDS WORK/ 阻塞BLOCKED]

列出评测List Evals

/eval list

显示所有评测定义:

EVAL DEFINITIONS
================
feature-auth      [3/5 通过] 进行中IN PROGRESS
feature-search    [5/5 通过] 已就绪READY
feature-export    [0/4 通过] 未开始NOT STARTED

参数Arguments

$ARGUMENTS:

  • define <name> - 创建新的评测定义。
  • check <name> - 运行并检查评测。
  • report <name> - 生成完整报告。
  • list - 显示所有评测。
  • clean - 清除旧的评测日志(保留最近 10 次运行记录)。