mirror of
https://github.com/sweetwisdom/everything-claude-code-zh.git
synced 2026-03-21 22:10:09 +00:00
121 lines
2.7 KiB
Markdown
121 lines
2.7 KiB
Markdown
# 评测命令(Eval Command)
|
||
|
||
管理评测驱动开发(eval-driven development)工作流。
|
||
|
||
## 用法(Usage)
|
||
|
||
`/eval [define|check|report|list] [feature-name]`
|
||
|
||
## 定义评测(Define Evals)
|
||
|
||
`/eval define feature-name`
|
||
|
||
创建一个新的评测定义:
|
||
|
||
1. 创建 `.claude/evals/feature-name.md` 文件,使用以下模板:
|
||
|
||
```markdown
|
||
## EVAL: feature-name
|
||
创建时间:$(date)
|
||
|
||
### 能力评测(Capability Evals)
|
||
- [ ] [能力描述 1]
|
||
- [ ] [能力描述 2]
|
||
|
||
### 回归评测(Regression Evals)
|
||
- [ ] [现有行为 1 仍然正常工作]
|
||
- [ ] [现有行为 2 仍然正常工作]
|
||
|
||
### 通过准则(Success Criteria)
|
||
- 能力评测(capability evals)的 pass@3 > 90%
|
||
- 回归评测(regression evals)的 pass^3 = 100%
|
||
```
|
||
|
||
2. 提示用户填写具体准则。
|
||
|
||
## 检查评测(Check Evals)
|
||
|
||
`/eval check feature-name`
|
||
|
||
运行特定功能的评测:
|
||
|
||
1. 从 `.claude/evals/feature-name.md` 读取评测定义。
|
||
2. 对于每一项能力评测:
|
||
- 尝试验证准则。
|
||
- 记录 PASS/FAIL。
|
||
- 在 `.claude/evals/feature-name.log` 中记录尝试日志。
|
||
3. 对于每一项回归评测:
|
||
- 运行相关测试。
|
||
- 与基准(baseline)进行对比。
|
||
- 记录 PASS/FAIL。
|
||
4. 报告当前状态:
|
||
|
||
```
|
||
EVAL CHECK: feature-name
|
||
========================
|
||
能力(Capability): X/Y 通过
|
||
回归(Regression): X/Y 通过
|
||
状态(Status): 进行中(IN PROGRESS)/ 已就绪(READY)
|
||
```
|
||
|
||
## 生成报告(Report Evals)
|
||
|
||
`/eval report feature-name`
|
||
|
||
生成完整的评测报告:
|
||
|
||
```
|
||
EVAL REPORT: feature-name
|
||
=========================
|
||
生成时间:$(date)
|
||
|
||
能力评测(CAPABILITY EVALS)
|
||
----------------
|
||
[eval-1]: PASS (pass@1)
|
||
[eval-2]: PASS (pass@2) - 需重试
|
||
[eval-3]: FAIL - 见备注
|
||
|
||
回归评测(REGRESSION EVALS)
|
||
----------------
|
||
[test-1]: PASS
|
||
[test-2]: PASS
|
||
[test-3]: PASS
|
||
|
||
指标(METRICS)
|
||
-------
|
||
能力 pass@1: 67%
|
||
能力 pass@3: 100%
|
||
回归 pass^3: 100%
|
||
|
||
备注(NOTES)
|
||
-----
|
||
[任何问题、边界情况或观察结果]
|
||
|
||
建议(RECOMMENDATION)
|
||
--------------
|
||
[可发布(SHIP)/ 需改进(NEEDS WORK)/ 阻塞(BLOCKED)]
|
||
```
|
||
|
||
## 列出评测(List Evals)
|
||
|
||
`/eval list`
|
||
|
||
显示所有评测定义:
|
||
|
||
```
|
||
EVAL DEFINITIONS
|
||
================
|
||
feature-auth [3/5 通过] 进行中(IN PROGRESS)
|
||
feature-search [5/5 通过] 已就绪(READY)
|
||
feature-export [0/4 通过] 未开始(NOT STARTED)
|
||
```
|
||
|
||
## 参数(Arguments)
|
||
|
||
$ARGUMENTS:
|
||
- `define <name>` - 创建新的评测定义。
|
||
- `check <name>` - 运行并检查评测。
|
||
- `report <name>` - 生成完整报告。
|
||
- `list` - 显示所有评测。
|
||
- `clean` - 清除旧的评测日志(保留最近 10 次运行记录)。
|