[ PROMPT_NODE_22394 ]
nemo-evaluator-sdk
[ SKILL_DOCUMENTATION ]
# NeMo Evaluator SDK - 企业级大语言模型基准测试
## 快速开始
NeMo Evaluator SDK 通过容器化、可复现的评估方式,利用多后端执行(本地 Docker、Slurm HPC、Lepton 云)在 18+ 个测试集的 100+ 个基准测试中评估大语言模型。
**安装**:
bash
pip install nemo-evaluator-launcher
**设置 API 密钥并运行评估**:
bash
export NGC_API_KEY=nvapi-your-key-here
# 创建最小化配置
cat > config.yaml << 'EOF'
defaults:
- execution: local
- deployment: none
- _self_
execution:
output_dir: ./results
target:
api_endpoint:
model_id: meta/llama-3.1-8b-instruct
url: https://integrate.api.nvidia.com/v1/chat/completions
api_key_name: NGC_API_KEY
evaluation:
tasks:
- name: ifeval
EOF
# 运行评估
nemo-evaluator-launcher run --config-dir . --config-name config
**查看可用任务**:
bash
nemo-evaluator-launcher ls tasks
## 常见工作流
### 工作流 1:在标准基准测试上评估模型
在任何兼容 OpenAI 的端点上运行核心学术基准测试(MMLU、GSM8K、IFEval)。
**检查清单**:
标准评估:
- [ ] 第 1 步:配置 API 端点
- [ ] 第 2 步:选择基准测试
- [ ] 第 3 步:运行评估
- [ ] 第 4 步:检查结果
**第 1 步:配置 API 端点**
yaml
# config.yaml
defaults:
- execution: local
- deployment: none
- _self_
execution:
output_dir: ./results
target:
api_endpoint:
model_id: meta/llama-3.1-8b-instruct
url: https://integrate.api.nvidia.com/v1/chat/completions
api_key_name: NGC_API_KEY
对于自托管端点(vLLM、TRT-LLM):
yaml
target:
api_endpoint:
model_id: my-model
url: http://localhost:8000/v1/chat/completions
api_key_name: "" # 本地无需密钥
**第 2 步:选择基准测试**
将任务添加到您的配置中:
yaml
evaluation:
tasks:
- name: ifeval # 指令遵循
- name: gpqa_diamond # 研究生水平问答
env_vars:
HF_TOKEN: HF_TOKEN # 部分任务需要 HF token
- name: gsm8k_cot_instruct # 数学推理
- name: humaneval # 代码生成
**第 3 步:运行评估**
bash
# 使用配置文件运行
nemo-evaluator-launcher run
--config-dir .
--config-name config
# 覆盖输出目录
nemo-evaluator-launcher run
--config-dir .
--config-name config
-o execution.output_dir=./my_results
# 限制样本以进行快速测试
nemo-evaluator-launcher run
--config-dir .
-