[ PROMPT_NODE_22394 ]

nemo-evaluator-sdk

[ SKILL_DOCUMENTATION ]

# NeMo Evaluator SDK - 企业级大语言模型基准测试 ## 快速开始 NeMo Evaluator SDK 通过容器化、可复现的评估方式，利用多后端执行（本地 Docker、Slurm HPC、Lepton 云）在 18+ 个测试集的 100+ 个基准测试中评估大语言模型。 **安装**: bash pip install nemo-evaluator-launcher **设置 API 密钥并运行评估**: bash export NGC_API_KEY=nvapi-your-key-here # 创建最小化配置 cat > config.yaml << 'EOF' defaults: - execution: local - deployment: none - _self_ execution: output_dir: ./results target: api_endpoint: model_id: meta/llama-3.1-8b-instruct url: https://integrate.api.nvidia.com/v1/chat/completions api_key_name: NGC_API_KEY evaluation: tasks: - name: ifeval EOF # 运行评估 nemo-evaluator-launcher run --config-dir . --config-name config **查看可用任务**: bash nemo-evaluator-launcher ls tasks ## 常见工作流 ### 工作流 1：在标准基准测试上评估模型在任何兼容 OpenAI 的端点上运行核心学术基准测试（MMLU、GSM8K、IFEval）。 **检查清单**: 标准评估: - [ ] 第 1 步：配置 API 端点 - [ ] 第 2 步：选择基准测试 - [ ] 第 3 步：运行评估 - [ ] 第 4 步：检查结果 **第 1 步：配置 API 端点** yaml # config.yaml defaults: - execution: local - deployment: none - _self_ execution: output_dir: ./results target: api_endpoint: model_id: meta/llama-3.1-8b-instruct url: https://integrate.api.nvidia.com/v1/chat/completions api_key_name: NGC_API_KEY 对于自托管端点（vLLM、TRT-LLM）： yaml target: api_endpoint: model_id: my-model url: http://localhost:8000/v1/chat/completions api_key_name: "" # 本地无需密钥 **第 2 步：选择基准测试** 将任务添加到您的配置中： yaml evaluation: tasks: - name: ifeval # 指令遵循 - name: gpqa_diamond # 研究生水平问答 env_vars: HF_TOKEN: HF_TOKEN # 部分任务需要 HF token - name: gsm8k_cot_instruct # 数学推理 - name: humaneval # 代码生成 **第 3 步：运行评估** bash # 使用配置文件运行 nemo-evaluator-launcher run --config-dir . --config-name config # 覆盖输出目录 nemo-evaluator-launcher run --config-dir . --config-name config -o execution.output_dir=./my_results # 限制样本以进行快速测试 nemo-evaluator-launcher run --config-dir . -

数据来源：claude-code-templates（MIT），中文翻译由 AI 生成。详见关于我们。

BAGUA AI