[ PROMPT_NODE_22382 ]
issues
[ SKILL_DOCUMENTATION ]
# 常见问题与故障排查
BigCode Evaluation Harness 常见问题的解决方案。
## 安装问题
### 问题:PyTorch 版本冲突
**症状**: 安装后出现导入错误或 CUDA 不兼容。
**解决方案**: 在安装 Harness 之前单独安装 PyTorch:
bash
# 检查 CUDA 版本
nvidia-smi
# 安装匹配的 PyTorch (以 CUDA 11.8 为例)
pip install torch --index-url https://download.pytorch.org/whl/cu118
# 然后安装 Harness
pip install -e .
### 问题:DS-1000 特定要求
**症状**: 运行 DS-1000 基准测试时出错。
**解决方案**: DS-1000 特别需要 Python 3.7.10:
bash
# 创建 conda 环境
conda create -n ds1000 python=3.7.10
conda activate ds1000
# 安装特定依赖
pip install -e ".[ds1000]"
pip install torch==1.12.1+cu116 --extra-index-url https://download.pytorch.org/whl/cu116
# 设置环境变量
export TF_CPP_MIN_LOG_LEVEL=3
export TF_FORCE_GPU_ALLOW_GROWTH=true
### 问题:HuggingFace 身份验证
**症状**: 访问受限模型/数据集时出现 `401 Unauthorized`。
**解决方案**:
bash
# 登录 HuggingFace
huggingface-cli login
# 在命令中使用身份验证令牌
accelerate launch main.py
--model meta-llama/CodeLlama-7b-hf
--use_auth_token
...
## 内存问题
### 问题:CUDA 显存溢出 (Out of Memory)
**症状**: `torch.cuda.OutOfMemoryError: CUDA out of memory`
**解决方案**:
1. **使用量化**:
bash
# 8-bit 量化 (节省约 50% 内存)
accelerate launch main.py
--model bigcode/starcoder2-15b
--load_in_8bit
...
# 4-bit 量化 (节省约 75% 内存)
accelerate launch main.py
--model bigcode/starcoder2-15b
--load_in_4bit
...
2. **减小批处理大小 (batch size)**:
bash
--batch_size 1
3. **设置内存限制**:
bash
--max_memory_per_gpu "20GiB"
# 或者
--max_memory_per_gpu auto
4. **使用半精度**:
bash
--precision fp16
# 或者
--precision bf16
### 问题:评估期间内存 (RAM) 不足
**症状**: 进程被杀死,系统无响应。
**解决方案**: 减少内存中保留的样本数量:
bash
# 保存中间结果
--save_every_k_tasks 10
# 分批评估
--limit 50 --limit_start 0
# 然后
--limit 50 --limit_start 50
## 执行问题
### 问题:不允许执行代码
**症状**: 关于代码执行被禁用的错误。
**解决方案**: 添加执行标志:
bash
accelerate launc