[ SKILL_DOCUMENTATION ]
# 语音生成技能
为当前项目生成语音音频(叙述、产品演示配音、IVR 提示、辅助功能朗读)。默认使用 `gpt-4o-mini-tts-2025-12-15` 和内置语音,并优先使用捆绑的 CLI 以实现确定性、可重复的运行。
## 何时使用
- 从文本生成单个语音片段
- 生成一批提示(多行、多个文件)
## 决策树(单条 vs 批量)
- 如果用户提供多行/多个提示或想要多个输出 -> **批量**
- 否则 -> **单条**
## 工作流
1. 确定意图:单条还是批量(见上文决策树)。
2. 预先收集输入:确切文本(逐字)、所需语音、交付风格、格式和任何约束。
3. 如果是批量:在 tmp/ 下编写一个临时 JSONL(每行一个作业),运行一次,然后删除 JSONL。
4. 将指令扩充为简短的标签化规范,无需重写输入文本。
5. 使用合理的默认值运行捆绑的 CLI (`scripts/text_to_speech.py`)(参考 references/cli.md)。
6. 对于重要的片段,验证:可懂度、节奏、发音和对约束的遵守情况。
7. 通过单次针对性更改(语音、速度或指令)进行迭代,然后重新检查。
8. 保存/返回最终输出,并记录最终文本 + 指令 + 所使用的标志。
## 临时和输出约定
- 使用 `tmp/speech/` 存放中间文件(例如 JSONL 批次);完成后删除。
- 在此仓库工作时,将最终产物写入 `output/speech/`。
- 使用 `--out` 或 `--out-dir` 控制输出路径;保持文件名稳定且具有描述性。
## 依赖项(如果缺失请安装)
优先使用 `uv` 进行依赖管理。
Python 包:
uv pip install openai
如果 `uv` 不可用:
python3 -m pip install openai
## 环境
- 必须设置 `OPENAI_API_KEY` 以进行实时 API 调用。
如果缺少密钥,请向用户提供以下步骤:
1. 在 OpenAI 平台 UI 中创建 API 密钥:https://platform.openai.com/api-keys
2. 将 `OPENAI_API_KEY` 设置为系统中的环境变量。
3. 如果需要,主动提出指导他们为各自的操作系统/Shell 设置环境变量。
- 切勿要求用户在聊天中粘贴完整密钥。要求他们本地设置并在准备好后确认。
如果在此环境中无法安装,请告知用户缺少哪个依赖项以及如何在本地安装。
## 默认值与规则
- 除非用户要求其他模型,否则使用 `gpt-4o-mini-tts-2025-12-15`。
- 默认语音:`cedar`。如果用户想要更明亮的音调,请优先选择...