[ PROMPT_NODE_25888 ]

speech

[ SKILL_DOCUMENTATION ]

# 语音生成技能为当前项目生成语音音频（叙述、产品演示配音、IVR 提示、辅助功能朗读）。默认使用 `gpt-4o-mini-tts-2025-12-15` 和内置语音，并优先使用捆绑的 CLI 以实现确定性、可重复的运行。 ## 何时使用 - 从文本生成单个语音片段 - 生成一批提示（多行、多个文件） ## 决策树（单条 vs 批量） - 如果用户提供多行/多个提示或想要多个输出 -> **批量** - 否则 -> **单条** ## 工作流 1. 确定意图：单条还是批量（见上文决策树）。 2. 预先收集输入：确切文本（逐字）、所需语音、交付风格、格式和任何约束。 3. 如果是批量：在 tmp/ 下编写一个临时 JSONL（每行一个作业），运行一次，然后删除 JSONL。 4. 将指令扩充为简短的标签化规范，无需重写输入文本。 5. 使用合理的默认值运行捆绑的 CLI (`scripts/text_to_speech.py`)（参考 references/cli.md）。 6. 对于重要的片段，验证：可懂度、节奏、发音和对约束的遵守情况。 7. 通过单次针对性更改（语音、速度或指令）进行迭代，然后重新检查。 8. 保存/返回最终输出，并记录最终文本 + 指令 + 所使用的标志。 ## 临时和输出约定 - 使用 `tmp/speech/` 存放中间文件（例如 JSONL 批次）；完成后删除。 - 在此仓库工作时，将最终产物写入 `output/speech/`。 - 使用 `--out` 或 `--out-dir` 控制输出路径；保持文件名稳定且具有描述性。 ## 依赖项（如果缺失请安装）优先使用 `uv` 进行依赖管理。 Python 包： uv pip install openai 如果 `uv` 不可用： python3 -m pip install openai ## 环境 - 必须设置 `OPENAI_API_KEY` 以进行实时 API 调用。如果缺少密钥，请向用户提供以下步骤： 1. 在 OpenAI 平台 UI 中创建 API 密钥：https://platform.openai.com/api-keys 2. 将 `OPENAI_API_KEY` 设置为系统中的环境变量。 3. 如果需要，主动提出指导他们为各自的操作系统/Shell 设置环境变量。 - 切勿要求用户在聊天中粘贴完整密钥。要求他们本地设置并在准备好后确认。如果在此环境中无法安装，请告知用户缺少哪个依赖项以及如何在本地安装。 ## 默认值与规则 - 除非用户要求其他模型，否则使用 `gpt-4o-mini-tts-2025-12-15`。 - 默认语音：`cedar`。如果用户想要更明亮的音调，请优先选择...

数据来源：claude-code-templates（MIT），中文翻译由 AI 生成。详见关于我们。

BAGUA AI