[ PROMPT_NODE_26952 ]

paper2video

[ SKILL_DOCUMENTATION ]

# Paper2Video: 演示视频生成 ## 概述 Paper2Video 从 LaTeX 源文件生成演示视频，将学术论文转换为引人入胜的视频演示。系统通过多个专用模块处理论文，创建包含幻灯片、旁白和可选数字人讲解的专业演示视频。 ## 核心组件 ### 1. 幻灯片生成模块 - 从论文结构中提取关键内容 - 创建视觉吸引力强的演示幻灯片 - 按逻辑流程组织内容 - 包含图表、表格和公式 - 优化文本密度以提高可读性 ### 2. 字幕生成模块 - 生成自然的演示脚本 - 将文本与幻灯片切换同步 - 创建演讲者备注和时间轴 - 支持多种语言 - 针对语音合成进行优化 ### 3. 语音合成模块 - 将字幕转换为自然的语音 - 支持多种声音和口音 - 控制语速和强调 - 生成视频音频轨道 - 处理技术术语 ### 4. 光标移动模块 - 模拟演讲者的光标移动 - 高亮幻灯片上的关键点 - 引导观众注意力 - 创建自然的演示流程 - 与旁白同步 ### 5. 数字人视频生成 (可选) - 使用 Hallo2 生成逼真的演讲者视频 - 与生成的音频进行口型同步 - 需要参考图像或视频 - GPU 密集型 (至少需要 NVIDIA A6000 48GB) - 创建引人入胜的演讲者形象 ## 使用方法 ### 基础视频生成 (无数字人) bash python pipeline_light.py --model_name_t gpt-4.1 --model_name_v gpt-4.1 --result_dir /path/to/output --paper_latex_root /path/to/paper ### 完整视频生成 (含数字人) bash python pipeline_all.py --input-dir "path/to/papers" --output-dir "path/to/output" --model-choice 1 --enable-talking-head ### 参数 **模型配置：** - `--model_name_t`: 用于文本/字幕生成的模型 (默认: gpt-4.1) - `--model_name_v`: 用于视觉/幻灯片生成的模型 (默认: gpt-4.1) - `--model-choice`: 预设模型配置 (1=GPT-4, 2=GPT-4.1) **输入/输出：** - `--paper_latex_root`: LaTeX 论文源文件的根目录 - `--result_dir` 或 `--output-dir`: 生成视频的输出目录 - `--input-dir`: 包含多篇待处理论文的目录 **视频选项：** - `--enable-talking-head`: 启用数字人视频生成 (需要 GPU) - `--vide

数据来源：claude-code-templates（MIT），中文翻译由 AI 生成。详见关于我们。

BAGUA AI