[ PROMPT_NODE_26952 ]
paper2video
[ SKILL_DOCUMENTATION ]
# Paper2Video: 演示视频生成
## 概述
Paper2Video 从 LaTeX 源文件生成演示视频,将学术论文转换为引人入胜的视频演示。系统通过多个专用模块处理论文,创建包含幻灯片、旁白和可选数字人讲解的专业演示视频。
## 核心组件
### 1. 幻灯片生成模块
- 从论文结构中提取关键内容
- 创建视觉吸引力强的演示幻灯片
- 按逻辑流程组织内容
- 包含图表、表格和公式
- 优化文本密度以提高可读性
### 2. 字幕生成模块
- 生成自然的演示脚本
- 将文本与幻灯片切换同步
- 创建演讲者备注和时间轴
- 支持多种语言
- 针对语音合成进行优化
### 3. 语音合成模块
- 将字幕转换为自然的语音
- 支持多种声音和口音
- 控制语速和强调
- 生成视频音频轨道
- 处理技术术语
### 4. 光标移动模块
- 模拟演讲者的光标移动
- 高亮幻灯片上的关键点
- 引导观众注意力
- 创建自然的演示流程
- 与旁白同步
### 5. 数字人视频生成 (可选)
- 使用 Hallo2 生成逼真的演讲者视频
- 与生成的音频进行口型同步
- 需要参考图像或视频
- GPU 密集型 (至少需要 NVIDIA A6000 48GB)
- 创建引人入胜的演讲者形象
## 使用方法
### 基础视频生成 (无数字人)
bash
python pipeline_light.py
--model_name_t gpt-4.1
--model_name_v gpt-4.1
--result_dir /path/to/output
--paper_latex_root /path/to/paper
### 完整视频生成 (含数字人)
bash
python pipeline_all.py
--input-dir "path/to/papers"
--output-dir "path/to/output"
--model-choice 1
--enable-talking-head
### 参数
**模型配置:**
- `--model_name_t`: 用于文本/字幕生成的模型 (默认: gpt-4.1)
- `--model_name_v`: 用于视觉/幻灯片生成的模型 (默认: gpt-4.1)
- `--model-choice`: 预设模型配置 (1=GPT-4, 2=GPT-4.1)
**输入/输出:**
- `--paper_latex_root`: LaTeX 论文源文件的根目录
- `--result_dir` 或 `--output-dir`: 生成视频的输出目录
- `--input-dir`: 包含多篇待处理论文的目录
**视频选项:**
- `--enable-talking-head`: 启用数字人视频生成 (需要 GPU)
- `--vide