[ PROMPT_NODE_26772 ]
Markitdown Quick Reference
[ SKILL_DOCUMENTATION ]
# MarkItDown 快速参考
## 安装
bash
# 所有功能
pip install 'markitdown[all]'
# 特定格式
pip install 'markitdown[pdf,docx,pptx,xlsx]'
## 基础用法
python
from markitdown import MarkItDown
md = MarkItDown()
result = md.convert("file.pdf")
print(result.text_content)
## 命令行
bash
# 简单转换
markitdown input.pdf > output.md
markitdown input.pdf -o output.md
# 使用插件
markitdown --use-plugins file.pdf -o output.md
## 常见任务
### 转换 PDF
python
md = MarkItDown()
result = md.convert("paper.pdf")
### 使用 AI 转换
python
from openai import OpenAI
# 使用 OpenRouter 访问多种模型
client = OpenAI(
api_key="your-openrouter-api-key",
base_url="https://openrouter.ai/api/v1"
)
md = MarkItDown(
llm_client=client,
llm_model="anthropic/claude-sonnet-4.5" # 推荐用于视觉任务
)
result = md.convert("slides.pptx")
### 批量转换
bash
python scripts/batch_convert.py input/ output/ --extensions .pdf .docx
### 文献转换
bash
python scripts/convert_literature.py papers/ markdown/ --create-index
## 支持的格式
| 格式 | 扩展名 | 备注 |
|--------|-----------|-------|
| PDF | `.pdf` | 全文 + OCR |
| Word | `.docx` | 表格、格式 |
| PowerPoint | `.pptx` | 幻灯片 + 备注 |
| Excel | `.xlsx`, `.xls` | 表格 |
| 图像 | `.jpg`, `.png`, `.gif`, `.webp` | EXIF + OCR |
| 音频 | `.wav`, `.mp3` | 转录 |
| HTML | `.html`, `.htm` | 清理转换 |
| 数据 | `.csv`, `.json`, `.xml` | 结构化 |
| 压缩包 | `.zip` | 遍历内容 |
| 电子书 | `.epub` | 全文 |
| YouTube | URLs | 字幕转录 |
## 可选依赖项
bash
[all] # 所有功能
[pdf] # PDF 支持
[docx] # Word 文档
[pptx] # PowerPoint
[xlsx] # Excel
[xls] # 旧版 Excel
[outlook] # Outlook 邮件
[az-doc-intel] # Azure 文档智能
[audio-transcription] # 音频文件
[youtube-transcription] # YouTube 视频
## AI 增强转换
### 科学论文
python
from openai import OpenAI
# 初始化 OpenRouter 客户端
client = OpenAI(
api_key="your-openrouter-api-key",
base_url="https://openrouter.ai/api/v1"
)
md = MarkItDown(
llm_client=client,
llm_model="anthropic/claude-sonnet-4.5", # 推荐用于科学视觉分析
llm_prompt="Describe sci