[ PROMPT_NODE_22316 ]

production-examples

[ SKILL_DOCUMENTATION ]

# 生产环境示例使用 Megatron-Core 和 Megatron-LM 的真实生产部署案例。 ## Meta LLaMA 3 ### 概览 - **模型**: 8B, 70B, 405B 参数 - **训练基础设施**: 两个 24,000 H100 GPU 集群 - **总投入**: 大规模、数月训练 - **训练数据**: 405B 模型使用 15 万亿 token - **状态**: 已投入生产 (llama.meta.com) ### LLaMA 3.1 405B - 最大的开源模型 **架构**： yaml Parameters: 405 billion Layers: 126 Hidden size: 16384 Attention heads: 128 Query groups: 8 (GQA) FFN size: 53248 Vocabulary: 128,256 tokens Max context: 128K tokens (supports up to) Position encoding: RoPE Activation: SwiGLU Normalization: RMSNorm **训练配置**： bash # 1024 H100 GPUs (128 节点 × 8 GPU) Tensor Parallel (TP): 8 # 节点内 Pipeline Parallel (PP): 8 # 跨节点 Context Parallel (CP): 2 # 用于长序列 Data Parallel (DP): 8 # 剩余维度 Total GPUs: 8 × 8 × 2 × 8 = 1024 Effective batch size: 2048 Micro-batch per GPU: 1 Sequence length: 4096 tokens **性能指标**： - **持续吞吐量**: 400 TFlops/GPU - **MFU**: H100 上约 46% - **正常运行时间**: 数月内 95%+ - **效率提升**: 相比 LLaMA 2 训练提升 3 倍 **训练时长**： - 总计 15 万亿 token - 16,384 个 H100 GPU 上约 54 天 - 或 1,024 个 H100 GPU 上约 6 个月 **使用的关键优化**： bash --use-mcore-models --transformer-impl transformer_engine --sequence-parallel --context-parallel-size 2 --use-distributed-optimizer --overlap-grad-reduce --overlap-param-gather --use-flash-attn-v2 --bf16 **生产服务**： - 部署于 llama.meta.com - 通过 API 和下载提供 - 用于 Meta 产品（Instagram, Facebook, WhatsApp） ### LLaMA 3 70B **训练配置**： bash # 64 H100 GPUs (8 节点 × 8 GPU) TP=4, PP=4, CP=2, DP=2 torchrun --nproc_per_node=8 --nnodes=8 pretrain_gpt.py --num-layers 80 --hidden-size 8192 --num-attention-heads 64 --num-query-groups 8 --seq-length 4096 --micro-batch-size 1 --global-batch-size 1024 --tensor-model-parallel-size 4 --pipeline-model-parallel-size 4 --context-parallel-size 2 --bf16 --use-mcore-models **每个 GPU 的内存**： - 模型参数: 140GB / 4 (TP) / 4 (PP) = 8.75GB - 优化器状态: ~17.5GB - 激活值: ~3GB - **总计**: 每个 H100 约 30GB (可放入 80GB) ## NVIDIA Nemotron-4 340B ### 概览 - **组织**: NVIDIA - *

数据来源：claude-code-templates（MIT），中文翻译由 AI 生成。详见关于我们。

BAGUA AI