[ PROMPT_NODE_22354 ]
Emerging Techniques Model Merging 使用示例
[ SKILL_DOCUMENTATION ]
# 模型合并示例
来自 HuggingFace 和研究论文中成功模型的真实合并配置。
## 目录
- 成功合并案例
- 基于 Mixtral 的合并
- 基于 Llama 的合并
- 特定任务合并
- 生产环境示例
## 成功合并案例
### Marcoro14-7B-slerp
**成就**: Open LLM 排行榜第一名(2024 年 2 月)
**方法**: SLERP
**来源**: HuggingFace
yaml
# marcoro14-7b-slerp.yml
merge_method: slerp
slices:
- sources:
- model: AIDC-ai-business/Marcoroni-7B-v3
layer_range: [0, 32]
- model: EmbeddedLLM/Mistral-7B-Merge-14-v0.1
layer_range: [0, 32]
parameters:
t: 0.5 # 均匀混合
dtype: bfloat16
**结果**:
- 平均分: Open LLM 排行榜 74.32 分
- 所有任务表现强劲
- 平滑的能力组合
### goliath-120b (Mixtral MoE)
**方法**: Linear + SLERP
**成就**: 表现最好的 120B 模型
yaml
# goliath-120b.yml
merge_method: slerp
slices:
- sources:
- model: alpindale/c4ai-command-r-plus-GPTQ
layer_range: [0, 40]
- model: CohereForAI/c4ai-command-r-v01
layer_range: [0, 40]
parameters:
t:
- filter: self_attn
value: [0, 0.5, 0.3, 0.7, 1] # 层级特定混合
- filter: mlp
value: [1, 0.5, 0.7, 0.3, 0]
- value: 0.5 # 默认值
dtype: float16
## 基于 Mixtral 的合并
### 数学 + 代码专家
**目标**: 将数学推理与代码生成相结合
yaml
# math-code-mixtral.yml
merge_method: task_arithmetic
base_model: mistralai/Mixtral-8x7B-v0.1
models:
- model: WizardLM/WizardMath-7B-V1.1
parameters:
weight: 0.6 # 强调数学
- model: ajibawa-2023/Code-Mixtral-8x7B
parameters:
weight: 0.4 # 添加代码
dtype: bfloat16
**预期能力**:
- 强大的数学推理能力
- 代码生成与理解
- 技术问题解决
### 聊天 + 角色扮演合并
yaml
# chat-roleplay.yml
merge_method: slerp
slices:
- sources:
- model: teknium/OpenHermes-2.5-Mistral-7B
layer_range: [0, 32]
- model: Undi95/MLewd-ReMM-L2-Chat-20B-Part1
layer_range: [0, 32]
parameters:
t: 0.5
dtype: bfloat16
### 多任务 TIES 合并
yaml
# multi-task-mixtral.yml
merge_method: ties
base_model: mistralai/Mixtral-8x7B-v0.1
models:
- model: WizardLM/WizardMath-7B-V1.1
parameters:
density: 0.5
weight: 1.0
- model: teknium/OpenHermes-2.5-Mistral-7B
parameters:
density: 0.5
weight: 1.0
- mode