[ PROMPT_NODE_22354 ]

Emerging Techniques Model Merging 使用示例

[ SKILL_DOCUMENTATION ]

# 模型合并示例来自 HuggingFace 和研究论文中成功模型的真实合并配置。 ## 目录 - 成功合并案例 - 基于 Mixtral 的合并 - 基于 Llama 的合并 - 特定任务合并 - 生产环境示例 ## 成功合并案例 ### Marcoro14-7B-slerp **成就**: Open LLM 排行榜第一名（2024 年 2 月） **方法**: SLERP **来源**: HuggingFace yaml # marcoro14-7b-slerp.yml merge_method: slerp slices: - sources: - model: AIDC-ai-business/Marcoroni-7B-v3 layer_range: [0, 32] - model: EmbeddedLLM/Mistral-7B-Merge-14-v0.1 layer_range: [0, 32] parameters: t: 0.5 # 均匀混合 dtype: bfloat16 **结果**: - 平均分: Open LLM 排行榜 74.32 分 - 所有任务表现强劲 - 平滑的能力组合 ### goliath-120b (Mixtral MoE) **方法**: Linear + SLERP **成就**: 表现最好的 120B 模型 yaml # goliath-120b.yml merge_method: slerp slices: - sources: - model: alpindale/c4ai-command-r-plus-GPTQ layer_range: [0, 40] - model: CohereForAI/c4ai-command-r-v01 layer_range: [0, 40] parameters: t: - filter: self_attn value: [0, 0.5, 0.3, 0.7, 1] # 层级特定混合 - filter: mlp value: [1, 0.5, 0.7, 0.3, 0] - value: 0.5 # 默认值 dtype: float16 ## 基于 Mixtral 的合并 ### 数学 + 代码专家 **目标**: 将数学推理与代码生成相结合 yaml # math-code-mixtral.yml merge_method: task_arithmetic base_model: mistralai/Mixtral-8x7B-v0.1 models: - model: WizardLM/WizardMath-7B-V1.1 parameters: weight: 0.6 # 强调数学 - model: ajibawa-2023/Code-Mixtral-8x7B parameters: weight: 0.4 # 添加代码 dtype: bfloat16 **预期能力**: - 强大的数学推理能力 - 代码生成与理解 - 技术问题解决 ### 聊天 + 角色扮演合并 yaml # chat-roleplay.yml merge_method: slerp slices: - sources: - model: teknium/OpenHermes-2.5-Mistral-7B layer_range: [0, 32] - model: Undi95/MLewd-ReMM-L2-Chat-20B-Part1 layer_range: [0, 32] parameters: t: 0.5 dtype: bfloat16 ### 多任务 TIES 合并 yaml # multi-task-mixtral.yml merge_method: ties base_model: mistralai/Mixtral-8x7B-v0.1 models: - model: WizardLM/WizardMath-7B-V1.1 parameters: density: 0.5 weight: 1.0 - model: teknium/OpenHermes-2.5-Mistral-7B parameters: density: 0.5 weight: 1.0 - mode

数据来源：claude-code-templates（MIT），中文翻译由 AI 生成。详见关于我们。

BAGUA AI