LLama 2

Llama 2 模型优化与训练策略解析

元数据

内容概要

Llama 2 是一种新型的开放基础和微调聊天模型,相较于 LLaMA1,Llama 2 在模型结构和训练数据上进行了多项优化。本文将深入探讨这些改进以及其对模型性能的影响。

模型结构改进

Llama 2 在以下几个方面对模型结构进行了优化:

训练数据策略

Llama-2 采用了来自公开可用源的 2T 数据 token 进行预训练。尽管公开数据丰富,Meta 强调数据质量的重要性,选择使用自有标注数据以确保高质量训练。不同的数据源和标注供应商显著影响下游微调结果,强调了数据检查的重要性。
Pasted image 20250424223130.png

拒绝采样方法

拒绝采样(Reject Sampling, RS)是一种从目标概率分布中获取样本的蒙特卡洛方法。在 LLM 中,模型对同一提示生成多个响应,并利用奖励模型对这些答案进行评分,选出得分最高的答案。这一过程提升了生成质量,并为模型进一步训练提供了优质样本。

后训练总结

操作步骤

  1. ✅ 确定模型结构调整,如 GQA 增强和 FFN 扩充。
  2. ⚠ 收集并筛选高质量的训练数据。
  3. ❗ 实施拒绝采样以优化生成质量。
    Pasted image 20250424223151.png
    Pasted image 20250424223139.png

常见错误

小心选择数据源,不同数据源可能导致微调结果不一致。

💡 启发点

行动清单

原始出处:[Llama 2: Open Foundation and Fine-Tuned Chat Models]