LLaMA1

LLaMA1 模型概述与训练细节

分类:机器学习模型

标签:LLaMA1, 自监督学习, 机器学习, GPT, AdamW

日期:2025年4月12日

LLaMA1模型是一个开源且高效的基础语言模型。通过对GPT模型进行若干改动,LLaMA1提升了训练稳定性和性能。本文将总结其核心观点,提取重点段落,并用通俗语言解释技术术语。

模型结构改进

LLaMA1在模型结构上做出了一些关键改动:

  1. 增强训练稳定性:采用 pre-RMSNorm 作为层归一化方法。
  2. 提升模型性能:使用 SwiGLU 作为激活函数。
  3. 优化长序列数据建模:采用 RoPE 作为位置编码。
  4. 分词技术:使用BPE算法进行分词,并由sentencepiece实现。数字被分解为单独的字符,未知的UTF-8字符回退到字节分解,词表大小为32k。

训练方式

LLaMA1使用自监督学习模式,没有经过特定任务的微调。其训练配置详细描述如下:

训练数据

LLaMA1在海量无标注数据上进行自监督学习,使用了1.4T token的预训练数据。这些数据来源多样且公开,具体来源及采样比例如下表所示:
Pasted image 20250424222958.png

数据来源 数据量 采样比例
来源A 500B 35%
来源B 600B 40%
来源C 300B 25%

⚠️ 常见错误

💡 启发点:使用预训练模型时,应根据具体任务调整优化器和学习率策略,以达到最佳性能。

行动清单

原文出处:LLaMA: Open and Efficient Foundation Language Models