Qwen2.5

Qwen2.5: 高性能长文本处理模型技术报告

元数据

分类:人工智能研究

标签:Qwen2.5模型,长文本处理,预训练数据

日期:2025年4月12日

核心观点总结

Qwen2.5是一系列专注于长文本处理的高性能模型,采用多阶段预训练方法和先进的数据过滤技术,旨在提升处理长文本的能力。其预训练数据经过精细过滤,确保高质量输入,并通过渐进式训练适应不同长度的上下文。模型系列包括多个参数规模的版本,从0.5B到72B不等。长序列生成和数学推理是其后训练的重点领域。

重点段落

模型系列与结构

Qwen2.5包含多个参数规模的模型,包括base和instruct版本,以及MoE模型如Qwen2.5-Turbo和Qwen2.5-Plus。其结构采用SwiGLU、RoPE、QKV bias、RMSNorm、GQA + YaRN + DCA,与前代模型一致。Tokenizer使用BBPE,词表大小为151643。

预训练数据与方法

使用18T tokens量级的数据进行预训练,数据经过Qwen2-Instruct模型过滤以确保质量。加入了专门的数学与代码数据,并对合成数据进行了严格过滤和奖励机制评估。数据混合策略通过对不同领域内容进行分类与平衡,以确保高质量信息的代表性。

长文本预训练

采用两阶段预训练方法:初始阶段使用4K token上下文长度,最终阶段扩展至32K token。Qwen2.5-Turbo经过四个阶段训练,最终达到256K token,能够处理最多1M个token。渐进式方法帮助模型适应增加的上下文长度,并应用YARN和DCA技术以扩展处理能力。

操作步骤

  1. ✅ 初始预训练使用4K token上下文长度。
  2. ⚠ 最终阶段扩展至32K token。
  3. ❗ Qwen2.5-Turbo经过四个阶段达到256K token。

常见错误

警告:在数据混合过程中,需避免过度代表的领域影响整体数据质量,确保高价值领域得到足够重视。

数据表格

模型系列 参数规模 上下文长度
Qwen2.5 0.5B-72B 4K-32K
Turbo MoE 256K

💡启发点

通过渐进式训练方法和先进的数据过滤技术,Qwen2.5实现了对长文本的高效处理能力,显著提升了模型的广泛适用性。

行动清单

来源:Qwen2.5 Technical Report, https://arxiv.org/pdf/2412.15115