Qwen2.5
Qwen2.5: 高性能长文本处理模型技术报告
元数据
分类:人工智能研究
标签:Qwen2.5模型,长文本处理,预训练数据
日期:2025年4月12日
核心观点总结
Qwen2.5是一系列专注于长文本处理的高性能模型,采用多阶段预训练方法和先进的数据过滤技术,旨在提升处理长文本的能力。其预训练数据经过精细过滤,确保高质量输入,并通过渐进式训练适应不同长度的上下文。模型系列包括多个参数规模的版本,从0.5B到72B不等。长序列生成和数学推理是其后训练的重点领域。
重点段落
模型系列与结构
Qwen2.5包含多个参数规模的模型,包括base和instruct版本,以及MoE模型如Qwen2.5-Turbo和Qwen2.5-Plus。其结构采用SwiGLU、RoPE、QKV bias、RMSNorm、GQA + YaRN + DCA,与前代模型一致。Tokenizer使用BBPE,词表大小为151643。
预训练数据与方法
使用18T tokens量级的数据进行预训练,数据经过Qwen2-Instruct模型过滤以确保质量。加入了专门的数学与代码数据,并对合成数据进行了严格过滤和奖励机制评估。数据混合策略通过对不同领域内容进行分类与平衡,以确保高质量信息的代表性。
长文本预训练
采用两阶段预训练方法:初始阶段使用4K token上下文长度,最终阶段扩展至32K token。Qwen2.5-Turbo经过四个阶段训练,最终达到256K token,能够处理最多1M个token。渐进式方法帮助模型适应增加的上下文长度,并应用YARN和DCA技术以扩展处理能力。
操作步骤
- ✅ 初始预训练使用4K token上下文长度。
- ⚠ 最终阶段扩展至32K token。
- ❗ Qwen2.5-Turbo经过四个阶段达到256K token。
常见错误
警告:在数据混合过程中,需避免过度代表的领域影响整体数据质量,确保高价值领域得到足够重视。
数据表格
模型系列 | 参数规模 | 上下文长度 |
---|---|---|
Qwen2.5 | 0.5B-72B | 4K-32K |
Turbo | MoE | 256K |
💡启发点
通过渐进式训练方法和先进的数据过滤技术,Qwen2.5实现了对长文本的高效处理能力,显著提升了模型的广泛适用性。
行动清单
- 进一步研究Qwen2.5在不同领域的应用效果。
- 探索更多数据过滤和奖励机制以提升样本质量。
- 扩展长文本处理能力至更多实际场景。
来源:Qwen2.5 Technical Report, https://arxiv.org/pdf/2412.15115