Deepseek-math

深度数学预训练与强化学习探索

分类:自动推断

标签:数学预训练、强化学习、数据处理、DeepSeek

日期:2025年4月12日

核心观点总结

本文探讨了Deepseek-math项目的主要贡献,包括可扩展的数学预训练和对强化学习的探索与分析。重点介绍了数据处理过程,涉及训练数据的收集与清洗、预训练模型的参数设置、以及指令微调和强化学习过程。
Pasted image 20250426221755.png

重点段落与数据

训练数据与来源

数据集收集和清洗过程

指令微调与强化学习

数据表格

数据来源 占比
DeepSeekMath Corpus 56%
AlgebraicStack 4%
arXiv 10%
Github代码 20%
Common Crawl 10%

操作步骤

  1. 收集数据:从Common Crawl提取120B数学标记。
  2. 训练fastText模型:注意与word2vec CBOW的区别。
  3. 去污染:确保基准测试题目或答案不被包含在训练数据中。

常见错误

注意在数据去重和召回过程中,可能会遗漏重要的数据片段,需特别小心。

💡启发点

行动清单

原始出处:[Deepseek-math项目文档]