GLM1

GLM1模型:通用语言模型预训练与自回归填空

元数据

内容概述

GLM1是一种基于Transformer的语言模型,通过自回归填空任务实现高效的语言模型预训练。它采用prefix-decoder结构,并使用二维位置编码技术来增强模型的性能。
Pasted image 20250425104630.png

模型结构与创新点

GLM1使用了prefix-decoder结构,这实际上是Transformer的decoder部分,通过特殊的mask实现了文本的双向和单向attention。以下是GLM1模型的一些关键改动:

💡启发点:GLM1通过自回归填空任务预训练语言模型,为条件生成和无条件生成任务提供了新的可能性。
Pasted image 20250425104726.png做分类任务示例

自回归填空任务

自回归填空任务结合了自编码和自回归思想:

二维位置编码技术

GLM1采用二维位置编码技术:

多任务预训练策略

GLM1采用多任务预训练策略,以优化生成更长文本与空白填充目标:

操作步骤

  1. ✅ 使用prefix-decoder结构进行文本处理。
  2. ⚠ 确保二维位置编码技术正确应用。
  3. ❗ 在多任务预训练中平衡文档级和句子级目标。

常见错误

警告:在应用自回归填空任务时,注意不要过度依赖损坏文本,否则可能导致模型性能下降。

行动清单

原始出处:[论文:GLM:General Language Model Pretraining with Autoregressive Blank Infilling]