GLM2

ChatGLM2-6B 模型解析:解码器架构与训练目标

元数据:

模型结构概述

ChatGLM2-6B 采用了完全的 Decoder-only 架构,结合了以下技术特性:

训练目标

ChatGLM2-6B 使用了 GLM 的混合目标函数,经过了 1.5 万亿中英标识符的预训练,并进行了人类偏好对齐训练。

解码器架构的选择

为什么选择 Decoder-only 架构?

多轮对话中,使用 prefix-decoder 需要构造多个数据来训练,而 decoder-only 架构通过使用 casual mask 可以直接处理整个多轮对话数据。此改动还消除了二维编码的需要。

💡 启发点:Decoder-only 架构展现了强大的自回归生成能力。

样本构建与损失计算

在处理多轮对话时,例如三轮对话 Q1A1,Q2A2,Q3A3:

常见错误

⚠ 在使用 prefix-decoder 架构时,容易造成数据冗余和训练复杂度增加。

行动清单

原始出处:GitHub