GLM3

ChatGLM3 模型优化与结构对比

元数据

内容概述

ChatGLM3 是 ChatGLM 系列的最新版本,其模型结构与 ChatGLM2 完全一致,但与初代 ChatGLM 有显著不同。本文将详细探讨 ChatGLM2 和 ChatGLM3 的优化和变化。

主要优化点

词表大小调整

相对于初代 ChatGLM,ChatGLM2 和 ChatGLM3 将词表大小从 150,528 缩小至 65,024。这一改变使得模型加载速度显著提升。

位置编码改进

位置编码从每个 GLMBlock 独立配置,改为在全局共享一份。这种改进提高了模型的效率和一致性。

前馈网络激活函数更改

操作步骤

  1. ✅ 确认词表大小调整至 65,024。
  2. ⚠ 检查位置编码是否已全局共享。
  3. ❗ 确认前馈网络激活函数已更改为 SwiGLU。

常见错误

在进行模型加载时,未能正确缩小词表大小可能导致加载速度减慢。

💡启发点

数据表格

模型版本 词表大小 激活函数
ChatGLM 150,528 GeLU
ChatGLM2 65,024 SwiGLU
ChatGLM3 65,024 SwiGLU

行动清单

原始出处:GitHub