GPT-2

GPT-2的核心思想与应用：大规模语言模型的无监督学习

元数据

分类：自然语言处理
标签：GPT-2, 语言模型, 无监督学习, 多任务学习, Zero-shot
日期：2025年4月12日

内容概述

GPT-2模型是一个大规模的无监督语言模型，它通过预训练和zero-shot设定实现了多任务学习。其核心思想是认为任何有监督任务都是语言模型的一部分，当模型的容量和数据量足够大时，仅靠语言模型的学习便可以完成其他有监督学习的任务。

重点内容

模型结构与训练范式

GPT-2与GPT-1基本一致，但在结构上做了一些改动，如将post-norm改为pre-norm，输入序列长度从512增加到1024，并且包含48层。
训练范式采用预训练加zero-shot的方式，主要思想是多任务学习。

数据与实验

数据集来自Reddit，包含800万个文档，总计40GB。
GPT-2验证了通过大量数据和参数训练出来的词向量模型可以迁移到其他任务中，而不需要额外的训练。

Zero-shot学习

在zero-shot设定下，下游任务不需要用标签数据进行微调。
通过prompt（提示）的方式实现zero-shot，例如机器翻译时构造输入为“请将下面的一段英语翻译成法语，英语，法语”。

操作步骤

✅ 确定模型结构：选择pre-norm结构，输入序列长度为1024。
⚠ 收集数据：从多样化的数据集中获取自然语言描述示例。
❗ 训练模型：使用大量数据和参数进行预训练。

常见错误

⚠ 在使用zero-shot时，避免在输入中加入特殊字符，这些字符在预训练时未见过。

💡 启发点

GPT-2展示了大规模语言模型在多任务学习中的潜力，通过大量数据和参数，模型可以在没有额外训练的情况下处理多种任务。

行动清单

探索更多关于GPT-2在不同任务中的应用场景。
实验不同的数据集对GPT-2性能的影响。
研究如何进一步优化prompt设计以提高zero-shot效果。

数据转换

模型版本	数据量	最大参数数量
GPT-1	5G	1亿
GPT-2	40G	15亿

原始出处：Language Models are Unsupervised Multitask Learners