一、背景

阐述了时下主流的预训练框架及其区别。主要有三种：
1、autoregressive自回归模型（AR模型）：代表作GPT。本质上是一个left-to-right的语言模型。通常用于生成式任务，在长文本生成方面取得了巨大的成功，比如自然语言生成（NLG）领域的任务：摘要、翻译或抽象问答。当扩展到十亿级别参数时，表现出了少样本学习能力。缺点是单向注意力机制，在NLU任务中，无法完全捕捉上下文的依赖关系。

2、autoencoding自编码模型（AE模型）：代表作BERT。是通过某个降噪目标（比如MLM）训练的双向文本编码器。编码器会产出适用于NLU任务的上下文表示，但无法直接用于文本生成。

3、encoder-decoder（Seq2seq模型）：代表作T5。采用双向注意力机制，通常用于条件生成任务，比如文本摘要、机器翻译等。

三种预训练框架各有利弊，没有一种框架在以下三种领域的表现最佳：自然语言理解（NLU）、无条件生成以及条件生成。T5曾经尝试使用MTL的方式统一上述框架，然而自编码和自回归目标天然存在差异，简单的融合自然无法继承各个框架的优点。

二、GLM预训练框架
GLM有什么特点？又是如何将其他框架的优势巧妙融合的呢？

1、自编码思想：在输入文本中，随机删除连续的tokens。

2、自回归思想：顺序重建连续tokens。在使用自回归方式预测缺失tokens时，模型既可以访问corrupted文本，又可以访问之前已经被预测的spans。

3、span shuffling + 二维位置编码技术。

4、通过改变缺失spans的数量和长度，自回归空格填充目标可以为条件生成以及无条件生成任务预训练语言模型。

2.1 预训练任务1: 自回归空格填充任务(Autoregressive Blank Infilling)

1、输入x可以被分成两部分：

Mask的token方面：
一个句子随机抽连续的几个token出来，用一个Span盖住，再把Span随机打乱（为了充分捕捉不同Span之间的相互依赖关系，我们随机排列跨度的顺序，类似于排列语言模型）

A是原始序列，B是被Span的序列
被mask的部分：
1.单向注意力（只能前面预测后面）

2.不参与预测没有被Mask的部分

没有被Mask的部分：
1.双向注意力（前后双向预测）
有两点很关键：前面的Span会参与后面的Span的预测中，考虑了Span和Span之间的关系

2、二维位置编码：

Transformer使用位置编码来标记tokens中的绝对和相对位置。在GLM中，使用二维位置编码，第一个位置id用来标记Part A中的位置，第二个位置id用来表示跨度内部的相对位置。这两个位置id会通过embedding表被投影为两个向量，最终都会被加入到输入token的embedding表达中。

3、观察GLM中自定义attention mask的设计，非常巧妙：

（1）Part A中的tokens彼此可见，但是不可见B中的任意tokens。

（2）Part B tokens可见Part A。

（3）Part B tokens可见B中过去的tokens，不可见B中未来的tokens。

4、采样方式：文本片段的采样遵循泊松分布，重复采样，直到原始tokens中有15%被mask。

5、总结：模型可以自动学习双向encoder（Part A）以及单向decoder（Part B）。

2.2 多目标预训练

上述方法适合于NLU任务。作者希望可以训练一个既可以解决NLU任务，又具备文本生成能力的模型。因此除了空格填充目标之外，还需要增加一个生成长文本目标的任务。具体包含以下两个目标：

1、文档级别。从文档中采样一个文本片段进行mask，且片段长度为文档长度的50%～100%。这个目标用于长文本生成。

2、句子级别。限制被mask的片段必须是完整句子。多个片段需覆盖原始tokens的15%。这个目标是用于预测完整句子或者段落的seq2seq任务。

2.3 模型结构

GLM在原始single Transformer的基础上进行了一些修改：

1）重组了LN和残差连接的顺序；

2）使用单个线性层对输出token进行预测；

3）激活函数从ReLU换成了GeLUS。

但我觉得这部分的修改比较简单常见。核心和亮点还是空格填充任务的设计。

2.4 GLM微调

对于下游NLU任务来说，通常会将预训练模型产出的序列或tokens表达作为输入，使用线性分类器预测label。所以预训练与微调之间存在天然不一致。

作者按照PET的方式，将下游NLU任务重新表述为空白填充的生成任务。具体来说，比如给定一个已标注样本(x, y)，将输入的文本x转换成一个包含mask token的完形填空问题。比如，情感分类任务可以表述为："{SENTENCE}. It’s really [MASK]"。输出label y也同样会被映射到完形填空的答案中。“positive” 和 “negative” 对应的标签就是“good” 和 “bad。

其实，预训练时，对较长的文本片段进行mask，以确保GLM的文本生成能力。但是在微调的时候，相当于将NLU任务也转换成了生成任务，这样其实是为了适应预训练的目标。但难免有一些牵强。

参考：
https://blog.csdn.net/RandyHan/article/details/132722289
https://blog.csdn.net/weixin_42878111/article/details/134017313
https://zhuanlan.zhihu.com/p/630134021

分类 ChatGLM 下的文章

chatglm算法原理