一、背景自从transformer出来之后,后面的算法基本上都是基于这个为基础,比如bert是以Encode层,GPT系列的GPT、GPT2、GPT3都是Decode层,下面我们主要讲解一下GPT。1、论文论文名字:《Improving Language Understanding by Generative Pre-Training》论文地址:Improving Language Understanding by Generative Pre-Training2、论文发表时间时间:2018年6月团队:openAI、特斯拉老板马斯克的公司二、架构1、架构图:注意:GPT 使- 阅读剩余部分 -