一、背景自从transformer出来之后,后面的算法基本上都是基于这个为基础,比如bert是以Encode层,GPT系列的GPT、GPT2、GPT3都是Decode层,下面我们主要讲解一下GPT-2。1、论文论文名字:《Language Models are Unsupervised Multitask Learners》论文地址:Language Models are Unsupervised Multitask Learners2、论文发表时间时间:2019年2月团队:openAI、特斯拉老板马斯克的公司3、源码源码:https://github.com/openai- 阅读剩余部分 -

一、EDA方法1.同义词替换(Synonym Replacement, SR):从句子中随机选取n个不属于停用词集的单词,并随机选择其同义词替换它们;2.随机插入(Random Insertion, RI):随机的找出句中某个不属于停用词集的词,并求出其随机的同义词,将该同义词插入句子的一个随机位置。重复n次;3.随机交换(Random Swap, RS):随机的选择句中两个单词并交换它们的位置。重复n次;4.随机删除(Random Deletion, RD):以 $p$ 的概率,随机的移除句中的每个单词。第一种方式主要是利用同义替换的思想。 文中介绍了几个相关的方法,主要- 阅读剩余部分 -

一、bert1.为什么用layer normal 不用btach nomal这是一个仁者见仁智者见智的问题,这个问题没有标准的答案,2020年3月份的一片论文专门讨论了这问题《Rethinking Batch Normalization in Transformers》。1.主要问题是在前向传播和反向传播中,batch统计量和其贡献的梯度都会呈现一定的不稳定性,在使用BN的Transformer训练过程中,每个batch的均值与方差一直震荡。2.layer normalization 有助于得到一个球体空间中符合0均值1方差高斯分布的 embedding, batch no- 阅读剩余部分 -

一、背景自从Bert打开两阶段模式的魔法盒开关后,在这条路上,会有越来越多的同行者,Bert系列的算法层出不穷,比较注明的有RoBerta,ALBert。Bert系列的算法都属于AutoEncode LM。与之相对应的还要AutoRegressive LM。1.自回归语言模型(Autoregressive LM)定义在ELMO/BERT出来之前,大家通常讲的语言模型其实是根据上文内容预测下一个可能跟随的单词,就是常说的自左向右的语言模型任务,或者反过来也行,就是根据下文预测前面的单词,这种类型的LM被称为自回归语言模型。GPT 就是典型的自回归语言模型。ELMO尽管看上去利- 阅读剩余部分 -

分类方式一.交换排序:1.冒泡排序,2.快速排序二.插入排序:3.直接插入排序,4.希尔排序三.选择排序:5.简单选择排序,6.堆排序四.7.归并排序五.8.基数排序python实现一、冒泡排序思路:两层循环:第一层代表最右边最大数的位置。第二层用来对比交换找出剩下的最大数def sort(arr): l = len(arr) # 遍历所有数组元素 for i in range(l): for j in range(0, l-i-1): if arr[j] > arr[j+1] : - 阅读剩余部分 -

分类方法一、二分查找二、一、二分查找1.思路要求必须是有序列表2.两种写法1.递归查找2.非递归查找1.递归查找# -*- coding: UTF-8 -*- def binary_search1(arr, left, right, num): if left > right: #递归结束条件 return -1 mid = (left + right) // 2 if num < arr[mid]: right = mid -1 elif num > arr[mid]: - 阅读剩余部分 -

一、平分损失二、对数损失三、交叉熵损失$L_\theta(x) =- \frac{1}{m}\sum_{i=1}^{m}(y_{i}log \hat{y_{i}}+(1-y_{i})log(1- \hat{y_{i}}))$四、指数损失问题:在0,1分类问题中为什么不用平方损失从梯度优化方向来回答:

一、背景boosting算法是一类算法的总称,是Ensemble Learning (集成学习的一类)。Ensemble Learing算法一般包括两类算法1.bagging算法 2.boosting算法。二、boosting算法1.定义提升方法实际采用加法模型(即基函数的线性组合)与前向分步算法。注意他的基函数不确定可以是任何函数。 Boosting是一种框架算法,拥有系列算法。我们一般不直接适用boosting算法,适用更多的是boostring tree。2.分类boostring算法按照算法的实现可以分为两类:- 1.weight boosting (权重boo- 阅读剩余部分 -

一、期望也可以称为均值假设每次的预测值为$f(x1),f(x2),f(x3)...,f(x_n)$每个预测值的概率分别为$P(x1),P(x2),P(x3)....$则期望为:$\hat{f(x)}=p(x1)*f(x1) + p(x2)*f(x2) + p(x3)*f(x3) $二、方差(与真实值无关)度量了同样大小的训练集的变动所导致的学习性能的变化,即刻画了数据扰动造成的影响。描述的是预测值的变化范围,离散程度,也就是离其期望值的距离。方差越大,数据的分布越分散,如下图右列所示。---摘自《机器学习》,周志华$var(x) = \frac{1}{n} \sum_{t=- 阅读剩余部分 -

概率论是统计学的基石。一、概率论概率论是知因求果,已经完全获知了事物的本质即分布规律后,运用于具体的事例。概率论是由概率分布推断样本性质,如大数定律、中心极限定理。二、统计学而数理统计是执果索因,我们手上只有一些事例的表观信息,要寻求它们背后共同遵从的规律。统计是由样本信息反推概率分布,如概率分布参数的点估计、区间估计,以及线性回归。三、联系在现实中二者结合很紧密。通过样本训练出概率分布,相当于老师不断教学生知识(样本),让学生大脑形成当前对象的模型;在学生学会了之后,就相当于这个模型(概率分布)成型了,就可以自己去推导、产生知识(样本)。

u4e00-u9fa5 汉字的unicode范围u0030-u0039 数字的unicode范围u0041-u005a 大写字母unicode范围u0061-u007a 小写字母unicode范围uAC00-uD7AF 韩文的unicode范围u3040-u31FF 日文的unicode范围代码 显示 描述U+0020 空格U+0021 ! 叹号U+0022 " 双引号U+0023 # 井号U+0024 $ 价钱/货币符号U+0025 % 百分比符号U+0026 & 英文“and”的简写符号U+0027 ' 引号U+0028 ( 开 左圆- 阅读剩余部分 -

0、题目列表题目1、链表反转题目2、链表是否有环题目3、链表是否有环,并返回环的节点题目4、合并两个有序链表题目5、两个链表的第一个公共结点题目6、链表中环的入口结点题目7、链表中倒数最后k个结点题目8、复杂链表的复制题目9、删除链表的节点题目10、删除链表中重复的结点题目11、从尾到头打印链表一、定义1.定义链表中每个节点有两部分组成,一是节点的value值,二是下一个节点在内存的地址。2.指针python中没有指针概念,类似指针的功能都是通过引用来实现的,代码中通过引用来建立结点之间的关系。3.注意点要注意的几个地方:1.链表默认指向的是头节点,我们用while pHe- 阅读剩余部分 -