一、bert

1.为什么用layer normal 不用btach nomal

这是一个仁者见仁智者见智的问题,这个问题没有标准的答案,2020年3月份的一片论文专门讨论了这问题《Rethinking Batch Normalization in Transformers》。
1.主要问题是在前向传播和反向传播中,batch统计量和其贡献的梯度都会呈现一定的不稳定性,在使用BN的Transformer训练过程中,每个batch的均值与方差一直震荡。

2.layer normalization 有助于得到一个球体空间中符合0均值1方差高斯分布的 embedding, batch normalization不具备这个功能。
3.NLP中不同batch样本的信息关联性不大,而且由于不同的句子长度不同,强行归一化会损失不同样本间的差异信息,所以就没在batch维度进行归一化,而是选择LN

2、HMM和CRF的区别,实体识别中为什么用CRF不用HMM

1.HMM求解过程可能是局部最优,CRF可以全局最优
2.HMM是生成模型,CRF是判别模型
3.HMM是概率有向图,CRF是概率无向图
HMM用在了 分词,CRF用在了 词性标注。

3.NER的时候为什么要接入CRF,如何接入,原理是什么

CRF是主流但是不是必需
1.之所以在序列标注模型中引入CRF,是为了建模标注序列内部的依赖或约束,也就是套用一个可学习的CRF层来获得整个序列上最大似然的结果(与之相对的是为每个单词独立作决策)

3.lstm如何缓解梯度消失梯度爆炸

这个问题就在理论上,lstm如果你还记得公式,你就会发现,它所谓的门机制,也就是个sigmod,tanh函数处理了一下,由原来的累乘,变成了累加和累乘来解决梯度消失的问题。

4.xgboost相比gbdt的优点

1.第一,GBDT将目标函数泰勒展开到一阶,而xgboost将目标函数泰勒展开到了二阶。
2.第二,GBDT是给新的基模型寻找新的拟合标签(前面加法模型的负梯度),而xgboost是给新的基模型寻找新的目标函数(目标函数关于新的基模型的二阶泰勒展开)
3.。第三,xgboost加入了和叶子权重的L2正则化项,因而有利于模型获得更低的方差。
4.第四,xgboost增加了自动处理缺失值特征的策略。通过把带缺失值样本分别划分到左子树或者右子树,比较两种方案下目标函数的优劣,从而自动对有缺失值的样本进行划分,无需对缺失特征进行填充预处理。
5.xgboost自持并行化

标签: none

添加新评论