分类 三、机器学习 下的文章

对于CRF,直接用最大熵准则建模p(Y|X)的概率。
而HMM,是在做了markov假设下去建模p(Y,X)(即一切观察量的联合概率分布)

多模型评估的指标可以分为以下几个类别

一.Accuracy,Precision,Recall

要计算这几个指标先要了解几个概念:
FN:False Negative,被判定为负样本,但事实上是正样本。
FP:False Positive,被判定为正样本,但事实上是负样本。
TN:True Negative,被判定为负样本,事实上也是负样本。
TP:True Positive,被判定为正样本,事实上也是证样本。
1.Accuracy (准确率)
$ac=\frac {TP+TN}{TP+TN+FP+FN}$

2.Precision(精确率、查准率)
$P = \frac {TP}{TP+FP}$
解释:正样本占分类器所分的正样本的比例

3.Recall(召回率,查全率)
$R = \frac {TP}{TP + FN}$
解释:正样本占真正的正样本的比例

二、现实模型中的准招率

1.正样本的准确率,召回率

我们平常所说的准确率,召回率通常指正样本的,因为我们模板大多比较关心正样本。
$P = \frac {TP}{TP+FP}$
$R = \frac {TP}{TP + FN}$

2.负样本的准确率,召回率

$P = \frac {TN}{TN+FN}$
$R = \frac {TN}{TN + FP}$

3.整个样本的准确率,召回率

这里就要考虑宏平均和微平均

宏平均(Macro-averaging)

是先对每一个类统计指标值,然后在对所有类求算术平均值。

在这里插入图片描述
在这里插入图片描述

微平均(Micro-averaging)

是对数据集中的每一个实例不分类别进行统计建立全局混淆矩阵,然后计算相应指标。
在这里插入图片描述
在这里插入图片描述

三、F1值

F1值是精确率和召回率的调和均值,即F1=2PR/(P+R),相当于精确率和召回率的综合评价指标。

四、PR曲线

在这里插入图片描述

五、ROC曲线

1.定义

ROC全称是“受试者工作特征”(Receiver OperatingCharacteristic)曲线。我们根据学习器的预测结果,把阈值从0变到最大,即刚开始是把每个样本作为正例进行预测,随着阈值的增大,学习器预测正样例数越来越少,直到最后没有一个样本是正样例。在这一过程中,每次计算出两个重要量的值,分别以它们为横、纵坐标作图,就得到了“ROC曲线”。
###### 2.横纵坐标轴
纵坐标:真阳率:$TPR = \frac {TP}{TP + FN}$
横坐标:假阳率(误判率):$FPR = \frac {TP}{TN + FP}$

在这里插入图片描述

3.为什么ROC曲线比PR曲线稳定

1.如果正负样本比例差不多,roc曲线和pr曲线基本一致。
2.如果样本比例失调,roc曲线比pr曲线更能判定模型好坏。
3.举个极端的例子:
100个去医院看病,其中99个艾滋病,一个正常人,结果医生将100个人都看成艾滋病人。则:
TP=99
FP=1
TN=0
FN=0
则:P=99%,R =100%,则PR曲线的效果就很好,实际分类效果不好
而:ROC曲线:TPR=100% ,FPR=100%,可看出ROC曲线效果不好,与实际一直。可以看出ROC曲线更好

六、AUC值

1.定义

那么这个指标代表什么呢?这个指标想表达的含义,简单来说其实就是随机抽出一对样本(一个正样本,一个负样本),然后用训练得到的分类器来对这两个样本进行预测,预测得到正样本的概率大于负样本概率的概率。

2.计算
  • (1) 1. 最直观的
    根据AUC这个名称,我们知道,计算出ROC曲线下面的面积,就是AUC的值。事实上,这也是在早期 Machine Learning文献中常见的AUC计算方法。由于我们的测试样本是有限的。我们得到的AUC曲线必然是一个阶梯状的。因此,计算的AUC也就是这些阶梯 下面的面积之和。这样,我们先把score排序(假设score越大,此样本属于正类的概率越大),然后一边扫描就可以得到我们想要的AUC。但是,这么 做有个缺点,就是当多个测试样本的score相等的时候,我们调整一下阈值,得到的不是曲线一个阶梯往上或者往右的延展,而是斜着向上形成一个梯形。此 时,我们就需要计算这个梯形的面积。由此,我们可以看到,用这种方法计算AUC实际上是比较麻烦的。
  • (2)AUC的很有趣的性质
    它和Wilcoxon-Mann-Witney Test是等价的。而Wilcoxon-Mann-Witney Test就是测试任意给一个正类样本和一个负类样本,正类样本的score有多大的概率大于负类样本的score。

在有M个正样本,N个负样本的数据集里。一共有MN对样本(一对样本即,一个正样本与一个负样本)。统计这MN对样本里,正样本的预测概率大于负样本的预测概率的个数。
在这里插入图片描述

,其中,
在这里插入图片描述

这样说可能有点抽象,我举一个例子便能够明白。

在这里插入图片描述

假设有4条样本。2个正样本,2个负样本,那么M*N=4。即总共有4个样本对。分别是:
(D,B),(D,A),(C,B),(C,A)。
在(D,B)样本对中,正样本D预测的概率大于负样本B预测的概率(也就是D的得分比B高),记为1
同理,对于(C,B)。正样本C预测的概率小于负样本C预测的概率,记为0.
最后可以算得,总共有3个符合正样本得分高于负样本得分,故最后的AUC为
在这里插入图片描述

在这个案例里,没有出现得分一致的情况,假如出现得分一致的时候,例如:
在这里插入图片描述

同样本是4个样本对,对于样本对(C,B)其I值为0.5。

在这里插入图片描述

最后的AUC为

一、EDA方法

1.同义词替换(Synonym Replacement, SR):从句子中随机选取n个不属于停用词集的单词,并随机选择其同义词替换它们;
2.随机插入(Random Insertion, RI):随机的找出句中某个不属于停用词集的词,并求出其随机的同义词,将该同义词插入句子的一个随机位置。重复n次;
3.随机交换(Random Swap, RS):随机的选择句中两个单词并交换它们的位置。重复n次;
4.随机删除(Random Deletion, RD):以 $p$ 的概率,随机的移除句中的每个单词。

第一种方式主要是利用同义替换的思想。 文中介绍了几个相关的方法,主要还是在于字、词、和句子结构层面上做数据增强。

除了传统的字典、词向量相似度替换的方法,我觉得用mlm的方式去做数据增强这个点更加新颖和符合intuition。

样本生成

模型预测

在这里插入图片描述
5、第二种就是通过“回译”的方法,这在阅读理解领域的榜单中一度有人使用过,比如说《attention is all you need》中在squad数据集上就使用了这个trick。
6、句法级别的改写,生成句法树然后利用规则替换

7.通过上述两个图,能很容易理解,就是预测mask位置的token,本身模型输出的是概率值,所以可以进行一个有效排序,而生成top k个近似的结果。

8、第三种方式, Text Surface Transformation,主要是对句子进行一定规则的扩张和缩写,比如it is可以改写为it's

9、随机噪声插入,这在addsent数据集的论文中使用过,可以使用随机插入、拼写错误插入、句子级别的打乱

10、可以认为是一种句子之间相互增强,本质来将就是找到一个和原始句子相似的句子来替代,类似句子改写?但这句子是真实的?

一、平分损失

二、对数损失

三、交叉熵损失

$L_\theta(x) =- \frac{1}{m}\sum_{i=1}^{m}(y_{i}log \hat{y_{i}}+(1-y_{i})log(1- \hat{y_{i}}))$

四、指数损失

问题:在0,1分类问题中为什么不用平方损失
从梯度优化方向来回答: