分类 二、深度学习 下的文章

ACL 2022 中关于如何进行主题切分的一篇文章和关于如何提高对话生成质量的两篇文章。

  1. 基于端到端分章节的新闻摘要生成
    End-to-End Segmentation-based News Summarization

论文地址:https://aclanthology.org/2022.findings-acl.46.pdf

为了更好地理解长篇新闻,该文章提出了基于分章节的新闻摘要生成任务,该任务的目的是将一篇新闻文章分成多个部分,并为每个部分生成相应的摘要。作者创建了一个新的新闻数据集 SEGNEWS,并提出了一种新颖的端到端方法,该方法可以将文章分割任务和相应摘要生成任务联合起来,通过共享的编码器相互学习。在 SEGNEWS 上的实验结果表明该模型优于最先进的 Seq2Seq 文本生成模型。

  1. 好久不见! 具有长期角色记忆的开放域对话系统
    Long Time No See! Open-Domain Conversation with Long-Term Persona Memory

论文地址:https://aclanthology.org/2022.findings-acl.207.pdf

由于缺乏理解和记忆长期对话历史信息的能力,大多数开放域的对话模型在长期的人机对话交互中表现不佳。为解决该问题,作者定义了一种新的长时记忆会话 (LeMon) 任务,并在此基础上构建了一个新的对话数据集 DuLeMon 和一个具有长时记忆机制 (LTM) 对话生成框架 PLATO-LTM,LTM 机制可以使系统准确提取并持续更新长期角色记忆,基于 DuLeMon 的研究结果表明,PLATO-LTM 在长期对话一致性方面显著优于基线。

  1. ProphetChat: 通过模拟未来的对话来增强对话生成
    ProphetChat: Enhancing Dialogue Generation with Simulation of Future Conversation

论文地址:https://aclanthology.org/2022.acl-long.68.pdf

典型的生成式对话模型利用对话历史来生成回应,然而由于应答方式多样,仅根据历史信息很难生成期望回答。在这项工作中,作者提出了一种新的对话生成框架 ProphetChat,该框架在推理阶段利用模拟的未来对话来增强生成对话的效果。基于两个开放域对话数据集的实验结果表明,ProphetChat 可以生成更好的答语,表明了模拟的未来对话信息对对话生成的有效性。

Three Policies
Your assistant uses policies to decide which action to take at each step in a conversation. There are three different policies that the default config.yml file starts out with:

1.The RulePolicy handles conversations that match predefined rule patterns. It makes predictions based on any rules you have in your rules.yml file.
2.The MemoizationPolicy checks if the current conversation matches any of the stories in your training data. If so, it will predict the next action from the matching stories.
3.The TEDPolicy uses machine learning to predict the next best action. It is explained in full detail in our paper and on our YouTube channel.

FLAT主要创新点在于:
(1)基于Transformer设计了一种巧妙position encoding来融合Lattice结构,可以无损的引入词汇信息。
(2)基于Transformer融合了词汇信息的动态结构,支持并行化计算,可以大幅提升推断速度。

一、背景

ACL2020中一篇来自复旦大学邱锡鹏老师团队的 FLAT: Chinese NER Using Flat-Lattice Transformer 刷新了中文NER任务的新SOTA。
论文链接:https://arxiv.org/pdf/2004.11795.pdf

开源代码:https://github.com/LeeSureman/Flat-Lattice-Transformer

二、

r-drop本质上是一种有监督的数据增强方式
SimCse本质上是一种无监督的数据增强方式
对比学习标准流程:对比学习的标准流程是同一个样本通过不同的数据扩增手段得到的结果视为正样本对,而 batch 内的所有其他样本视为负样本,然后就是通过 loss 来缩小正样本的距离、拉大负样本的距离了。

一、相关背景

关注 NLP 新进展的读者,想必对2021年4月份发布的 SimCSE印象颇深,它通过简单的“Dropout 两次”来构造正样本进行对比学习,达到了无监督语义相似度任务的全面 SOTA。无独有偶,最近2021年6月份的论文《R-Drop: Regularized Dropout for Neural Networks》提出了 R-Drop,它将“Dropout两次”的思想用到了有监督任务中,每个实验结果几乎都取得了明显的提升。此外,笔者在自己的实验还发现,它在半监督任务上也能有不俗的表现
论文标题:R-Drop: Regularized Dropout for Neural Networks

论文链接:https://arxiv.org/abs/2106.14448

代码链接:https://github.com/dropreg/R-Drop

所以难度主要集中在数据扩增手段上。对于 NLP 来说,我们很难人工构建保证语义不变的数据扩增,所以 SimCSE 干脆不人工进行数据扩增,而是通过“Dropout 两次”的方式来得到同一个输入的不同特征向量,并将它们视为正样本对。奇怪的是,这个简单的“Dropout 两次”构造正样本,看上去是一种“无可奈何”的妥协选择,但消融实验却发现它几乎优于所有其他数据扩增方法,令人惊讶之余又让人感叹“大道至简”。

在实现上,SimCSE 也相当简单,所谓“Dropout 两次”,只需要将样本重复地输入到模型,然后计算相应的 loss 就行了,如上图所示。由于 Dropout 本身的随机性,每个样本的 Dropout 模式都是不一样的,所以只要单纯地重复样本,就可以实现“Dropout 两次”的效果。

二、算法结构

从结果上来看,SimCSE 就是希望 Dropout对模型结果不会有太大影响,也就是模型输出对 Dropout 是鲁棒的。所以很明显,“Dropout 两次”这种思想是可以推广到一般任务的,这就是 R-Drop(Regularized Dropout)。
未命名文件 (2).png

1.损失函数

损失函数由两部分组成:常规的交叉熵损失函数+KL散度约束的相对熵
cr.png
kls.png
zz.png

参考:
https://mp.weixin.qq.com/s/IvhGbFEMotpKJIUPExUklg