网站首页 > 技术文章 正文
在 SimCLS [2]论文发布后不久,作者又发布了抽象文本摘要任务的SOTA结果 [1]。BRIO在上述论文的基础上结合了对比学习范式。
BRIO解决什么问题?
上图显示 seq2seq 架构中使用的传统 MLE 损失与无参考对比损失之间的差异。
我们通常使用最大似然估计(Maximum Likelihood Estimation, MLE)损失来训练序列模型。但是论文认为我们使用的损失函数将把一个本质上可能有多个正确输出(非确定性)的任务的“正确”输出(确定性)赋值为零。训练和推理过程之间也存在差异,在生成过程中模型是基于自己之前的预测步骤,而不是目标总结。在推理过程中,当模型开始偏离目标(并变得更加混乱)时,就会造成更严重的偏差。
论文的贡献
他们提出了合并评价指标(例如ROUGE、BERTScore,…)的想法,这样模型就可以学习如何对摘要进行排序。这是通过使用多样化Beam Search和生成多个候选(在论文中为16)来完成的。论文设计了一个两阶段的工作:1、使用一个预先训练的网络(BART)生成候选人,2、从中选择最好的一个。
对比损失(ctr)负责指导模型学习如何对给定文章的多个候选者进行排名。它将在微调过程中用于改进序列级别的协调。论文也说明了仅针对对比损失的微调模型不能用于生成摘要,因此将上述损失的加权值与交叉熵(xnet)损失相加,以确保令牌级别的预测准确性。 (下图 2)它被称为多任务微调损失(mul),虽然 BRIO-Mul 被描述为“双重角色”模型,但它其实是一个单一的模型,既可以生成摘要,也可以评估生成的候选者的质量。
变量γ 控制对比损失对最终损失的贡献。对于不同的gamma值(0、0.1、1、2等)的研究表明,数值越大,收敛速度越快。此外100是最佳的γ值,获得了最高的ROUGE评分。
BRIO-Loop微调方案
论文的研究使用 BART 预训练模型进行生成阶段。 但是使用 BRIO-Mul 模型是更好的,因为它已经超越了 BART 的性能。 (如上图3所示)这个循环可以进一步提高ROUGE分数。
结果
BRIO方法刷新了三个抽象摘要数据集:CNN/DailyMail、XSum和NYT的的SOTA结果。从下图4可以看出,该方法对于长摘要和短摘要的数据集都有较好的性能。值得注意的是,BRIO-Loop模型仅在CNN/DM上进行了测试,将R-1分数提高到了48.01。
这篇论文中的两个观察结果。\1) BRIO [1] 和 SimCLR [2](之前的 SOTA)模型之间的主要区别在于使用单一模型进行生成和评分,以最大限度地提高 BRIO 中的参数共享,SimCLR 使用 RoBERTa 作为评估模型。\2) XSum 基准测试使用 PEGASUS 作为基础模型(而不是 BART),这表明该方法可以独立于模型的选择使用。
作者在分析他们的主张方面做得很好。 在下一段中提到了其中的几个重点的观点。
- 增加Beam search的宽度:所提出的模型在 k 值较高的情况下表现更好。 特别是 k=100时与使用 k=4 生成最佳输出的原始 BART 不同。
- Few-shot Fine-tuning:结果表明,在 CNN/DM 数据集上只有 100 个(随机选择的)样本和 PEGASUS 在 XSum 上只有 1000 个样本时,BRIO-few 可以胜过 BART。
- 新的 n-gram:与 BART 相比,BRIO 在摘要中生成更多新的 n-gram。
文中还有更多的分析,比如 Token-level Calibration、Training with different Metric、Filtering Inference Noise,我就不一一赘述了,但强烈推荐大家阅读。
作者能用一篇写得很好的分析论文来支持他们的想法。他们还在GitHub上发布了代码,帮助我们理解了其中的细节,这是一本很棒的读物。
引用
[1] Liu, Y., Liu, P., Radev, D., & Neubig, G. (2022). BRIO: Bringing Order to Abstractive Summarization. arXiv preprint arXiv:2203.16804.
[2] Liu, Y., & Liu, P. (2021). Simcls: A simple framework for contrastive learning of abstractive summarization. arXiv preprint arXiv:2106.01890.
作者:NLPiation
猜你喜欢
- 2024-10-23 人手一个!微软开源Deep Speed Chat,人人拥有ChatGPT!
- 2024-10-23 减轻幻觉新SOTA,7B模型自迭代训练效果超越GPT-4,上海AI lab发布
- 2024-10-23 讯飞云港|讯飞联合团队荣登国际文本摘要国际比赛榜首
- 2024-10-23 康奈尔开源近10万份审稿意见,未来论文发表或将由AI定夺
- 2024-10-23 打脸“AI灭绝伦”!新研究反驳:GPT不会威胁人类生存?
- 2024-10-23 一举夺魁!讯飞联合团队荣登生成式文本摘要国际比赛榜首
- 2024-10-23 打脸“AI灭绝伦”!研究反驳:大模型涌现能力不会威胁人类生存
- 2024-10-23 一文看尽LLM对齐技术:RLHF、RLAIF、PPO、DPO……
- 2024-10-23 为抽象总结学习集群模式 抽象群的集合是抽象的对吗
- 2024-10-23 如何评估预测值与真实值之间的匹配质量
你 发表评论:
欢迎- 最近发表
- 标签列表
-
- oraclesql优化 (66)
- 类的加载机制 (75)
- feignclient (62)
- 一致性hash算法 (71)
- dockfile (66)
- 锁机制 (57)
- javaresponse (60)
- 查看hive版本 (59)
- phpworkerman (57)
- spark算子 (58)
- vue双向绑定的原理 (68)
- springbootget请求 (58)
- docker网络三种模式 (67)
- spring控制反转 (71)
- data:image/jpeg (69)
- base64 (69)
- java分页 (64)
- kibanadocker (60)
- qabstracttablemodel (62)
- java生成pdf文件 (69)
- deletelater (62)
- com.aspose.words (58)
- android.mk (62)
- qopengl (73)
- epoch_millis (61)
本文暂时没有评论,来添加一个吧(●'◡'●)