Revisiting Transformer-based Models for Long Document Classification论文阅读

摘要

比较了不同的基于transformer的长文档分类(TrLDC)方法,这些方法旨在减轻普通转换器编码更长的文本的计算开销,即稀疏注意和分层编码方法。我们在覆盖不同领域的四个文档分类数据集上研究了稀疏注意(例如,局部注意窗口的大小,全局注意的使用)和分层(例如,文档分割策略)转换的几个方面。我们观察到能够处理较长的文本的明显好处,并且根据我们的结果,我们得出了在长文档分类任务上应用基于transformer的模型的实用建议。

引言

对于长文档分类来说,截断文本可能会遗漏重要信息,导致分类性能差(图1)。另一个挑战就是每一个token都会关注其他所有token,在多头自注意力的操作中计算开销。使得处理长文本变得非常困难。

对于第二个挑战,长文本的transformer已经出现。但是他们的实验在一个并不好的数据集上。在一些数据集上,BERT的多个变体比基于CNN或rnn的模型表现更差。作者们认为有必要了解基于transformer的模型在对实际较长的文档进行分类时的性能。

贡献:比较了基于transformer架构的不同长文档分类方法:即稀疏关注和分层方法。一些设计选择(如稀疏注意方法中的局部注意窗口大小)可以在不牺牲有效性的情况下提高效率,而一些选择(如分层方法中的文档分割策略)会极大地影响有效性。基于transformer的模型可以在MIMIC-III数据集上优于以前最先进的基于CNN的模型。

问题陈述和数据集

我们将文档分类模型分为两个组件:(1)文档编码器,它构建给定文档的向量表示;(2)一个分类器,该分类器预测给定编码向量的单个或多个标签。我们使用基于transformer的编码器来构建文档表示,然后将编码的文档表示作为分类器的输入。我们使用TANH激活的隐藏层,然后是输出层。输出概率通过应用SIGMOID或者SOFTMAX得到。我们主要在MIMIC-III数据集上进行实验

MIMIC-III包含重症监护病房(ICU)出院摘要,每个摘要都使用ICD-9(国际疾病分类,第九次修订版)层次结构用多个标签-诊断和程序进行注释。根据Mullenbach等人(2018)的研究,我们使用前50个频繁标签进行实验

为了解决一般化的问题,我们还使用了来自其他领域的三个数据集:ECtHR来自法律案件,Hyperpartisan 和20 News 均来自新闻文章。

方法

Sparse(稀少的)-Attention Transformers

Beltagy等人(2020)的Longformer由本地(基于窗口的)注意力和全局注意力组成,这降低了模型的计算复杂性,因此可以部署到处理多达4096个令牌。

BigBird是另一个基于稀疏注意力的Transformer,它使用本地、全局和随机注意力的组合,即所有令牌也会在同一邻域中的令牌之上参加许多随机令牌。这两个模型都是从公共RoBERTa检查点热启动的,并进一步对掩码语言建模进行预训练。据报道,在一系列需要长序列建模的任务中,它们的表现优于RoBERTa。

Hierarchical Transformers

文本先被分割成段,每个段应该有少于512个token,每个片段可以使用预训练的transformer编码器,将每个片段第一个token的上下文表示与片段位置嵌入相加作为片段表示。片段编码器transformer分为两部分捕获片段之间的关系和上下文片段表示输出列表。