论文阅读 - How to best use Syntax in SRL

本文讨论如何把句法信息加入 SRL 任务。其中提到了三种方法：使用句法信息作为输入；使用句法信息组成 Multi-task；同时使用上述两种方法，组成 auto-encoder。本文使用 CoNLL’05 和 CoNLL’12 作为训练集进行测试。

Introduction

将外部信息加入 NLP 任务的思想在近几年中趋势越发明显。关于这个问题，有三种主流的做法：

但是这些研究主要停留在了一些浅层信息，例如将 POS 标签和序列标注任务结合。而那些标注句法依赖等等“较长”句法特征信息则没有被仔细研究。这篇文章就是针对这一点进行一个补充。

在这篇文章中，主要讨论了三个问题：

一个语法标注系统能够提取 predicate-argument 结构。在研究早期句法信息一直是 SRL 的重要组成部分，然而当下的 SOTA 模型并没有显式地包含句法信息。这篇文章希望通过实验证明句法信息对于 SRL 系统的重要作用。

在这篇文章中，作者将外部信息表示为离散特征向量。其中有三类表示：

对于不同的整合方式，在语料库 CoNLL’05 和 CoNLL’12 上进行测试获得结果

参照 Gomez-Rodrıguez and Vilares 提出的方法，将成分分析树进行向量化。为了表示这个提出下列标注：

通过记录所有节点的上述信息，可以完全还原成分分析树。示例如下：

只有一小部分的成分分析树中的成分是发挥了作用的。这意味着将整个成分分析树都进行编码可能不是最优解。因此仅保留最有可能有利于标签分类的成分是必要的一个操作。为此，作者使用了剪枝算法，将其中的部分 argument 收集起来，并将无关的部分滤除。对于滤除的结果使用标准 BIO 标记法标记。

这个标记在上面例图中已经标明。

通过依赖树，编码的仍然是成分信息。其具有下列的标签：

示例如下：

加入外部信息的方法如同前文所说，有三：

实验一共进行了 10 组：“3 种使用外部信息的方法”x“3 种将文本句法特征向量化的方法” + 1 个 baseline。实验在 CoNLL’01 和 CoNLL’12 上进行。

结果表示，句法信息确实是对 SRL 能力有积极提升作用。其中，Full-C 获得了更优于 Dep 的实验结果。作者认为这是由于成分树更加接近于 SRL 的信息。此外 SRL-C 的方法略好于 Full-C 方法，在集外预测时也更具优势。

并且使用 Multi-task 在这个任务中并没有体现出非常好的效果，而其馀两种方法效果相当。

作者将本次实验中表现最为出色的 SRL-C used as Input 作为对比，和现有的各个工作进行对比。这个方法相较于现在已有的模型有略微的提升，但是结果并未明显胜出 ensemble 方法。