Transition based


一种基于过渡的高效的不连续命名实体识别模型

原文:An Effective Transition-based Model for Discontinuous NER


Abstract

与通用域中广泛使用的命名实体识别数据集不同,生物医学NER数据集通常包含由不连续跨度组成的mention。常规序列标记技术对有效的马尔可夫假设进行编码,但排除了这些mention。作者为不连续的NER提出了一个简单,有效的基于过渡的模型,并带有通用神经编码。通过对三个生物医学数据集的广泛实验,并且证明了模型可以有效地识别不连续的mention,而不会牺牲连续mention的准确性。

  1. 提出目前非连续实体识别方法缺失,且非连续实体在如医学实体数据集上十分常见;
  2. 提出了Transition-based模型

Introduction

首先,flat model的两种假设:

  • mentions不是嵌套或重叠的,每个token至多属于一个mention
  • mentions由连续的token组成

相比于连续mentions,非连续mentions的内部间隔很长,如果穷举则增长为指数级;存在时间复杂度过高和解码mentions有歧义的问题。

Motivations

  • 非连续实体识别强调组合概念,有别于单独的概念
  • 在识别非连续mentions时的意义要比识别独立的mentions更有用

如图:

[^图1]: ‘left atrium dilated’ describes a disorder which has its own CUI in UMLS,whereas both ‘left atrium’ and ‘dilated’ also have.

  • 具有部分重叠的特点,几个mentions共享同一部分
  • 重点在将重叠mention分离,避免识别成单个mention

Contribution

  • 提出了end-to-end的transition-based模型,用指定的action与attention机制去判断一个span是否是非连续mention的一部分
  • 在三个非连续医学数据集上评估模型,可以有效识别非连续mention并不影响连续mention的效果。

Prior Work

  • Token level approach
  • Sentence level approach
  • NER task as a structured multi-label classification problem

前两者,通过先预测出mentions的中间表达(分别基于序列标注和子图),再解码出最后的mention。然而这两个方法在解码时会产生歧义。

第三个基于分类器检测组成成分,再合并这些成分形成不连续实体。这种方法灵活但是时间复杂度高。

  • Discontinuous NER vs. Nested NER

嵌套和不连续实体的区别在于前者是一个mention完全包含于另一个mention,后者则是两个mention相互包含,存在overlap。大多现有嵌套实体识别模型是处理完整的包含结构,也就无法使用在不连续实体识别。然而,作者发现可以通过在模式中添加细粒度实体类型进而解决不连续NER任务,将不连续NER转换为嵌套NER任务。

Model

本文模型基于shift-reduce解析器,用stack存储处理过的spans,用buffer存储未处理的tokens。学习框架是:给定parser状态,预测改变解析器状态的操作,循环至结束。

与其他解析器方法不同的是,本文设计了一组专用于识别不连续实体的一系列action,共6步:

  • shift:将buffer中第一个token移入stack;暗示这个token是实体mention的一部分
  • out:将buffer栈顶出栈,表示它不属于任何mention
  • complete:将stack栈顶span弹出,表示为一个实体
  • reduce:将stack出栈两个span s0,s1然后拼接成一个新的span放回stack
  • left-reduce:类似于reduce,区别是将s1留在stack中,表示s1涉及多个mentions
  • right-reduce:和left-reduce一样,区别在于将s0留在stack中

  1. Representation of the Parser State

    通过双向LSTM表示第i个token:

    使用ELMo的上下文向量拼接词:

    这里的C则为buffer中token的状态。

    stack中的span使用stack-LSTM结构从buffer转移到stack的span表示为:

    reduce,span拼接操作:

  2. multiplicative attention

    stack中的spans和buffer中的tokens间有对不连续实体识别的重要因素:二者间的关系。

    为了表示这种关系,使用multiplicative attention 。

    用stack中的span与buffer中token做关联,得到加权和。

  3. select an action

    parser的表示:(s0,s1,s2,sa0,sa1,sa2)

    分别为stack栈顶三项,以及对应的关联注意力值。

    然后使用单项LSTM学习action,再由softmax预测下一个action。

Data sets

CADECShARe 13,ShARe 14

Result

基于图模型的准确率依然较高,但是召回率低,本文方法召回率、f1较高,准确性也没有被牺牲。

Summary

在不牺牲连续mention准确率的前提下对不连续实体进行识别。


文章作者: huaya2022
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 huaya2022 !
  目录