一种基于过渡的高效的不连续命名实体识别模型
原文:An Effective Transition-based Model for Discontinuous NER
Abstract
与通用域中广泛使用的命名实体识别数据集不同,生物医学NER数据集通常包含由不连续跨度组成的mention。常规序列标记技术对有效的马尔可夫假设进行编码,但排除了这些mention。作者为不连续的NER提出了一个简单,有效的基于过渡的模型,并带有通用神经编码。通过对三个生物医学数据集的广泛实验,并且证明了模型可以有效地识别不连续的mention,而不会牺牲连续mention的准确性。
- 提出目前非连续实体识别方法缺失,且非连续实体在如医学实体数据集上十分常见;
- 提出了Transition-based模型
Introduction
首先,flat model的两种假设:
- mentions不是嵌套或重叠的,每个token至多属于一个mention
- mentions由连续的token组成
相比于连续mentions,非连续mentions的内部间隔很长,如果穷举则增长为指数级;存在时间复杂度过高和解码mentions有歧义的问题。
Motivations
- 非连续实体识别强调组合概念,有别于单独的概念
- 在识别非连续mentions时的意义要比识别独立的mentions更有用
如图:
[^图1]: ‘left atrium dilated’ describes a disorder which has its own CUI in UMLS,whereas both ‘left atrium’ and ‘dilated’ also have.
- 具有部分重叠的特点,几个mentions共享同一部分
- 重点在将重叠mention分离,避免识别成单个mention
Contribution
- 提出了end-to-end的transition-based模型,用指定的action与attention机制去判断一个span是否是非连续mention的一部分
- 在三个非连续医学数据集上评估模型,可以有效识别非连续mention并不影响连续mention的效果。
Prior Work
- Token level approach
- Sentence level approach
- NER task as a structured multi-label classification problem
前两者,通过先预测出mentions的中间表达(分别基于序列标注和子图),再解码出最后的mention。然而这两个方法在解码时会产生歧义。
第三个基于分类器检测组成成分,再合并这些成分形成不连续实体。这种方法灵活但是时间复杂度高。
- Discontinuous NER vs. Nested NER
嵌套和不连续实体的区别在于前者是一个mention完全包含于另一个mention,后者则是两个mention相互包含,存在overlap。大多现有嵌套实体识别模型是处理完整的包含结构,也就无法使用在不连续实体识别。然而,作者发现可以通过在模式中添加细粒度实体类型进而解决不连续NER任务,将不连续NER转换为嵌套NER任务。
Model
本文模型基于shift-reduce解析器,用stack存储处理过的spans,用buffer存储未处理的tokens。学习框架是:给定parser状态,预测改变解析器状态的操作,循环至结束。
与其他解析器方法不同的是,本文设计了一组专用于识别不连续实体的一系列action,共6步:
- shift:将buffer中第一个token移入stack;暗示这个token是实体mention的一部分
- out:将buffer栈顶出栈,表示它不属于任何mention
- complete:将stack栈顶span弹出,表示为一个实体
- reduce:将stack出栈两个span s0,s1然后拼接成一个新的span放回stack
- left-reduce:类似于reduce,区别是将s1留在stack中,表示s1涉及多个mentions
- right-reduce:和left-reduce一样,区别在于将s0留在stack中
Representation of the Parser State
通过双向LSTM表示第i个token:
使用ELMo的上下文向量拼接词:
这里的C则为buffer中token的状态。
stack中的span使用stack-LSTM结构从buffer转移到stack的span表示为:
reduce,span拼接操作:
multiplicative attention
stack中的spans和buffer中的tokens间有对不连续实体识别的重要因素:二者间的关系。
为了表示这种关系,使用multiplicative attention 。
用stack中的span与buffer中token做关联,得到加权和。
select an action
parser的表示:(s0,s1,s2,sa0,sa1,sa2)
分别为stack栈顶三项,以及对应的关联注意力值。
然后使用单项LSTM学习action,再由softmax预测下一个action。
Data sets
CADEC,ShARe 13,ShARe 14
Result
基于图模型的准确率依然较高,但是召回率低,本文方法召回率、f1较高,准确性也没有被牺牲。
Summary
在不牺牲连续mention准确率的前提下对不连续实体进行识别。