基于span的联合重叠不连续命名实体识别模型
原文:A Span-Based Model for Joint Overlapped and Discontinuous Named Entity Recognition
Abstract
- 提出一种基于span的模型同时识别不连续和重叠实体
- 遍历所有可能文本跨度识别实体片段——解决重叠问题
- 通过关系分类判断一对实体段是重叠还是连续的,这样在识别不连续的同时再次检查重叠实体
- 本质上是关系提取范式
Introduction
相对于目前关注不连续和重叠问题NER的一些模型(如基于过渡),需要定义图节点、边和转换操作,并且由于模型沿着句子中的单词逐渐生成结果,这样就会产生错误传播。相对来说,基于span的方法是更加简单的,并且span-level的分类是完全并行化的,不会产生错误传播。
提出基于span的端对端的同时识别重叠和不连续实体方法。
- 使用Bert生成上下文表示,并枚举所有候选span,对这些span分类是否为实体片段;
- 构造分类预测器确定俩个片段是否存在关系;
- 定义了两种关系:Overlapping 、 Succession分别表示重叠和不连续实体;
- 使用依赖导向的图卷积网络提供语法信息,增强模型