极大团查找做不连续NER


极大团查找做不连续NER

Discontinuous Named Entity Recognition as Maximal Clique Discovery

Abstract

以往的基于转移和基于联合的方法,在训练时都依赖黄金标注的中间结果,使用第一阶段的结果进行预测,产生暴露偏差。

本文提出了一种将不连续NER转换为寻找图的最大团的非参数化过程,避免暴露偏差。

极大团定义:当 G′ 是图 G 的子图,且 G′ 是关于 V′ 的完全图时,子图 G’ 为图 G 的团;当 G’ 是团,且不是其他团的子集时,G’ 为图 G 的极大团;当 G’ 是极大团时,且点数最多,G’ 为图 G 最大团

Introduction

在处理不连续实体识别上,解决overlap问题设计的方法。

目前针对不连续的sota的两个方向:combination-based 和 transition-based.(基于联合和基于转移)

combination-based:首先检测所有重叠的span,然后学习用单独的分类器组合这些段。在训练过程中使用golden段指导分类器,而推理时输入由训练好的模型给出。

transition-based:通过一连串的移位-还原动作对不连续的span进行增量标记。在训练时当前的动作依赖于之前的golden动作,而测试时整个动作序列由模型生成。

尽管这些方法的效果有目共睹,但是存在一个共同的问题:exposure bias

为解决上述问题,本文提出了Mac(Maximal clique)模型:

所有句子的mention实体形成一个segment graph,其中的连续段视为节点,同一实体的各部分连接起来形成边。

那么从这样的segment graph中找到最大团就是问题所在了。

将这个工作抽象为两个不耦合的部分:segment extraction (SE) and edge prediction (EP)(段提取和边预测)

Methodology

下图是抽取过程的一个例子。POB(Part of Body)-身体一部分;ADE(Adverse Drug Event )-不良药物反应

从句子中抽取实体进行标记分类,然后构建成段图(segment graph)。

Grid Tagging Scheme

给定一个n-token句子,通过穷举所有可能token对并根据他们的关系标注标签来构建n*n的标签表。

Segment Extraction

为了提取重叠实体片段,构建一个二维标签表,舍弃下三角区。如图3为一个具体例子。

若ti到tj的一个段属于一个类别,我们将(ti,tj)的一个段分配一组标签。

那么实际上,使用BIS标记方法表示段是连续实体(X-S)、位于X类型的不连续实体开头(X-B)或内部(X-I)。

图中(upper, body)被标记为(POB-S)表示连续实体,类型为“POB”;

(Sever, joint)被标记为(ADE-B)(Sever joint pain的不连续实体);(Sever, Sever)->(ADE-B);

( joint, joint)->(POB-S).可以看到,解决了重叠实体抽取的问题。

Edge Prediction

通过调整同一实体的边界token来构建他们之间的链接进行边预测。

标签模式定义如下:

  • head to head(X-H2H),则有(ti,tj),ti和tj分别表示构成X类型的一个实体的两个段的开始
  • tail to tail (X-T2T),与上述相似但表示尾部

在图4中,“Sever”对于“shoulder”和“pain”有头尾两个标签,是由于不连续实体“Sever shoulder pain”为ADE类型实体。

Model

使用B-K回溯算法寻找图中最大团。

构造三个集合:

  • R:记录当前极大团中已加入的点
  • P:记录可能还可以加入的点(也就是与R集合中所有点都有边存在的点,这样加入后,才会构成团)
  • X:记录已经加入过某极大团的点(作用是判重,因为会从每个结点开始,枚举所有的团,如果不对已经加入某个极大团的点,进行标记,可能会有重复的极大团出现)

那么B-K回溯算法:

  1. 我们将每一个在P中的点v加入集合R,然后更新P,使P中的点依旧可以和R中的点相连接。
  2. 回溯时将V从P中移除,加入X中表示当前状态下对包含V的极大团计算结束。
  3. R为极大团时,必须P与X都为空。P存放可能加入R的点,P空后没有点可以加入R,X中的点必然可以与R构成极大团。因此当且仅当P、X都为空集时R为一个极大团。

对于n个token的句子,进行编码,生产2个表达hs和he分别表示SE和EP的特征:

其中W为参数矩阵,b为偏移量。

Segment Extractor

b和e分别为token的开始和结束,在本模型中固定了行始标记,所以b=ti概率为1只需计算前者。

对于段提取,使用Conditional Layer Normalization(CLN)做归一化:

加入内部信息使用LSTM,以及开始结尾的距离信息:

Edge Predictor

无需距离信息和token内部信息,因此:


实际上,本文模型的网格标记是一种多标签分类方法,使用Sigmoid做全连接。

Datasets

三个数据集:CADEC,ShARe 13,ShARe 14




文章作者: huaya2022
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 huaya2022 !
  目录