关键词:
嵌套命名实体识别
深度学习
词典辅助
搜索引擎
摘要:
嵌套命名实体识别在自然语言处理中扮演着重要的角色,其意义在于能够更加准确地提取文本中的实体信息。相较于传统的命名实体识别,嵌套命名实体识别能够识别出嵌套于其他实体内部的实体,更加全面地反映文本中的实体信息。准确的嵌套命名实体识别能够为其他自然语言处理任务提供更加准确和丰富的语义信息,从而提高这些任务的准确度和效率。因此,嵌套命名实体识别是自然语言处理领域的重要研究方向,对于促进自然语言处理技术的发展和应用具有重要的意义。当前的嵌套命名实体识别方法通常使用基于字符或词汇级别的浅层特征,这种方法无法充分利用词汇信息,而且仅侧重于内部上下文信息的利用,忽略了外部信息的使用。此外,现有研究主要关注英文数据集,对中文嵌套命名实体的研究相对较少。为了提高嵌套命名实体识别的准确性,本文针对英文领域,提出了基于维基搜索引擎的嵌套命名实体识别方法,引入外部知识来获取更丰富的语义信息。针对中文语言的特点,提出了中文嵌套命名实体识别模型,对维基搜索引擎方法进一步改进,避免了特定长度枚举的限制。具体而言,本文研究工作主要分为以下两部分:(1)针对英文嵌套命名实体识别问题,提出了基于维基搜索引擎的嵌套命名实体识别模型。该模型主体部分采用基于跨度的两阶段嵌套命名实体识别方法,结合跨度边界回归和片段分类联合任务解决方案,先定位实体位置及类别,再进行跨度过滤和边界调整。在主体模型基础上融合本地维基搜索引擎辅助方法,通过从本地维基搜索引擎中检索跨度的上下文来增强原始输入跨度,有效地捕获更好的token表示,采用BERT-CRF来得到标签和置信度分数,以辅助过滤器更好地执行二分类任务,提高识别准确度。在ACE 2004、ACE 2005、KBP17和GENIA四个通用的英文嵌套命名实体识别数据集上全面评估模型有效性,包括与基线模型进行的对比实验和消融实验。对比实验结果表明,相较于基线模型,本文提出的模型在嵌套命名实体的识别准确性方面有了明显的提升。消融实验结果表明,本文方法中的各个组件均对模型性能有着不同程度的贡献。(2)针对中文领域,提出了维基词典辅助的嵌套命名实体识别模型。该模型通过使用维基词典获得匹配词组来构成字符-词组对,并将其集成到BERT中间层,充分利用BERT表示能力。中文词组所包含的语义信息比单个字符更丰富,引入词典信息增强特征,获取更丰富的语义。使用双仿射结构,获取跨度的全局视图,避免了特定长度枚举的限制。同时,利用相邻跨度之间的空间相关性,使用卷积神经网络CNN对跨度之间的局部交互进行建模。最后,采用基于R-drop的对比学习思想来增强模型的鲁棒性。本文提出的模型旨在针对中文语言的特点进行优化,提高中文嵌套命名实体识别的准确性和效率。分别在《人民日报》、CMe EE中文嵌套数据集以及Weibo和Resume中文平面数据集上,取得了最佳的结果。