关键词:
中文地址解析
地址要素
RoBERTa
BiLSTM
CRF
自注意力机制
摘要:
针对中文地址解析精准度不高、效率低以及忽略细粒度地址要素等问题,提出融合自注意力机制的RoBERTa-BiLSTM-SelfAttention-CRF的中文地址解析方法。首先,利用RoBERTa提取地址文本的深层语义特征和丰富的上下文信息;其次,通过BiLSTM网络建模地址文本的序列关系,捕捉地址要素之间的关系依赖;然后,在不同地址要素之间引入自注意力机制建立有效关联,优化模型在解析中文地址时的表现;最后,采用CRF标注地址序列,实现精确的地址解析。实验结果表明,自注意力机制的引入有助于提升中文地址解析效果,该方法在自建数据集上,准确率为0.9594,召回率为0.9697,F1值为0.9645。在CCKS2021公开数据集上,准确率为0.9080,召回率为0.9158,F1值为0.9119,较目前先进方法F1值提升0.0069,表现出良好的性能及泛化能力。