关键词:
倒排索引
索引构建
法律案例检索
文本相似性
摘要:
随着我国全面推进依法治国,大力发展网络强国战略,越来越多的法律、法规和法律文书等信息得以在网络上进行公开发布。搜索引擎作为提供信息检索的系统,其为互联网用户检索法律信息带来了极大的便利,具有很好的研究价值。伴随着信息化和大数据时代的到来,互联网上包含法律文本的网页量呈指数倍迅速增长,这给搜索引擎带来了如何快速、准确的获取到有价值的法律信息的问题。由于普通用户区别于专业的法律从业者,在进行法律信息检索时也会无法在搜索引擎提供的文档中甄别出更加有效的信息。针对上述问题,本文研究面向法律领域的搜索引擎核心技术,主要围绕倒排索引构建技术及其在法律案例检索方面的应用展开研究。本文的主要研究工作如下:为了提升搜索引擎的倒排索引构建性能,针对经典的快速倒排算法FASTINV在面对大规模法律数据构建倒排索引时,无法快速构建出倒排索引的问题,本文提出两个新的倒排索引构建算法:FASTER-INV和AC-INV。首先,对于FAST-INV中四个信息文档冗余的问题,提出了通过减少两个不必要的信息文档来构建倒排索引的算法FASTER-INV,该算法在减少了冗余信息的同时,也优化了内存的空间开销。然后,本文进一步提出了基于AC自动机的倒排索引构建算法AC-INV,将构建<文档ID,词项ID>对和倒排索引的过程合并,在保证信息完整的情况下,不仅省去了大量内存占用量,还免去了构建信息文档的时间,提高了算法的可扩展性。最后,在中文法律数据集CAIL2018上进行大量实验。结果表明,本文提出算法的效果提升明显,FASTER-INV和AC-INV的加速效果提升了1.11~1.14倍、1.33~1.42倍,内存节约效果提升了10%、35%。为了提升搜索引擎的法律案例检索性能,本文提出了一个基于BM25和RoBERTa的法律案例检索方法BM25-RoBERTa。首先,该方法使用倒排索引和BM25排序算法根据查询对全部法律案例进行快速召回,并进行相似性排序。然后,基于RoBERTa的段落聚合架构对倒排索引和BM25检索来的法律长文本进行编码,学习法律文本间的语义关系,计算出查询案例与候选案例集之间的相似性分数。本文为了提高法律案例检索模型的精确率,将法律案例中的罪名同时输入到RoBERTa模型中得到罪名预测得分。将罪名得分与案例内容得分进行加权求和得到最终评分,根据评分对候选案例集进行精准排序。最后,在中文法律案例检索数据集Le Ca RD上进行大量实验。结果表明,本文提出的法律案例检索模型表现结果良好,均值平均精度值达到了57.8%,比BM25、BERT和RoBERTa提高了19.66%、3.95%、1.58%。