关键词:
增值税发票
表格检测
形态学操作
结构化识别
倾斜校正
红章消除
摘要:
增值税发票商品明细部分的项目名称、规格型号等的格式和内容非常灵活复杂,且缺乏完整表格线对各信息字段进行分隔,现有方法对增值税发票进行全票面信息结构化识别还存在元素识别率低、计算复杂度过高等问题,提出一种基于计算机形态学的全票面信息结构化识别方法。该方法采用形态学操作检测发票表格线,对发票不同区域裁切并识别文字;再利用增值税发票商品明细区域版面排布隐含规则,结合计算机形态学操作获得的文字连通区域,构建完整表格结构;最后基于文本检测神经网络(text detection neural network with differentiable binarization,DBNet)和卷积递归神经网络(convolutional recurrent neural network,CRNN)实现文本的检测和识别。提出的方法在3种版式共49张增值税发票数据集上测试,结果表明,元素识别率分别达到99.9%、97.4%和98.8%,单张平均运行时间分别为0.90、0.47和0.82 s,全票面结构化识别性能超过多个对照表格识别模型以及文献方法。