关键词:
文本检测
递归金字塔
非对称卷积
迭代细化预测
可微分二值化
摘要:
场景文本检测是图像处理领域的基础性研究工作,具有广泛的应用价值。DBNet作为该领域具有代表性的算法,重构文本实例的后处理过程过于简单,对纵横比显著变化的文本容易误检以及对小文本容易漏检。为解决以上问题,设计并提出用于场景文本检测的非对称迭代细化预测网络AIRPNet。模型基于ResNet50特征提取网络,将常规卷积替换为可变形卷积以适应不规则文本特征,并调整block堆叠数使得各层携带的特征更加合理。采用RFP的递归思想更充分地融合多层特征,设计非对称迭代细化预测模块构建更为准确的概率图,可微分二值化后处理重构文本实例边界。针对非对称迭代细化预测模块,设计多种结构进行探究。为评估提出模型的有效性,在三个数据集上与最先进的主流模型进行对比,在ICDAR2015、MSRA-TD500和CTW1500数据集中,分别取得88.7%、88.4%和84.9%的F-measure,实现或接近SOTA性能。实验结果表明,提出模型能够捕获较为准确的概率图,从而构建较为完整的文本边界框。