关键词:
文本检测
复杂场景
多级特征
通道注意力
摘要:
针对在多样化环境下进行文本识别时遇到的诸如文本倾斜和大小不一致等挑战,提出了一种融合注意力机制和特征整合的高效文本识别算法。首先,通过在深度卷积神经网络的特征提取阶段加入注意力机制,促进了不同层次之间的信息互动,从而减少因文本位置多样性导致的漏检情况。其次,使用空洞卷积,这种卷积具有可变感受野的特性,有助于捕捉文本区域的细节信息,并且可以在不同尺度下适应文本的变化。最后,研究通过一个特征金字塔增强机制将不同尺寸、通道和深度的特征高效地结合,并集成为最终用于分割的特征。这不仅提升了文本检测的准确性,还减少了模型的复杂性。研究结果显示,在ICDAR 2015数据集上,此改进算法的检测准确率达到88.1%,这相比当前领先的DBNet算法有所提高。此外,该算法在针对制造业场景的MPSC数据集上的检测准确率达到了90.3%,充分展示了其在处理特定领域问题时的高效性。