关键词:
文本检测
深度学习
计算机视觉
可微分二值化
摘要:
自然场景中包含的丰富文本对理解现实世界具有重要意义,但由于自然场景文本的多样性和复杂性,检测任务变得困难。随着智能时代的兴起,深度学习技术为自然场景文本检测带来突破性进展,可微分二值化网络DBNet的提出,更是推动了文本检测实时性需求的研究进步,许多研究者基于可微分二值化技术,进行了具有创新性和实用性的研究,并取得丰硕成果。对近年来基于可微分二值化技术的文本检测算法研究进行了深入的分析和总结。简要介绍DBNet模型的背景、工作原理、优势与劣势,根据技术差异将基于微分二值化技术的算法分为特征提取、特征融合、后处理、整体架构以及训练策略五类,对每类方法的改进方式进行详细的图示说明,并对各类技术方法的机制进行详细阐述,对所有方法进行分析总结。介绍了常用公开数据集和文本检测性能评估指标,汇总不同方法的仿真实验结果,列举几个具有实际意义的应用场景。对自然场景文本检测领域的未来发展方向进行了思考,并梳理面对的挑战和亟待解决的问题。