关键词:
表格数据
边缘检测
边窗高斯滤波
特征检测
数据结构化
摘要:
生活中有结构化、半结构化和非结构化三类数据。相比于结构化数据,半结构化和非结构化数据具有较高的价值密度,但由于不能直接进行存储和分析,数据挖掘工作存在很多不便。表格数据在生活信息传递中占较大比重,内容丰富,是数据的重要承载形式。因此本文以表格数据为研究对象,针对图像型表格数据和电子表格数据的结构化转换方法进行了研究。通过对国内外相关文献进行深入分析,发现现有的数据结构化转换方法主要包括数据抽取和数据组织两个步骤。电子表格的数据抽取较为简单,只需要使用API(Application Programming Interface)将数据读取缓存即可。图像型表格的数据无法直接抽取,需要先将其转换为电子表格数据再完成数据抽取部分。数据组织则需要按照数据间的位置关系确定逻辑关系,在保持逻辑关系不变的前提下对数据进行处理,将其转换为符合数据库存储的结构化数据形式。为了将图像型表格数据重绘为电子表格数据,本文对表格图像的处理方法进行了设计。首先对图像进行倾斜校正,保证后续OCR(Optical Character Recognition)的识别效果;然后使用LSD(Line Segment Detector)算法检测表格中的直线特征,通过筛选确定表格框架的线特征信息;使用Harris算法获取图像型表格的角点特征,对结果进行聚类提高定位精度,基于线特性信息完成表格框架角点的剔除与提取;最后切分识别单元格图像,依据点、线及文字信息生成对应的电子表格。为了提高算法整体的抗干扰能力加入了边缘检测技术,对比检测效果后选定Canny算子为实验对象,针对其在实际应用中出现的问题进行了部分改进。在Python3.7.0环境下对改进算法进行了实验验证,结果表明本文算法对边缘的保护效果明显,图像处理的质量好,检测结果连接平滑,有效提高了边缘检测的效果,可以满足图像型表格的边缘检测需求。在电子表格数据结构化转换的过程中,把整体表格划分为索引区、标题区和数据区,通过Python提供的docx接口抽取各区内数据并记录数据间的逻辑关系,按照树形结构合并压缩标题区内容,遵循数据间的逻辑关系重新组织表格数据使之转换为结构化数据,将转换后的数据分别存储到XML文件和数据库中。测试结果表明,本文方法能够比较准确的完成图像型表格数据的特征信息提取,可以将图像型表格数据重绘为电子表格数据,电子表格数据可以进行结构化转换与存储。表格数据结构化转换的实现,为表格数据的有效利用奠定了良好基础。