关键词:
信息抽取
正则表达式
竹种数据
数据结构化
摘要:
研究旨在通过基于规则的信息抽取技术解决竹类种质资源(简称竹种)数据的自动提取和结构化存储问题,为快速构建竹种数据库提出一种基于正则抽取模型的竹种数据结构化方法。该方法以竹种数据库表结构为抽取模板,以数据表属性名称为规则触发词,利用正则表达式构建抽取规则,构建正则抽取模型。以中国植物志在线版为实验对象,通过网页解析和字段抽取两步实现了竹种数据的自动抽取与结构化,实验抽取竹种信息五百多条,取数据表前八个字段进行抽样统计分析,抽取竹种有效字段信息准确率高达89%以上。实验结果表明,基于正则抽取的竹种数据结构化方法是可行有效的,并采用Java语言开发了竹种信息抽取系统,实现了该方法。