关键词:
文本型数据
数据整理
结构化变量
摘要:
健康体检机构对于创建健康医疗大数据有得天独厚的数据优势,但是健康体检系统在采集受检者体征信息的过程中会产生大量文本型数据,可通过进行结构化处理从而将大段文本型数据拆分转化为数值型对照码的形式分别进行存储,以方便进行查询统计和创建科研队列.通过创建标准结论词和规范化录入阳性体征描述内容等方法,将文本内容结构化理念植入健康体检系统的设计当中,同时运用正则匹配、智能分段、文字替换、截取片段等技术手段,对历史数据进行结构化处理实现对文本型数据的挖掘整理,最终形成研究性数据源并纳入大数据研究.以上述方法对北京市体检中心为例通过文本结构化处理新生成近万条变量,为后续创建研究性队列提供了良好的数据基础.随着各体检机构信息化建设的不断发展和完善,文本型数据结构化处理的技术方法日趋成熟,从海量的文本型数据中提取出有价值的信息进行科研创新,从而推动健康体检机构职能由目前单一的指标采集向健康管理职能转型,将成为体检机构未来发展的重要工作.