关键词:
肿瘤
信息流行病学
互联网搜索引擎
百度指数
谷歌趋势
搜索行为
监测预警
摘要:
目的20世纪以来,由于工业化、城镇化的快速推进,以及人口老龄化的加剧,肿瘤等慢性非传染性疾病已成为威胁人类健康的一个重要公共卫生问题。2020年,全球新发肿瘤病例共计1929万例,因肿瘤死亡病例996万例,其中中国新发肿瘤及因肿瘤死亡人数位居全球第一。传统的、以人群为基础的肿瘤流行病学登记流程需要经过严格的收集、汇编、质量控制和报告的流程,相关的流行病学数据的公开报告通常存在3年的滞后性。随着大数据时代的来临,互联网及信息技术不断发展,并渗透到生产、生活的各个领域,网络世界越来越接近真实世界,使得基于互联网搜索引擎数据的疾病监测与预警成为可能。本研究以信息流行病学理论为基础,结合经典流行病学方法,以互联网搜索引擎数据、肿瘤的流行病学数据为来源,制定了肿瘤的互联网搜索策略及范式,探索了搜索数据的时空分布特征,以及映射中西方互联网用户特征、对多种肿瘤的搜索行为及搜索偏好,并最终构建了肿瘤的信息流行病学监测预警模型。为发现可以实时映射真实世界肿瘤发病率及死亡率的指标提供理论依据和数据支持,为制定肿瘤防控管理策略提供政策建议。方法本研究的搜索数据主要来源于百度及谷歌两大搜索引擎,疾病相关数据主要来源于全球疾病负担数据库、疾病预防控制中心。第一章构建互联网搜索引擎中肿瘤搜索策略及范式,主要涉及直接选词法、范围选词法及技术选词法。运用布尔运算(Boolean operation)确定搜索词的搜索范式。对各种肿瘤初步选定的搜索词进行多重共线性检验(multicollinearity test),以排除会引起共线性的搜索词,并确定最终纳入的搜索词。第二章分析互联网搜索引擎数据与真实的肿瘤发病及死亡率数据的相关性分析及肿瘤流行时空特征。通过斯皮尔曼等级相关(Spearman rank correlation)方法分析互联网搜索数据及肿瘤发病/死亡的相关性,并通过协整检验(cointegration test)判定相关性的稳定性。在上述分析的基础上,第三章首先应用时间序列分析的方法对搜索数据进行降噪处理,提取有效数据。最后,以多元线性回归模型、最小二乘法、时间序列法构建肿瘤的监测预警模型,拟合真实世界肿瘤的发病及死亡,并进行模型的验证。结果本研究共纳入28种肿瘤类型,包括:肺癌、肝癌、胃癌、食管癌、结直肠癌、胰腺癌、乳腺癌、脑癌及神经系统癌、宫颈癌、前列腺癌、鼻咽癌、膀胱癌、胆囊及胆管癌、口腔癌、卵巢癌、喉癌、肾癌、睾丸癌、子宫癌、甲状腺癌、多发性骨髓瘤、白血病、非霍奇金淋巴瘤、恶性黑色素瘤、霍奇金淋巴瘤、间皮瘤、基底细胞癌和鳞状细胞癌。本研究为每种类型的肿瘤制定相应的搜索策略,以搜索关键词为基础,拓展搜索相关词,形成最终的搜索范式。26种肿瘤的发病率和百度指数之间存在相关性(除鼻咽癌和子宫癌),均有统计学意义(P<0.01)。除胃癌、食管癌和睾丸癌的死亡率与百度指数之间不存在相关性,其他肿瘤的死亡率和百度指数的相关关系具有统计学意义(P<0.01)。白血病、子宫癌和霍奇金淋巴瘤的死亡率与百度指数之间呈负相关关系。在对百度指数值、发病率和死亡率数据进行对数转换后,三个时间序列数据在一阶差分后都是平稳的,且百度指数和发病率数据、死亡率数据在一阶差分的水平上,分别存在协整关系。在分析谷歌趋势数据与肿瘤数据时,呈现了相似的结果。在相关性分析的基础上,以肺癌为例,基于互联网搜索引擎数据构建了肺癌的发病和死亡预测模型,其拟合优度值R分别达到了0.97和0.95,说明利用搜索引擎数据可以较好地预测肺癌的发病和死亡趋势。结论随着互联网信息技术的飞速发展,搜索引擎数据可以映射真实世界中肿瘤的实际流行趋势。本研究制定的肿瘤互联网搜索策略及范式为后续研究提供了较好的数据预处理基础。搜索引擎数据与大多数肿瘤的发病率和死亡率之间存在相关性,表明了在肿瘤的流行病学数据通常滞后发布的情况下,通过实时监测互联网搜索数据,结合既有的肿瘤发病、死亡数据,可以对当前肿瘤的流行病学特征做出较准确的评估,并实现有效的趋势预测。本研究构建的肿瘤信息流行病学监测预警模型为及时充分的了解肿瘤疾病负担提供了可能,有助于改善公共卫生资源的配置,为肿瘤防控政策制定提供了科学依据。在利用互联网搜索引擎数据对肿瘤进行监测、预警及防控管理时,应当充分依托当前的政策环境,整合利用互联网多源大数据,分析互联网中肿瘤健康相关信息,推进公共卫生大数据的应用。根据实际情况制定因地制宜、因人而异的策略,实现肿瘤的公共卫生监测、健康干预实施及效果评价、智慧寻医方略优化等目标。