关键词:
分位数回归
模型检验
充分降维
中心分位子空间
模型自适应性
核光滑
随机缺失
摘要:
随着计算机性能和通信技术的快速发展,我们在工业生产、生物医学及现代计量经济学等诸多领域都会遇到各种各样复杂且高维的数据.为了挖掘潜藏在数据背后的信息,比如研究某些因素对我们感兴趣变量的影响,我们常常会借助各种回归模型建立起相关因素之间的桥梁,然后基于假定的模型去做相应的统计推断.为了便于解释相关模型的分析结果,所假定的模型需要尽量简单,这往往需要大量先验知识的参与.如果人们怀疑最初假定的模型,抑或是原始的模型假定本身就是错误的,那么基于这样的模型得出的统计推断结果往往很难令人信服,所以有必要在做深入的统计推断前先对假定的现有模型做出合理的检验.参数分位数回归模型常用于给定协变量X后估计响应变量Y的条件分位数.与经典的均值回归模型相比,分位数回归对误差的分布要求较弱,并能在不同的分位数水平下提供响应的条件分布信息,这极大地加深了对数据的理解程度,从而促使了分位数模型的广泛应用.目前,已有大量文献研究了均值回归下的模型检验问题.然而,很难将这些方法直接扩展到分位数回归模型.因为在分位回归框架下,将不再是基于模型的残差构建相应的检验统计量,而是基于分位回归损失函数的次梯度函数做相应的检验.后面的理论分析将会看到,因这一点改变所带来的分析上的困难.同时,研究如何在高维数据下增强检验的功效,减少高维数据稀疏性对检验带来的负面影响也非常具有实用价值.此外,很少有学者研究缺失数据下高维分位数回归模型的检验问题.本文将针对这些问题展开相关研究.下面简要介绍本论文各部分的主要内容.本论文的第一章是引言,包括一些背景知识.首先,我们简要回顾了模型检验的一般方法,介绍了完全观测数据及响应变量随机缺失下分位数回归模型检验的研究现状.然后介绍了分位回归模型及其相关的系数估计方法.最后,考虑到充分降维方法对本文所提检验方法的重要性,我们介绍了几种易于使用的模型降维方法.特别地,对响应变量随机缺失时的完全情形辅助恢复(complete case assisted recovery,CCAR)方法进行了详细地介绍.本论文的第二章基于核光滑方法构建了用于参数单指标分位数回归的模型检验方法.为解决多元非参数估计中的维数灾难问题,充分利用模型所携带的降维信息,我们采用适用于分位数模型的充分降维技术来识别相应的降维子空间,并在该子空间中构造检验统计量.用这种方法构造的检验统计量类似于只包含一维协变量的局部光滑方法.在不同的分位数水平下,所提检验对全局备择假设是相合的,并能以较快的速度检测出不同于原模型的局部备择模型,而现有的局部光滑方法只有在协变量是单变量时才能实现.采用wild bootstrap方法近似检验的临界值,通过数值模拟和实际数据应用验证了所提方法的有效性.本论文的第三章研究了响应变量随机缺失时参数单指标分位回归模型的模型检验问题.采用缺失数据下的分位回归系数估计方法对模型中的系数进行估计.同时针对响应变量随机缺失的多维分位回归模型,提出了计算中心分位子空间的算法.基于中心分位回归子空间,构造了两个适用于响应变量随机缺失的模型自适应检验统计量,从而避免了维数灾难问题.在原假设和局部备择假设下,得到了检验统计量的渐近性质.结果表明,所提方法是相合的,并且能够检测到以Θ(n-1/2h-1/4)(Θ为表示同阶收敛速度的符号)的速度接近原模型的局部备择模型.借助wild bootstrap对检验的临界值进行校准,并给出了其渐近性质.随机模拟表明,在多维甚至高维协变量的情况下,所提方法在保持检验的水平和功效方面均优于现有的方法.对ACTG Protocol 175数据集进行分析,展示了检验方法的应用.在最后一部分,对本文的研究成果和结论进行了总结,并指出了今后的研究方向.本文关注参数单指标分位回归模型的模型检验问题,主要创新点如下:第一,在完全观测样本下,结合数据自身携带的降维结构,构建了能够自动适应不同模型的检验统计量,避免了高维数据中因局部光滑带来的维数灾难问题.同时,得出了所提检验统计量的极限零分布,并能快速检测出与原假设不同的局部备择假设.第二,当响应变量随机缺失时,给出了计算中心分位子空间的算法,研究了其大样本性质.基于缺失数据下的中心分位子空间,构建了两个适用于响应随机缺失的模型检验统计量,得到了它们在不同假设下的极限分布.第三,不同于均值回归背景下的模型检验方法,当观测数据中包含异常值或误差项不满足同分布假设时,本文中的检验统计量在检验的水平和功效方面仍具有良好的性能,随机模拟也验证了所提方法的稳健性.