关键词:
非线性期望
φ-max-mean方法
随机最优控制
广义矩估计
回归模型
不平衡分类
摘要:
如何度量随机事件的不确定程度一直是概率统计领域的重要问题,Kolmogorov[42]在1933年建立的概率空间(Ω,F,P)成为一个重要的数学工具,并且广泛应用于金融数学、信息科学及交叉学科领域。然而,通过对实际数据的分析,概率模型P本身就带有不确定性,这种对概率模型的错误指定可能会使原有的经典方法失效,如何在模型不确定的情况下研究实际问题成为数学与交叉学科领域备受关注的问题。Peng[56]在2004年提出的非线性期望空间(Ω,H,ê)概念,为模型不确定性的度量和计算提出了全新的解决方案,其核心观点是假设模型中的随机变量服从一族分布,而不是确定的分布P,这种方法避免了因对分布的错误指定而造成的模型偏差。近十余年,随着非线性期望理论体系的不断成熟和完善,将其应用于实际问题的建模和求解成为该领域的一个重要研究方向。在非线性期望框架下,本文将非线性大数定律、最大分布以及G-正态分布等理论成果应用于解决数学与交叉学科领域中的实际问题。具体来说,本文的核心思想是通过非线性期望中的次线性期望概念,对分布不确定下的金融与模式识别领域中的热点问题建立更稳健的模型;通过对模型求解,得到与经典中相对应的结果;最后通过在真实数据集上的实验对比,来证实本文所提出方法的有效性。本文的创新性在于:利用非线性期望理论能克服模型的不确定性这一优势,在数据集分布不确定的情况下,分别研究了理性预期模型中参数的广义矩估计(GMM)和模式识别中的不平衡分类问题,得到了更加稳健、精准的估计预测方法,并在多个公开的数据集上验证了方法的有效性。在理性预期模型的参数估计问题上,多个股票指数上的假设检验结果显示,分布不确定下的理性预期模型要比经典的模型更加符合实际市场的特点;在不平衡分类问题上,多个数据集上的预测结果表明,本文提出的模型预测方法比很多经典算法更准确。总体来说,本文得到的结果将非线性期望理论的应用进一步拓展到交叉学科领域,验证了非线性期望的理论成果在解决实际问题时的有效性,并且为相关领域未来的研究提供了一种新的可能。具体的创新点包括:1.利用非线性期望,在分布不确定下刻画了一类理性预期模型,并用广义矩方法(GMM)对模型达到最优时的正交矩条件进行了假设检验。通过与经典模型的检验结果对比,验证了通过非线性期望研究此类问题的有效性;2.考虑了实际样本的分布不确定性,针对不平衡的二分类问题提出了两种分类方法,并在10个公开的数据集上进行了实验。实验结果表明,两种新提出的分类方法比大部分经典的分类算法更为精准;3.在时间序列的早期分类问题中,通过次线性期望理论,为一类经典的早期时序分类器引入了均值不确定性,进而提出了两种改进算法。通过在13个公开数据集上的实验对比,改进后的算法在早期性与准确率两个指标上均优于经典算法。文章中各章节的主要内容如下:第1章为绪论部分,主要介绍了本文的研究背景、研究内容以及创新点。第2章为预备知识部分,为了让读者能更好的理解本文,这一章对本文所涉及的非线性期望理论和相关应用领域的发展做了基础性的介绍和回顾。第3章研究的是分布不确定下的动态理性预期模型,并通过广义矩方法(GMM)得到了模型的参数估计与拒绝概率。在这个问题中,我们利用非线性期望来刻画消费的预期效用,并根据投资代理人对收益与风险的态度,在两种边界情况下分别讨论了参数估计问题,给出了实际问题中利用广义矩方法(GMM)进行模型检验的步骤。最后在三个真实的股票指数上比较了两种模型与经典模型的假设检验结果,结果显示非线性期望框架中的两种模型拒绝概率更低,更符合实际市场的特点。第4章在分布不确定下,研究了类别不平衡的分类问题,即当某类样本数相对较少时的类别预测问题。基于次线性期望理论中的G-正态分布和最大分布,我们为经典回归模型中的误差项引入了波动率不确定性和均值不确定性,并相应地提出了波动率不确定和均值不确定方法。具体做法是通过最小化最差情况下的训练误差,得到均值和波动率不确定性的估计量,用于修正经典的回归估计。我们在类别不平衡的模拟数据集和10个真实数据集上进行了实验,通过比较均值不确定方法、波动率不确定方法和其他21种经典的不平衡分类方法在各评价指标上的表现,验证了两种分布不确定的方法在不平衡分类中的有效性。第5章在第4章的基础上,将均值不确定方法应用于时间序列的早期分类中(如疾病的早期诊断)。将均值不确定方法与早期时序分类中经典的Teaser模型结合,提出了两种加强型Teaser算法,避免了因样本分布的错误指定而造成的预测偏差,使之更适应不平衡分类的场景。通过在13个公开数据集上的实验对比,结果显示改进后的算法在准确率指标上优于经典的早期时序分类方法,同时停止观测的时间(诊断时间)也位于前列。第6章对全文给出了总结,并给出了未来的工作方向。