深度学习在金融最优停止问题中的应用:从传统对偶方法到DeepMartingale模型的演进与评述

最优停止问题是金融工程的核心议题之一,尤其在美式或百慕大期权定价等场景中至关重要。然而,传统数值方法在处理高维问题时普遍遭遇“维度灾难”的瓶颈。本文旨在系统性地梳理并评述为解决这一挑战而发展的各类方法,追溯其从传统原问题与对偶方法,到现代深度学习解决方案的演进路径。在此背景下,本文重点剖析了DeepMartingale这一前沿方法的理论创新与实践价值。DeepMartingale作为一种基于鞅表示理论的“纯对偶”深度学习框架,首次为离散监控、连续时间下的最优停止对偶问题提供了严格的收敛性与可表达性理论保证,从数学上证明了对偶方法能够克服维度灾难。实证分析表明,该方法在稳定性、准确性和高维适用性方面均表现卓越,为计算金融领域的高维挑战提供了一个理论完备且性能强大的新范式。


--------------------------------------------------------------------------------

1. 引言

在金融工程领域,最优停止问题(Optimal Stopping Problems)无处不在,其最典型的应用便是美式或百慕大期权的定价。解决此类问题通常存在两种互补的基本视角:原问题方法(primal approach)与对偶方法(dual approach)。原问题方法旨在直接求解最优的停止策略,从而得到价值函数的下界;而对偶方法则通过构造一个上界来间接逼近真实价值。

然而,当问题的状态空间维度增加时,几乎所有传统的数值方法都面临着一个共同的、难以逾越的障碍——“维度灾难”(curse of dimensionality)。无论是基于最小二乘蒙特卡洛模拟的原问题方法,还是依赖嵌套模拟的对偶方法,其计算复杂度和不稳定性都会随着维度的增加呈指数级增长,导致在高维场景下几乎不可行。

近年来,深度神经网络(DNNs)凭借其强大的高维函数逼近能力,为攻克这一难题带来了新的曙光。本文的目的在于系统性地梳理并评述为克服维度灾难而发展的各类方法。我们将重点分析从传统求解框架到深度学习应用的范式转移,并最终聚焦于DeepMartingale这一前沿方法。我们将深入剖析其理论创新,特别是在对偶问题的可表达性理论上的突破,以及其作为一种“纯对偶”方法的实践价值,从而为理解和应用该领域的最新进展提供一个清晰的路线图。

2. 最优停止问题的传统求解框架

在深度学习被广泛应用之前,学术界和业界已经发展出多种主流的数值方法来解决最优停止问题。将这些方法划分为“原问题”和“对偶”两类,有助于我们更好地理解它们各自的优势、根本局限性,以及它们如何共同推动了对更优解决方案的探索。

2.1 原问题方法及其局限性

原问题方法的核心逻辑是直接从可行控制集中推导出最优的停止策略。其产生的数值解通常从下方逼近真实的价值函数,即提供一个价值下界。文献中广泛探讨的代表性算法包括最小二乘蒙特卡洛模拟法(Longstaff and Schwartz 2001)和策略迭代法。

然而,此类方法存在一个核心缺陷:其性能严重依赖于基函数(basis functions)的选择。随着问题状态空间维度的增加,为了有效捕捉高维空间中的复杂关系,所需基函数的复杂度呈指数级增长。这直接导致了在高维场景下的**“维度灾难”“基函数指数级增长”**问题,使得算法的计算变得不稳定甚至不可行。原问题方法的这一根本局限性,促使研究者们转向对偶视角,以寻求新的解决方案。

2.2 对偶方法及其挑战

与原问题方法相反,对偶方法通过寻找一个最优的鞅过程来构造价值函数的上界,从而间接解决最优停止问题。这种方法不仅提供了价值的上界,还关联着相应的对冲策略。

早期对偶方法的发展,如Andersen and Broadie (2004)提出的方法,常依赖于计算成本高昂的嵌套蒙特卡洛模拟。随后的研究致力于避免嵌套模拟以提升效率。其中,Rogers (2010)提出的“纯对偶方法”(pure dual approach)尤为引人注目,因为它在计算上界时不依赖于对Snell包络的精确逼近,增强了方法的独立性。

尽管对偶方法为最优停止问题提供了宝贵的价值上界和不同的求解视角,但现有的传统对偶计算方法均未能从根本上解决高维环境下的维度问题。无论是原问题还是对偶问题,传统数值框架共同面临的瓶颈,为深度学习的应用创造了历史性的契机。

3. 深度学习方法的兴起与应用

深度神经网络(DNNs)因其在逼近高维复杂函数方面的卓越能力,为解决金融领域(包括最优停止问题)中的高维挑战带来了新的曙光。本章节将回顾DNNs如何被应用于最优停止问题的原问题和对偶问题,并揭示在DeepMartingale方法出现之前,该领域存在的关键理论空白。

3.1 基于深度神经网络的原问题求解

深度学习在原问题求解中的核心作用,是通过神经网络来替代传统方法中手工选择的基函数,用以近似最优停止策略或延期价值。Becker等人(2019, 2020)的开创性工作是这一方向的典型代表,他们成功地使用神经网络来推导近似的停止策略。

在理论层面,Gonon(2024)为离散时间模型下的深度原问题方法提供了可表达性(expressivity)的理论保证,证明了这类方法在理论上具备克服维度灾难的潜力。然而,既有研究仍存在局限性。特别是在处理金融实践中更为常见的“离散监控下的连续时间过程”,以及为对偶问题提供同样严格的可表达性理论保证方面,仍然存在明显的理论空白。虽然原问题方法的研究取得了显著进展,但对偶问题的理论保证仍然缺失。

3.2 对偶问题中的深度学习探索

为了获得价值函数的紧致上下界,已有研究开始探索将神经网络同时应用于原问题和对偶问题。例如,Guo等人(2025)提出了一种基于神经网络的方法,旨在同时求解原问题和对偶问题。

然而,这些 primal-dual 方法存在一个核心局限性:尽管它们的数值结果表现良好,但其理论上的可表达性保证仅限于原问题部分。对偶问题能否同样通过深度神经网络有效克服维度灾难,在理论上仍是一个**“未解之谜”**。缺乏对偶问题的理论保证,意味着我们无法确保所计算出的上界的紧致性和有效性。这构成了该领域在DeepMartingale方法出现前所面临的一个关键挑战,也正是DeepMartingale诞生的初衷——填补这一关键的理论空白。

4. DeepMartingale:一种具备可表达性理论的对偶新范式

DeepMartingale的提出,正是为了解决前述对偶问题中存在的理论空白,标志着一项突破性的进展。本章节将深入剖析DeepMartingale方法的核心思想、其最重要的理论贡献——即可表达性理论,以及其技术架构,从而阐明它如何为高维最优停止问题的对偶求解提供了一个全新的、理论完备的框架。

4.1 核心思想与理论框架

DeepMartingale是一种利用鞅表示理论和深度学习来研究离散监控、连续时间下的最优停止对偶问题的新方法。其核心是构造一个紧致的价值函数上界。

该方法一个显著的特点是其“纯对偶”特性。这意味着它在计算上界时,完全不依赖原问题的任何信息(例如原问题价值函数的近似解)。这一思想与Rogers (2010)的纯对偶精神一脉相承,使得该方法在实践中具有更强的鲁棒性,因为其结果不会受到原问题求解精度的影响。

DeepMartingale的主要贡献可以总结为以下三点:

  1. 理论完备性:首次为金融实践中常见的“离散监控下的连续时间过程”这一复杂设定下的对偶问题,提供了严格的收敛性理论保证,适用于任意精度的离散监控频率。
  2. 可表达性证明:首次从理论上证明了对偶方法可以克服维度灾难,为深度学习在该领域的应用提供了坚实的数学基础。
  3. 纯对偶实现:提供了一个完全不依赖原问题信息的DNN算法,增强了方法的独立性和可靠性。

4.2 破解“维度灾难”:可表达性理论的关键贡献

“可表达性”(Expressivity)理论是DeepMartingale最重要的理论贡献。在本研究的语境下,它指的是存在一个规模适度的神经网络,能够以任意预设的精度ε来逼近真实的价值函数。这里的关键在于,网络的规模(即参数数量)是维度D和精度ε多项式函数,而非指数函数。

这一结论可以用以下核心理论结果来表示: size ≤ c * D^q * ε^-r

在这个公式中,常数 c, q, r 均与维度D无关。这一多项式边界是该方法能够克服维度灾难的数学核心,它确保了即使在维度D变得非常大时,问题在计算上仍然是 tractable (可处理的),避免了传统方法中计算资源需求的失控增长。

需要指出的是,该理论的成立依赖于一些结构化条件,例如随机过程需为增长率和Lipschitz率有特定约束的Itô过程,特别是广泛应用的仿射Itô过程(Affine Itô Diffusion)。

4.3 技术架构与实现简介

DeepMartingale的技术实现建立在Doob鞅分解、鞅表示定理和倒向递推公式之上。其核心技术步骤可以流程化地描述如下:

  1. 近似随机积分:首先,通过一个数值积分方案来近似Doob鞅表示中的核心随机积分项。
  2. 构建神经网络:然后,构建一个特定结构的深度神经网络(DNN),用于学习和逼近该积分方案中的被积过程(integrand process Z*)。
  3. 倒向优化训练:最后,通过解决一个倒向最小化问题来迭代训练网络参数,最终得到价值函数的紧致上界。

5. 实证分析与性能评估

本章节旨在通过一系列数值实验来验证DeepMartingale的实际性能。实验不仅是为了展示其计算结果,更是为了从稳定性、准确性高维适用性三个维度,将其与领域内其他主流方法进行对比,从而为第四章提出的理论优势提供坚实的经验证据。

5.1 实验设计与基准方法

实验场景选择了金融领域中经典的测试案例,包括百慕大最大看涨期权(Bermudan max-call,含对称与非对称波动率两种情况)和百慕大一篮子看跌期权(Bermudan basket-put)。

为了全面评估性能,DeepMartingale (𝑈𝐷𝑀)与以下两种代表性的基准方法进行了对比:

方法类别代表算法缩写
纯对偶DNN法 (本文提出)DeepMartingale𝑈𝐷𝑀
原问题DNN法Becker等人(2019)的深度最优停止法𝐿𝐵𝐾
对偶回归法Schoenmakers等人(2013)的对偶回归法𝑈𝑆𝐶

5.2 关键发现:稳定性、准确性与高维适用性

数值实验的结果被提炼为以下三个核心论点:

  • 优越的稳定性:实验数据显示,与原问题深度最优停止方法(𝐿𝐵𝐾)相比,DeepMartingale(𝑈𝐷𝑀)计算出的期权价值标准差(̂𝜎𝐷𝑀 vs ̂𝜎𝐵𝐾)显著更小。例如,在D=50的非对称最大看涨期权测试中,DeepMartingale的标准差(71.561)几乎精确地是原问题深度最优停止法(144.329)的一半,这凸显了其在极高维和不规则设定下的稳健性。这种卓越的稳定性可以被认为是其“纯对偶”特性的直接体现:由于上界的计算完全独立于原问题的解,DeepMartingale避免了因原问题近似不佳而引入的误差和不稳定性,从而保证了更可靠的学习过程。
  • 更高的准确性:与传统的对偶回归方法(𝑈𝑆𝐶)相比,DeepMartingale得到的上界更接近参考价值,即偏差(bias)更小。在低维情况下(如D=2, s0=90),𝑈𝐷𝑀的相对误差(约0.42%)显著低于𝑈𝑆𝐶(约0.87%),证明其能提供更紧致的上界。更小的标准差,加上𝑈𝑆𝐶中更大的偏差,意味着传统的对偶回归法几乎无法提升其向真实价值的收敛速度。
  • 卓越的高维适用性:该方法最引人注目的优势体现在高维问题上。在处理维度D=20D=50的复杂问题时,DeepMartingale依然能够稳定、高效地收敛。相比之下,传统的对偶回归法则因基函数数量爆炸问题,在限定的计算时间(如1小时)内无法收敛。传统对偶回归法因基函数指数级增长而在高维失效,这在实践层面反向印证了DeepMartingale的可表达性理论——即其网络规模与维度呈多项式而非指数关系——是其能够成功破解‘维度灾难’的根本原因。

综上所述,实证分析结果与DeepMartingale的理论优势高度一致,展示了其作为一个先进解决方案的强大潜力。

6. 结论与展望

本文系统地回顾了金融最优停止问题的求解方法,从传统数值框架的局限性出发,重点阐述了深度学习带来的范式革命。我们详细剖析了DeepMartingale模型,它作为首个为最优停止对偶问题提供严格可表达性理论的深度学习框架,具有里程碑式的意义。其理论上的完备性、作为纯对偶方法的实践优势,以及在实证分析中展现出的卓越性能,共同证明了它在解决高维金融问题上的巨大潜力。

基于这项工作,未来有几个充满希望的研究方向:

  1. 扩展可表达性框架:当前理论分析建立在特定的结构化条件下,未来的研究可致力于将此框架扩展到更一般化的随机模型,以覆盖更广泛的应用场景。
  2. 应用于更复杂的问题:DeepMartingale的理论基础使其能够自然地推广至多重停止问题和反射倒向随机微分方程(RBSDEs)等更复杂的金融问题。
  3. 探索其他鞅表示模型:该方法的核心在于鞅表示,这为将其应用于基于Lévy过程等更高级随机模型的定价问题开辟了道路。

总而言之,DeepMartingale为离散监控、高频观测下的最优停止问题提供了一个理论坚实、性能优越的深度学习解决方案。它不仅在理论上填补了重要空白,也在实践中展现了解决复杂问题的能力,预示着其在金融工程、运营管理等领域的广阔应用前景。