RegimeNAS: 具有理论保障的面向金融交易的体制感知可微架构搜索

RegimeNAS: 具有理论保障的面向金融交易的体制感知可微架构搜索

摘要

在加密货币交易等高度动态的金融环境中,静态深度学习模型的应用面临着严峻挑战,其根源在于市场的高波动性与频繁的体制切换。为应对这一挑战,我们引入了RegimeNAS,一个专为金融交易设计的、新颖的可微神经架构搜索框架。RegimeNAS的核心在于其三大创新:(1) 一个具有可证明收敛特性的、理论基础坚实的贝叶斯搜索空间,用于优化架构;(2) 一系列专为不同市场条件(如波动、趋势、盘整)设计的、可被动态激活的神经模块;以及 (3) 一个集成了市场特有惩罚项(如波动率匹配、平滑过渡)和数学上强制执行的Lipschitz稳定性约束的多目标损失函数。通过在广泛的真实世界加密货币数据上进行严格的实证评估,RegimeNAS展现了卓越的性能。与性能最佳的传统循环基线模型(GRU)相比,其平均绝对误差(MAE)降低了80.3%,同时收敛速度显著提升,仅需9个周期。消融研究和体制特定分析(regime-specific analysis)进一步证实了框架中各组件,特别是体制感知自适应机制的关键贡献。本研究强调了将领域知识(如市场体制)直接嵌入神经架构搜索过程的必要性,为开发适用于复杂金融应用的鲁棒自适应模型提供了重要参考。

1. 引言

加密货币市场因其高波动性、复杂的非线性动态以及在不同市场体制(例如,趋势市、盘整市、高波动市)之间的快速切换,对预测模型构成了独特的挑战 [1]。尽管深度学习方法已展现出巨大潜力 [2],但标准方法(如长短期记忆网络LSTMs、Transformers)通常采用静态架构,这限制了它们适应市场状况突变的能力 [3]。一个为特定体制优化的模型在另一体制下可能会表现不佳,从而阻碍了其在实际应用中的稳健部署。现有方法往往未能充分考虑体制转换和复杂的时间依赖性 [4]。尽管LSTMs、Transformers、KANs或N-BEATS等先进架构 [2], [5]–[7] 改进了序列建模能力,但它们固定的结构在应对全部市场行为时并非最优,且手动设计过程依然复杂。

为了克服这些局限,我们提出了RegimeNAS,一个专为加密货币交易设计的、新颖的可微神经架构搜索(Neural Architecture Search, NAS)框架。RegimeNAS通过将市场体制感知能力直接融入架构的搜索与选择过程,旨在解决上述问题。其主要贡献可概括如下:

* 体制感知的贝叶斯搜索: 采用一种原则性的贝叶斯优化方法 [8], [9],利用检测到的市场体制来指导搜索过程,以发现针对特定状态的最优架构,并具备理论上的收敛特性。
* 专用的动态模块: 设计了定制化的波动模块(Volatility Blocks)、趋势模块(Trend Blocks)和盘整模块(Range Blocks),它们专为特定的市场动态而生,并可根据实时的体制识别结果进行动态加权或选择。
* 增强的体制检测: 采用先进的多头注意力机制,处理多时间框架的特征,以实现准确的状态识别和不确定性量化,从而为NAS过程提供信息。
* 多目标金融损失函数: 构建了一个量身定制的损失函数,该函数不仅整合了市场特有的惩罚项(如波动率偏差、过渡平滑性),还通过自适应Lipschitz正则化来增强稳定性。
* 稳定性保障: 提供了理论保障,确保模型在体制和架构转换期间输出稳定,这对于实时交易至关重要。

在历史加密货币数据上进行的大量实验证明了RegimeNAS的有效性。相较于强大的基准模型,RegimeNAS发现的最佳架构不仅在平均绝对误差(MAE)上比最佳传统循环模型(GRU)降低了80.3%,而且实现了更高的预测准确性(R² > 0.993)和更快的收敛速度(最终训练仅需9个周期,而基线模型则需50-100+个周期)。RegimeNAS代表了金融机器学习领域向自适应智能系统迈出的一步。通过将可微NAS与领域知识、专用模块和理论严谨性相结合,我们实现了最先进的性能和效率,为在动态环境中进行自适应建模提供了蓝图。

2. 相关工作

本节将从三个关键领域——神经架构搜索(NAS)、金融时间序列分析和市场体制检测——回顾现有研究,并分析它们各自的局限性,从而凸显RegimeNAS的创新之处。

2.1 神经架构搜索 (Neural Architecture Search - NAS)

神经架构搜索(NAS)旨在自动化神经网络这一通常耗时费力的设计过程 [10], [11]。它系统性地探索一个预定义的网络结构与操作空间,以期发现针对特定任务的最优架构。可微NAS(DARTS)[12] 和基于贝叶斯优化的NAS(BO-NAS)[8], [9] 等方法相较于早期方法提升了搜索效率。然而,标准NAS方法的一个核心局限性在于其“静态假设”:即为给定数据集寻找单一的最佳固定架构 [13]。这一假设完全不适用于以非平稳性和体制切换为特征的动态金融市场 [3]。RegimeNAS通过嵌入体制感知能力来应对这一问题,它搜索的是一个能将市场状态映射到相应架构的自适应策略。尽管已有相关的动态NAS工作 [3], [14],但RegimeNAS凭借其对金融体制的专注、专用的神经模块、不确定性整合、金融领域的损失函数以及稳定性保障而独树一帜。

2.2 金融时间序列分析 (Financial Time Series Analysis)

深度学习是金融时间序列分析的核心。LSTMs、GRUs [2]、Transformers [5] 和 ConvLSTMs [15] 等模型是序列建模的标准工具。近期的创新如N-BEATS [7]、D-PAD [16] 和 KANs [6] 分别在可解释性、概率性预测或可学习激活函数方面提供了新的思路。梯度提升方法(如XGBoost [17])也依然保持竞争力。尽管这些模型功能强大,但它们绝大多数采用固定架构。它们缺乏根据检测到的市场体制变化来动态调整自身结构的内在机制,而这正是RegimeNAS的核心能力。

2.3 市场体制检测 (Market Regime Detection)

识别市场体制(如趋势状态、波动状态)对于制定自适应策略至关重要 [18], [19]。传统方法包括隐马尔可夫模型(HMMs)或基于指标的阈值法 [4],但这些方法对于加密货币市场可能反应过慢或过于简单。机器学习/深度学习方法已被用于分类任务 [20], [21],但通常将检测视为一个独立的上游任务,其结果被输入到一个固定的下游模型中。这种松散的耦合限制了模型的适应潜力。RegimeNAS的优势在于,它将基于多时间框架注意力的体制检测紧密地集成到NAS循环中,实现了对架构搜索的实时条件引导,并能够动态激活专用的神经组件。

正是对上述领域局限性的深刻理解,才催生了RegimeNAS的综合性设计。

3. 方法论

RegimeNAS架构的核心设计原则是动态的、体制感知的架构自适应。它集成了四个关键模块,如图1所示:数据处理与特征工程、基于多时间框架注意力的体制检测、一个包含专用神经模块并由贝叶斯优化搜索的搜索空间,以及一个融合了金融领域知识和稳定性约束的多目标损失函数。

图1: RegimeNAS系统架构:市场数据首先经过特征工程和多时间框架体制检测。体制概率通过门控机制激活专用的模块(波动、趋势、盘整)。贝叶斯NAS基于一个整合了预测误差、市场惩罚和稳定性约束的多目标损失函数来优化架构(连接、单元类型、超参数)。

3.1 数据集与特征工程

我们使用了从CoinMarketCap获取的超过20种主要加密货币(如比特币、以太坊)的日度OHLCV(开盘价、最高价、最低价、收盘价、交易量)数据,时间范围为2013年1月1日至2021年12月31日。数据集按时间顺序划分为训练集(70%)、验证集(15%)和测试集(15%)。为了处理非平稳性,原始数据经过了自适应归一化处理(例如,滚动Z-scores)。特征工程旨在捕捉不同时间跨度上的相关市场动态:

* 价格与交易量特征: 对数回报率、OHLC价格变换(如高低价差)、交易量变化。
* 多时间框架技术指标: 移动平均线(SMA, EMA:7、14、30天)、MACD、RSI、布林带、平均真实波幅(ATR),以捕捉趋势、动量和波动信号。
* 市场背景特征: 已实现波动率(在滚动窗口上计算)。

3.2 基于多头注意力的体制检测

准确及时的体制识别对于动态自适应至关重要。我们采用多头自注意力机制 [5] 对多时间框架输入特征进行操作,以学习指示不同市场状态(例如,趋势、盘整、高波动)的复杂时间依赖性。

给定截至时间t的输入特征Xt,注意力模块计算查询(Q)、键(K)和值(V)表示:

Q = XtWQ (1) K = XtWK (2) V = XtWV (3)

其中WQ, WK, WV是可学习的投影矩阵。然后为每个头计算缩放点积注意力,并最终通过一个全连接层和softmax函数生成体制概率:

head_h = softmax((Q_h * K_h^T) / sqrt(d_k) + M) * V_h (4) At = Concat(head_1, ..., head_H) * WO (5) p(rt|Xt) = softmax(Linear(Pool(At))) (6)

这些概率p(rt)将作为动态架构自适应模块的条件信号。

不确定性量化

为了评估体制检测的置信度,我们基于各注意力头输出的一致性来估计不确定性。我们计算由单个头产生的概率分布的方差或熵。这个不确定性分数将用于调节贝叶斯NAS搜索中的探索参数βt。

3.3 通过门控机制实现动态架构自适应

该框架根据体制检测模块输出的概率p(rt),通过一个可微的门控机制来动态组合或选择专用模块。该门控通常实现为一个小型多层感知机(MLP),它以p(rt)为输入,为每种类型的模块计算权重:

gt = [gV, gT, gR]t = Softmax(MLP(p(rt))) (8)

自适应层的最终输出是各个模块输出的加权和:

Output_t = gV,t · V-Block(xt) + gT,t · T-Block(xt) + gR,t · R-Block(xt) (9)

架构搜索不仅优化每个模块的内部结构,还优化门控网络以及模块间互连的结构与参数。

3.4 贝叶斯架构搜索

我们采用带高斯过程(GPs)的贝叶斯优化(BO)来高效地探索复杂的架构搜索空间。BO流程包含以下核心要素:

* 搜索空间定义 (A): 搜索空间涵盖了多种选择,包括:基础循环单元类型(RNN, GRU, LSTM)、隐藏层维度(如64, 128, 256)、层数、Dropout率、激活函数、专用模块的特定参数以及层与模块间的连接模式。
* 高斯过程代理模型: 一个高斯过程用于建模架构α与其验证性能f(α)(如负验证损失)之间的关系。
* 采集函数: 采用上置信界(UCB)采集函数来决定下一个待评估的架构。UCB的定义为 a(α) = µ(α) + βtσ(α)。其探索-利用权衡参数βt与体制检测的不确定性自适应地关联。此机制创建了一个智能反馈回路,当模型对当前市场状态不确定时,会强制NAS过程变得更具探索性和谨慎性,从而防止基于模糊信号的过度自信专业化。

3.5 针对市场动态的专用神经模块

RegimeNAS的核心是专用神经模块的概念,它们是支持稳定性保障的基础。

波动模块 (V-Blocks)

为高波动时期优化,旨在捕捉剧烈的价格波动。其设计包括:

* 波动率门控循环: 循环单元的门激活函数(如更新门、重置门)受近期市场波动率σt的显式调节。
* 自适应激活函数: 激活函数的参数(如斜率)根据σt动态调整,使模块的非线性度能适应当前波动水平。
* 交易量敏感连接: 引入由交易量调节强度的跳跃连接,以在高交易量时放大信号。

趋势模块 (T-Blocks)

为识别并外推趋势性市场运动而设计。其设计包括:

* 多尺度时间卷积: 并行使用具有不同核大小和扩张率的1D卷积层,以同时捕捉不同时间跨度上的趋势模式。
* 自适应池化/动量: 实施自适应池化层或学习型指数移动平均等机制,以强调与已识别趋势方向一致的近期数据点。

盘整模块 (R-Blocks)

为检测和利用区间震荡市场中的均值回归行为而优化。其设计包括:

* 均值回归注意力或可学习的振荡器: 采用注意力机制,将当前特征与动态估计的区间“均值”进行比较,或集成类似振荡器的可学习组件。

总而言之,这些专用模块将搜索空间从一组通用的层转变为一个专家模块的组合,使得NAS过程能够构建一个“专家委员会”,而非单一的“通才”模型。

3.6 多目标损失函数

为了指导NAS过程找到金融领域真正适用的解决方案,我们采用了一个多目标损失函数L_total:

L_pred = MSE(y, ŷ) (10) L_vol = |Var(ŷ_window) - Var(y_window)| (11) L_reg = ||fα(xt|W) - fα(xt-1|W)||^2 (12) L_stable = λ_Lip · R_Lipschitz(fα) (13) L_total = wp*L_pred + wv*L_vol + wr*L_reg + ws*L_stable (14)

其组成部分包括:

* L_pred: 标准的预测准确性,以均方误差(MSE)衡量。
* L_vol: 鼓励预测波动率与近期窗口内的实际波动率相匹配。
* L_reg: 惩罚连续预测之间的过度波动,以促进输出平滑。
* L_stable: 基于网络Lipschitz常数的正则化项。该项是第4.2节中描述的Lipschitz连续性理论保障的实践执行机制,用以增强稳定性。

这些精心设计的方法论组件共同构成了RegimeNAS的强大性能,并引出下一节关于其稳定性保障的深入讨论。

4. 稳定性保障与实现

稳定性在金融建模系统中至关重要,它能防止模型产生不稳定的预测,并确保其在市场压力下的鲁棒性。RegimeNAS通过结合理论概念与实践机制来确保模型的稳定性。

4.1 金融NAS稳定性的挑战

在金融领域设计稳定自适应架构面临两个具体障碍:

1. 重尾分布: 加密货币回报呈现出“肥尾”特性,即极端离群值的出现概率高于正态分布,这可能导致巨大的梯度和不稳定的训练动态。在自适应架构中,这个问题被进一步放大,因为激活组件的突然切换可能会放大离群值的影响,恰恰在最需要稳定性的时候导致不稳定的预测。
2. 体制转换动态: 市场体制的突然转变可能导致模型激活的组件发生变化,从而引起模型输出的人为跳变。确保在这些转换期间平滑过渡至关重要。

4.2 理论保障

我们通过数学约束来追求稳定性。

定理1 (BO搜索的收敛性): 在标准贝叶斯优化假设下(如验证性能函数表现良好、GP核选择得当),BO过程被保证能在足够多的评估次数后,渐近地找到搜索空间内的全局最优架构。

定理2 (体制转换稳定性): 本质上,定理2提供了一个数学上的平滑性保证。通过对各个专用模块(V, T, R)和门控网络强制执行Lipschitz连续性,即约束其“陡峭度”(Lipschitz常数),我们确保检测到的体制概率的微小、连续的变化不会导致模型最终预测出现大的、不连续的跳变,从而保证在市场转换期间的稳定和可预测响应。具体而言,模型输出f的变化量受限于体制概率p(rt)的变化量∆pt:

||f(xt|p(rt)) - f(xt|p(rt-1))|| ≤ Leff * ||∆pt||^2 (15)

其中Leff是一个有效的Lipschitz常数。这保证了体制概率的微小变化只会引起模型输出的有界变化,防止了由体制切换本身驱动的不稳定性。

4.3 稳定性的实践实现

我们通过以下具体技术来实现上述理论保障:

* 自适应谱归一化: 通过对权重矩阵进行谱范数归一化,直接控制线性层的Lipschitz常数。
* 梯度裁剪: 使用自适应阈值来裁剪梯度,防止因离群值或高波动性导致的过大更新。
* Lipschitz正则化 (Lstable): 将惩罚大的Lipschitz常数的项作为损失函数的一部分。
* 谨慎选择激活函数: 使用ReLU变体(如LeakyReLU)或有界激活函数(如tanh),这些函数具有已知的Lipschitz性质。
* 保持稳定性的跳跃连接: 使用体制依赖的缩放因子来调节残差路径,以在波动性大的体制中抑制残差信号。

4.4 实现细节与超参数

实验在NVIDIA T4 GPU上进行,使用了Python 3.8+和PyTorch 1.10+的软件栈。贝叶斯优化搜索(100次评估)耗时约3个GPU小时,最终模型的训练耗时15分钟。 关键超参数设置如下:

* NAS搜索空间: 约束参数量最多为5M。
* 贝叶斯优化: 使用GPyOpt库,共100次评估。
* 训练参数: AdamW优化器,学习率1e-3,批大小256。
* 多目标损失权重: wp=1.0, wv=0.1, wr=0.05, ws=0.01。
* 体制检测器: 4个注意力头,Nr=3个体制。

在这些方法论和稳定性保障的基础上,下一节将展示详尽的实验结果。

5. 实验结果

本节将全面展示RegimeNAS的实证评估结果,内容涵盖架构搜索的演进过程、与基准模型的性能对比、旨在剖析各组件贡献的消融研究,以及在不同市场体制下的性能表现。

5.1 架构搜索进程

贝叶斯优化过程根据验证集性能迭代地改进架构。表II展示了搜索过程中性能的提升趋势,性能在早期代数中显著提升,并在第4代达到了最佳。后期代数的性能波动是BO算法在找到一个强候选者后继续探索多样化但次优区域的正常表现。

表II: RegimeNAS在NAS各代中的性能表现(每代在验证集上评估的最佳架构) | Generation | Best Val Loss | Best Val MAE | Best Val RMSE | Best Val R² | Epochs | | :--- | :---: | :---: | :---: | :---: | :---: | | 1 | 0.7570 | 1.0115 | 2.6614 | 0.9922 | 12 | | 2 | 0.6384 | 0.8712 | 2.4059 | 0.9936 | 5 | | 3 | 0.5805 | 0.8020 | 2.3148 | 0.9941 | 15 | | 4 (Overall Best) | 0.5258 | 0.7570 | 2.2237 | 0.9945 | 9 | | 5 | 0.6009 | 0.8460 | 2.3049 | 0.9941 | 11 | | ... | ... | ... | ... | ... | ... | | 10 | 0.6113 | 0.8326 | 2.3823 | 0.9937 | 20 |

在第4代发现的最佳架构结合了GRU和LSTM单元,采用了2层结构,隐藏单元数为[256, 128],dropout率为0.1,并整合了所有三种专用模块。图2的直方图展示了在整个搜索过程中,所有被评估架构的关键超参数和性能指标的分布,证明了搜索的广度。

图2: 在RegimeNAS贝叶斯优化搜索的10代中,所有被评估架构的关键性能指标(上排)和探索的架构超参数(下排)的分布。这些图表明了搜索空间的覆盖范围以及高性能配置的集中趋势。

5.2 与基准模型的比较

表I呈现了核心的比较结果,该表将RegimeNAS发现的最佳架构与多个基准模型在预留的测试集上进行了对比。该表旨在评估模型的泛化能力,重点关注MAE、R²和收敛周期等关键指标。

表I: 与SOTA模型在测试集上的比较 | Model | Test Loss | Test MAE | Test RMSE | Test R² | Epochs (Final Train) | Params (Millions) | Est. Final Train Time (min) | | :--- | :---: | :---: | :---: | :---: | :---: | :---: | :---: | | LSTM | 5.0900 | 5.5260 | 16.3627 | 0.9637 | 49 | 1.2 M | 25 | | GRU | 3.3961 | 3.8126 | 10.8937 | 0.9839 | 49 | 0.9 M | 22 | | RNN | 5.9106 | 6.2932 | 18.2941 | 0.9546 | 50 | 0.8 M | 20 | | Transformer | 25.0872 | 25.5824 | 33.8271 | 0.8448 | 5 | 4.5 M | 10 | | ConvLSTM | 3.7480 | 4.1872 | 11.7170 | 0.9814 | 50 | 2.1 M | 30 | | KAN | 18.8770 | 19.3583 | 28.4499 | 0.8902 | 20 | 0.5 M | 15 | | N-BEATS | 0.2750 | 452.94 | 533.05 | 0.9819 | 38 | 3.0 M | 40 | | D-PAD | 0.1750 | 8.0086 | 11.5496 | 0.6837 | 100 | 2.5 M | 50 | | XGBoost (Time Features) | 153.3402 | 20.5762 | 153.3402 | 0.9991 | 999 (trees) | N/A | 5 | | RegimeNAS | 0.5258 | 0.7570 | 2.2237 | 0.9945 | 9 | 1.8 M | 15 | 注:XGBoost在表格化特征上运行,其损失/MAE/RMSE指标与预测回报的序列模型不具直接可比性。N-BEATS的高MAE/RMSE与其良好的损失/R²形成对比,可能源于其块分解结构导致在特定点上出现大误差或数据缩放假设的差异,在金融场景下需谨慎解读。

* 准确性领先: RegimeNAS在所有神经网络模型中实现了最低的测试MAE(0.7570)和RMSE(2.2237)。其MAE相较于最强的传统循环基线GRU降低了80.3%。
* 预测能力 (R²): 其高达0.9945的R²分数表明其强大的解释能力,与表现最佳的模型(包括XGBoost)相当。
* 计算效率: 仅需9个周期即可收敛的训练速度远快于LSTM/GRU(约50个周期)、D-PAD(100个周期)等模型。
* 模型规模: 其参数量(约1.8M)适中,在未过度增加模型复杂性的情况下实现了高效性能。

5.3 消融研究

我们通过系统地移除关键组件来量化其贡献,以剖析RegimeNAS成功的原因。表III的数据清晰地揭示了各组件的重要性。

表III: 消融研究:移除组件对测试集性能的影响 | Component Removed / Modification | Test MAE | Test RMSE | Test R² | MAE Increase (%) | | :--- | :---: | :---: | :---: | :---: | | None (Full RegimeNAS Model) | 0.7570 | 2.2237 | 0.9945 | – | | No Regime Detection (Static weighting) | 1.2367 | 3.1234 | 0.9867 | +63.4% | | No Volatility Blocks (V-Blocks) | 0.9234 | 2.5641 | 0.9912 | +22.0% | | No Trend Blocks (T-Blocks) | 0.8845 | 2.4123 | 0.9924 | +16.8% | | No Range Blocks (R-Blocks) | 0.8156 | 2.3445 | 0.9933 | +7.7% | | No Stability Constraints | 0.8510 | 2.4550 | 0.9920 | +12.4% |

* 体制感知的首要性: 禁用体制检测机制并采用静态权重导致了最严重的性能下降(MAE增加63.4%),这无可辩驳地证明了动态自适应是其成功的基石。
* 专用模块的价值: 移除波动、趋势和盘整模块分别导致了显著的性能损失,证明了它们针对特定市场动态的设计是有效的。
* 稳定性约束的影响: 移除稳定性机制(如Lstable正则化)也对性能造成了负面影响(MAE增加12.4%),凸显了其在处理金融数据时的重要性。

5.4 不同市场体制下的性能

为了验证RegimeNAS在不同市场条件下的适应性,我们事后使用ADX和ATR指标对测试集进行体制分类,并分析了其在“趋势”、“高波动”和“盘整”三种体制下的性能。

表IV: 在不同市场体制下的性能 (Test MAE) | Model | MAE (Trend) | MAE (High Volatility) | MAE (Range) | | :--- | :---: | :---: | :---: | | GRU (Baseline) | 4.10 | 8.55 | 5.20 | | RegimeNAS | 0.80 | 1.55 | 0.95 |

结果如表IV所示,RegimeNAS在所有体制下均显著优于GRU基线。其优势在“高波动”体制中尤为明显,有力地证实了其动态自适应设计的优越性及其在应对市场动荡时的鲁棒性。

实验结果强有力地支持了本论文的核心假设,并自然地过渡到最后的结论部分。

6. 结论

本文介绍了RegimeNAS,一个专为加密货币交易的独特挑战而设计的、新颖的、体制感知的可微神经架构搜索框架。通过将市场体制感知能力显式地整合到搜索过程中,RegimeNAS克服了静态深度学习模型在高度动态环境中的局限性。该框架的成功源于一个紧密的反馈循环:基于注意力的检测器识别市场体制,其不确定性直接调节贝叶斯搜索中的探索参数,该搜索进而选择一个由专为该体制设计的模块构成的最优配置,而整个过程又受到一个强制执行稳定性的损失函数的约束。

其核心优势在于以下几点的协同效应:

1. 一个理论上可靠的、能够发现自适应架构的贝叶斯优化搜索过程。
2. 基于多时间框架注意力驱动的体制检测,该检测能够动态激活专为波动、趋势和盘整市场设计的神经模块。
3. 一个能够平衡预测准确性与金融市场特定需求(如波动率匹配和平滑性)的多目标损失函数。
4. 一系列确保在体制转换期间模型鲁棒性的稳定性保障措施。

我们的关键实验发现表明,RegimeNAS在预测准确性(相较于GRU,MAE降低80.3%)和训练收敛速度方面,均显著优于现有的最先进固定架构模型。至关重要的是,消融研究和体制特定分析(regime-specific analysis)证实了动态自适应机制是其取得成功的核心驱动力。

这项工作强调了为金融应用开发自适应智能系统的必要性。通过展示将领域知识(市场体制)直接整合到NAS范式中的强大能力,RegimeNAS为未来在复杂、非平稳环境中构建高性能模型提供了蓝图。未来的研究方向应侧重于提升搜索效率、精化体制表征,并考虑将RegimeNAS整合到完整算法交易策略中时必须面对的实际因素,如交易成本、滑点和风险管理。在真实市场条件下进行详细回测是关键的下一步。

7. 参考文献

[1] J. B. Heaton, N. G. Polson, and J. H. Witte, “Deep learning for finance: evidence from algorithmic trading in the cryptocurrency market,” Applied Stochastic Models in Business and Industry, vol. 33, no. 1, pp. 3–12, 2017. [2] T. Fischer and C. Krauss, “Deep learning with long short-term memory networks for financial market predictions,” European Journal of Operational Research, vol. 270, no. 2, pp. 654–669, 2018. [3] X. Zhang, X. Dai, H. Wang, Y. Chen, D. Lin, Y. Qiao, J. Gao, and Y. He, “Dynamic neural architecture search,” in Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2023, pp. 23 599–23 609. [4] P. Nystrup, B. V. Hansen, H. Madsen, and E. Lindström, “A regime-switching model of long-term stock market returns,” The European Journal of Finance, vol. 21, no. 13-14, pp. 1155–1175, 2015. [5] A. Vaswani, N. Shazeer, N. Parmar, J. Uszkoreit, L. Jones, A. N. Gomez, Ł. Kaiser, and I. Polosukhin, “Attention is all you need,” in Advances in neural information processing systems 30 (NIPS 2017), 2017, pp. 5998–6008. [6] Z. Liu, Y. Wang, S. Vaidya, F. Ruehle, J. Halatek, Y. Du, J. Schneider, T. Yamamoto, S. Nakatsuji, C. Ho, and M. Tegmark, “KAN: Kolmogorov-Arnold Networks,” arXiv preprint arXiv:2404.19756, 2024. [7] B. N. Oreshkin, D. Carpov, N. Chapados, and Y. Bengio, “N-BEATS: Neural basis expansion analysis for interpretable time series forecasting,” in International Conference on Learning Representations (ICLR), 2020. [8] K. Kandasamy, W. Neiswanger, J. Schneider, B. Póczos, and E. Xing, “Neural architecture search with Bayesian optimisation and optimal transport,” in Advances in Neural Information Processing Systems 31 (NeurIPS 2018), 2018, pp. 2016–2025. [9] H. Zhou, M. Yang, J. Wang, and W. Chen, “BayesNAS: A Bayesian approach for neural architecture search,” in International Conference on Machine Learning (ICML). PMLR, 2019, pp. 7600–7610. [10] B. Chen, Z. Sun, H. Wu, and W. Zheng, “Automated machine learning: State-of-the-art and open challenges,” Neurocomputing, vol. 562, p. 126835, 2023. [11] T. Elsken, J. H. Metzen, and F. Hutter, “Neural architecture search: A survey,” Journal of Machine Learning Research, vol. 20, no. 55, pp. 1–21, 2019. [12] H. Liu, K. Simonyan, and Y. Yang, “DARTS: Differentiable architecture search,” in International Conference on Learning Representations (ICLR), 2019. [13] K. Li, C. Li, and Z. Ding, “Efficient neural architecture search methods: A survey,” ACM Computing Surveys, vol. 55, no. 8, pp. 1–35, 2023. [14] L. Wang, C. Zhang, and J. Yan, “Memory-Efficient Dynamic Neural Architecture Search,” arXiv preprint arXiv:2401.10099, 2024. [15] S. Xingjian, Z. Chen, H. Wang, D.-Y. Yeung, W.-K. Wong, and W.-c. Woo, “Convolutional LSTM network: A machine learning approach for precipitation nowcasting,” in Advances in neural information processing systems 28 (NIPS 2015), 2015, pp. 802–810. [16] Y. Yuan, L. Shen, X. Ding, Y. Zheng, B. Tang, and C. Xiao, “D-PAD: A Detail-Preserving Attention-based Decoder for High-Fidelity Time Series Forecasting,” arXiv preprint arXiv:2405.13303, 2024. [17] T. Chen and C. Guestrin, “XGBoost: A scalable tree boosting system,” in Proceedings of the 22nd acm sigkdd international conference on knowledge discovery and data mining, 2016, pp. 785–794. [18] A. Ang and G. Bekaert, “Regime switching in international asset allocation,” The Journal of Finance, vol. 57, no. 3, pp. 1137–1187, 2002. [19] J. D. Hamilton, “Regime-switching models,” in The new Palgrave dictionary of economics, vol. 2. Palgrave Macmillan London, 2008, pp. 1–6. [20] X. Ding, Y. Zhang, T. Liu, and J. Duan, “Deep learning with event embedding for stock market prediction,” in Proceedings of the 24th ACM international on conference on information and knowledge management, 2015, pp. 1491–1494. [21] M.-J. Kim, M.-K. Lee, and J.-H. Ahn, “A hidden Markov model for detecting stock market regimes,” Applied Intelligence, vol. 49, no. 3, pp. 863–875, 2019. [22] F. Garcia and M. C. Medeiros, “Robust dynamic model selection for financial forecasting,” Journal of Econometrics, vol. 237, no. 2, p. 105526, 2023. [23] A. Kendall and Y. Gal, “What uncertainties do we need in Bayesian deep learning for computer vision?” in Advances in neural information processing systems 30 (NIPS 2017), 2017, pp. 5574–5584. [24] B. Lakshminarayanan, A. Pritzel, and C. Blundell, “Simple and scalable predictive uncertainty estimation using deep ensembles,” in Advances in neural information processing systems 30 (NIPS 2017), 2017, pp. 6402–6413. [25] J. Snoek, H. Larochelle, and R. P. Adams, “Practical Bayesian optimization of machine learning algorithms,” in Advances in neural information processing systems 25 (NIPS 2012), 2012, pp. 2951–2959. [26] I. Gulrajani, F. Ahmed, M. Arjovsky, V. Dumoulin, and A. C. Courville, “Improved training of Wasserstein GANs,” in Advances in neural information processing systems 30 (NIPS 2017), 2017, pp. 5767–5777.