AlphaSAGE: 通过 GFlowNets 实现结构感知的鲁棒 Alpha 挖掘

作者： Adair Lee发布时间：2025-12-03 11:40:04 阅读：1061 点赞：243

量化论文

🎵

听论文解读

🔊

AlphaSAGE: 通过 GFlowNets 实现结构感知的鲁棒 Alpha 挖掘

摘要 (Abstract)

在量化金融领域，自动化挖掘具有预测能力的信号（即“阿尔法因子”）是一项核心挑战。尽管强化学习（RL）已成为生成公式化阿尔法的一种有前景的范式，但现有框架在根本上受到三重相互关联问题的制约。首先，它们受困于奖励稀疏性，即有意义的反馈信号仅在完整公式生成后才能获得，导致探索过程效率低下且不稳定。其次，它们依赖于对数学表达式进行语义不足的序列化表征，未能捕捉决定阿尔法因子行为的内在结构。第三，标准强化学习最大化期望回报的目标，本质上会驱使策略收敛至单一最优模式，这与构建多样化、低相关性阿尔法组合的实际需求背道而驰。

为应对这些挑战，我们引入了 AlphaSAGE（Structure-Aware Alpha Mining via Generative Flow Networks for Robust Exploration），这是一个基于三大基石创新的新型框架：

1. 一个基于**关系图卷积网络（RGCN）**的结构感知编码器，用于深度捕捉阿尔法因子的语义结构；
2. 一个采用**生成流网络（GFlowNets）**的新型生成框架，旨在对多样化的高质量候选因子进行采样；
3. 一个密集的、多维度的奖励结构，用于有效引导探索过程。

实证结果表明，AlphaSAGE 在挖掘更多样化、新颖且预测能力更强的阿尔法组合方面，显著优于现有基准模型，从而为自动化阿尔法挖掘领域提出了一个全新的范式。

--------------------------------------------------------------------------------

1. 引言 (引言)

在量化交易中，核心目标是识别并利用市场中的无效性，而这一追求的中心环节便是挖掘“阿尔法因子”。这些阿尔法因子是具有预测能力的信号，通常以数学表达式的形式呈现，旨在预测资产的未来收益，从而构成系统化交易策略的基石。因此，高质量的阿尔法因子挖掘是量化研究的核心：它能够实现更精准的收益预测、优化风险调整后的投资组合，并最终获得超额回报。

传统上，阿尔法挖掘是一个依赖人工、由假设驱动的过程。研究人员提出金融或经济假设，将其转化为候选阿尔法，并通过统计检验或历史回测来验证其预测能力。尽管这一流程催生了如价值、动量和质量等具有影响力的发现，但它在可扩展性上存在局限，并严重依赖人类的直觉。随着金融市场的复杂性日益增加，由假设驱动的范式难以应对高维数据中庞大且非线性的相互作用，发现新颖且低相关的信号变得愈发困难。

近期的技术进步推动了向自动化阿尔法挖掘的转变，即利用机器学习算法在巨大的公式组合空间中进行系统性搜索。遗传算法（GA）和强化学习（RL）已成为主要范式。然而，尽管基于 RL 的方法有望实现更高的效率和可扩展性，但其直接应用仍面临着几个根本性的挑战。

当前将强化学习直接应用于阿尔法挖掘的方法普遍存在三个核心缺陷：

* 奖励稀疏性 (Reward Sparsity)：现有方法普遍存在严重的“冷启动”问题。奖励信号——通常基于阿尔法因子的信息系数（IC）——极其稀疏，仅在完整的公式构建完成后才能获得，这导致探索过程效率低下且方向不明。
* 结构表征不足 (Structural Underrepresentation)：大多数现有方法将阿尔法表达式表示为简单的符号序列（例如，逆波兰表示法），并使用如长短期记忆网络（LSTM）等序列模型进行处理。这种扁平化的表征无法捕捉公式固有的逻辑层次与结构。例如，它会将语义上等价的公式 close + open 和 open + close 视为两个完全不同的序列，从根本上无法理解其内在的逻辑等价性，而这种结构恰恰是决定其金融行为的关键。
* 多样性受限 (Limited Diversity)：传统强化学习旨在最大化单一奖励函数，这往往导致生成策略收敛至少数几个高奖励模式，与构建稳健投资组合的实际需求相悖。在实践中，一个由多个低相关性因子组成的组合远比单一的最优因子更为重要，因为它能提高信号的稳定性和泛化能力。

为了系统性地克服这些局限，我们提出了 AlphaSAGE (Structure-Aware Alpha Mining via Generative Flow Networks for Robust Exploration) 框架。本文的主要贡献可以概括为以下三点：

* 结构感知编码器：我们引入了一个基于关系图卷积网络（RGCN）的编码器，它直接对阿尔法因子的抽象语法树（AST）进行操作。这种方法能够有效捕捉其内在的语义和组合性质，从而实现更深刻、更准确的因子表征。
* GFlowNets 生成框架：我们利用生成流网络（GFlowNets）来学习对候选因子进行多样化抽样。GFlowNets 的独特之处在于，它学习从一个与奖励函数成正比的分布中进行采样，从而自然地探索多个高奖励模式而非收敛于单一最优解。这直接满足了构建多样化阿尔法组合的核心需求。
* 多维度奖励函数：我们设计了一个密集的、多维度的奖励函数，它结合了最终性能（预测能力）、结构完整性（表征与行为的对齐）和新颖性。这个复杂的奖励信号能够有效引导 GFlowNet 的探索过程，克服奖励稀疏性问题。

为了验证我们模型的有效性，我们在中国和美国股票市场的真实历史数据上进行了广泛的实验。实验结果表明，AlphaSAGE 在各项关键指标上均优于现有的基准模型。

接下来的章节将深入探讨相关技术背景、AlphaSAGE 的具体实现方法以及详尽的实验结果分析。

--------------------------------------------------------------------------------

2. 背景与相关工作 (Background and Related Work)

本章节旨在为理解 AlphaSAGE 提供必要的基础知识，并将其置于现有研究的脉络之中。要领会 AlphaSAGE 的创新之处，首先需要理解阿尔法挖掘的核心目标、图神经网络如何实现结构化表征，以及生成流网络为何特别适用于多样性生成任务。

2.1 阿尔法挖掘与组合

在量化金融中，阿尔法因子是将历史市场数据转化为旨在预测未来收益信号的确定性转换。当表示为符号程序（如抽象语法树）时，阿尔法因子保持了高度的可解释性和可审计性。其质量通常通过相关性指标来衡量，例如计算因子输出与未来收益之间的信息系数（IC）。

阿尔法挖掘的范式已从早期的手动、假设驱动演变为自动化搜索。其中，遗传算法（GA）和强化学习（RL）是两条主要的技术路径。然而，如前所述，这些自动化方法普遍面临三大挑战：稀疏且延迟的奖励、对阿尔法结构编码的不足，以及模式坍塌（即倾向于生成少数几种相似的解决方案）。

由于单一的阿尔法因子在不同时间和市场中通常表现不稳定，从业者需要构建一个包含多个因子的“因子库”，并将其组合成一个更稳健的投资组合信号。如果因子之间存在高相关性，那么线性组合的系数估计将变得不可靠，同时也会降低组合信号的稳健性和可解释性。这一观察启发了那些旨在同时优化预测能力和多样性的框架。AlphaSAGE 的设计正遵循此原则：在生成阶段鼓励结构上不同的阿尔法，并采用透明的、自适应加权的方案进行组合，以强调低相关性。

2.2 图神经网络 (Graph Neural Networks, GNNs)

图神经网络（GNNs）通过从邻近节点收集信息并利用这些上下文更新节点自身的表示来工作（即“消息传递”）。通过堆叠多层网络，信息可以在图上进行多步传播，使得每个节点不仅能捕捉局部属性，还能感知更广泛的结构关系。

当我们将阿尔法因子表示为图结构——例如公式对应的抽象语法树——GNNs 能够比序列模型更自然地编码其语义相似性和结构约束。例如，GNN 可以轻松捕捉到 close + open 和 open + close 的结构等价性。这使得 GNNs 成为学习因子嵌入、指导符号表达式搜索以及在表示层面上衡量多样性的理想工具。

2.3 生成流网络 (Generative Flow Networks, GFlowNets)

生成流网络（GFlowNets）是一种生成式学习模型，它通过逐步构建对象来工作，其目标是采样一组多样化的高奖励解，而非像传统优化算法那样收敛到单一的最优解。GFlowNets 将生成过程视为在一个有向无环的状态空间中从初始空状态到最终有效对象的移动。它通过学习互补的前向（构建）和后向（解构）策略，并匹配流经状态的“流量”，从而近似一个由下游奖励函数塑造的采样分布。

这种方法的精妙之处在于，它使 GFlowNets 的探索过程既是“奖励感知的”（倾向于生成高回报的解），又是“追求多样性的”（覆盖多个高回报模式）。这些特性与阿尔法挖掘中发现一系列不同但均表现优异的因子的需求高度契合。

在介绍了这些关键技术之后，下一章节将详细阐述 AlphaSAGE 如何将它们有机地结合起来，以系统性地解决阿尔法挖掘中的核心挑战。

--------------------------------------------------------------------------------

3. 方法论 (Methodology)

本节是论文的核心，将详细阐述 AlphaSAGE 框架的技术架构。我们将深入剖析该框架如何从问题定义、因子生成、结构化表征到奖励机制设计，系统性地克服传统方法的局限性。

3.1 框架概述与问题重构

自动化阿尔法发现的首要目标是在一个由潜在数学表达式构成的巨大组合空间 X 中进行有效导航。每个阿尔法因子 α ∈ X 都是一个函数，它将历史市场数据映射为预测性信号。

现有强化学习框架通常将此问题建模为一个序贯决策过程，旨在构建一个协同作用的阿尔法组合。在此范式下，智能体迭代地生成新因子 α_new 以加入一个不断演化的因子池 F。其奖励是新因子对组合模型性能的边际贡献。在每一步，目标是找到能最大化这种改进的因子： \alpha_{\text{new}}^* = \arg\max_{\alpha \in X} \mathbb{E}[R(\alpha|F)] \quad \text{, where } R(\alpha|F) = \text{IC}(c(X;F \cup {\alpha})) - \text{IC}(c(X;F)) \quad (1) 这种公式化的根本缺陷在于，它导致了一个非平稳的马尔可夫决策过程（因为奖励函数会随着因子池 F 的更新而改变），并且只能学习到一个贪婪构建的单一组合，而无法学习到所有高质量因子的全局分布。

因此，我们将阿尔法发现问题重构为学习一个生成策略 Pθ(α)，该策略直接模拟整个空间中高质量因子的分布。该策略经过训练，使得采样任何一个阿尔法的概率与其精心设计的奖励函数 R(α) 成正比，该奖励函数反映了其内在质量和新颖性： P_\theta(\alpha) \propto R(\alpha), \quad \forall\alpha \in X \quad (2) 通过从这个学习到的全局分布中采样，而不是遵循单一的构建路径，我们能够生成一个更多样化、更稳健的候选因子组合。

3.2 通过生成流网络进行阿尔法生成

为实现上述公式（2）所定义的目标，我们采用了 GFlowNets 框架。GFlowNet 旨在学习一个随机策略，以与给定奖励函数 R(α) 成正比的概率 P(α) 从空间 X 中采样对象 α。

我们将阿尔法的构建过程建模为在一个有向无环图（DAG）中的一条轨迹 τ = (s0 → s1 → · · · → sn = α)。

* 状态 (States): 部分构建的抽象语法树（AST）。初始状态 s0 是一个空树。
* 动作 (Actions): 向部分 AST 的一个开放叶节点添加新标记（操作符或特征）。
* 完整轨迹 (Complete Trajectories): 对应于构建一个有效的、完整的表达式树。

为了防止表达式过长，我们引入了一个早停机制。当当前栈已经构成一个有效表达式时，生成过程可以以一定概率停止： p = \frac{\text{Len}(s_t)}{\text{MaxLen}} \quad (3) 其中 Len(st) 是当前状态 st 中的节点数，MaxLen 是允许的最大长度。该机制在探索长表达式和生成有效公式之间取得了平衡。

GFlowNet 通过学习一个前向策略 PF（用于构建）和一个后向策略 PB（用于解构）来进行训练。其训练目标是最小化轨迹平衡（TB）损失 LTB，以确保生成概率与奖励函数成正比。 P(\alpha) = \sum_{\tau:s_n=\alpha} P_F(\tau) = \frac{R(\alpha)}{Z} \quad (4)

\mathcal{L}_{\text{TB}}(\tau) = \left( \log Z_\theta + \sum_{t=1}^n \log P_F(s_t|s_{t-1}; \theta) - \log R(s_n) - \sum_{t=1}^n \log P_B(s_{t-1}|s_t; \theta) \right)^2 \quad (5)

该损失函数的核心思想是“平衡”：对于任何一条完整的轨迹，前向流（由前向策略概率 PF 和总奖励流量 Zθ 定义）应等于后向流（由奖励 R 和后向策略概率 PB 定义）。具体而言，公式（5）中括号内的项旨在趋近于零。log Zθ 是对数总奖励流量的估计；Σ log PF 是沿轨迹的正向路径的对数概率；log R 是轨迹终点的对数奖励；Σ log PB 则是沿轨迹的反向路径的对数概率。通过最小化该损失，模型学习到的策略能够以与奖励成正比的概率生成阿尔法。

3.3 GNN 嵌入与结构感知奖励

现有方法处理扁平化表示的根本缺陷在于无法捕捉数学表达式的层级结构。为了克服这一点，我们首先将每个公式化的阿尔法 α 解析为其对应的抽象语法树（AST）Tα。

为了捕捉 Tα 中不同类型操作符和特征之间的异构关系，我们采用关系图卷积网络（RGCN）作为编码器。与标准 GNN 不同，RGCN 能够显式地为不同关系类型建模，这对于区分例如时间算子与特征之间的边和时间算子与其窗口长度参数之间的边至关重要。节点表示的更新过程和最终的阿尔法嵌入 eα 的生成方式如下： \mathbf{h}v^{(l)} = \text{ReLU}\left( \sum{r \in \mathcal{R}} \sum_{u \in \mathcal{N}r(v)} \frac{1}{c{v,r}} \mathbf{W}_r^{(l)} \mathbf{h}_u^{(l-1)} + \mathbf{W}_0^{(l)} \mathbf{h}_v^{(l-1)} \right) \quad (6)

\mathbf{e}_\alpha = \text{MaxPooling}(\{\mathbf{h}_v^{(L)}\}_{v \in V_\alpha}) \quad (7)

为了确保学习到的嵌入不仅是结构感知的，而且能预测阿尔法的实际行为，我们引入了一个结构感知（SA）奖励。该奖励的目标是强制施加一个关键属性：结构相似（即嵌入距离 ||eαi - eαj|| 较小）的阿尔法，其金融行为也应相似（即行为距离 dbehav 较小）。当这种对齐关系成立时，奖励值会很高。我们首先定义行为距离 dbehav，然后计算基于嵌入距离的权重 wij，最终得到结构感知奖励 RSA。 d_{\text{behav}}(\alpha_i, \alpha_j) = \frac{1}{D} \sum_{d=1}^D (Z_i(d) - Z_j(d))^2 \quad (8)

w_{ij} = \frac{\exp(-\|\mathbf{e}_{\alpha_i} - \mathbf{e}_{\alpha_j}\|^2)}{\sum_{k \in N_K(\alpha_i)} \exp(-\|\mathbf{e}_{\alpha_i} - \mathbf{e}_{\alpha_k}\|^2)} \quad , j \in N_K(\alpha_i) \quad (9)

R_{\text{SA}}(\alpha_i) = \exp\left( -\sum_{j \in N_K(\alpha_i)} w_{ij} \cdot d_{\text{behav}}(\alpha_i, \alpha_j) \right) \quad (10)

其中 NK(αi) 是 αi 在嵌入空间中的 K 个最近邻。

3.4 多维度奖励函数与训练目标

GFlowNet 的有效性严重依赖于奖励函数 R(α) 的设计。为了解决奖励稀疏性问题并有效引导探索，我们设计了一个密集的、多维度的奖励函数，它动态地组合了以下三个核心组成部分：

1. 终端性能奖励 (RIC): 这是衡量阿尔法预测能力的主要指标，定义为其信息系数的绝对值。 R_{\text{IC}}(\alpha) = |\text{IC}(\alpha, y)| = \left| \mathbb{E}_d \left[ \frac{\text{Cov}(\alpha(X_d), y_d)}{\sqrt{\text{Var}(\alpha(X_d)) \cdot \text{Var}(y_d)}} \right] \right| \quad (11)
2. 结构感知奖励 (RSA): 如公式 (10) 所定义，该奖励提供了一个密集的信号，用于对齐阿尔法的结构嵌入与其行为，从而在训练早期阶段提供有意义的梯度。
3. 新颖性奖励 (RNOV): 为了鼓励发现新颖的阿尔法，我们引入了新颖性奖励。它通过惩罚与一个动态更新的已知高质量因子库 Fknown 的相似性来计算。 R_{\text{NOV}}(\alpha) = 1 - \max_{\alpha' \in \mathcal{F}_{\text{known}}} |\text{IC}(\alpha, \alpha')| \quad (12)

这些奖励分量通过一个随时间变化的加权方案进行组合，以在训练过程中平衡不同的目标： R(\alpha, T) = R_{\text{IC}}(\alpha) + \lambda(T) R_{\text{SA}}(\alpha) + \eta(T) R_{\text{NOV}}(\alpha) \quad (13) 其中 λ(T) = (1 - T/T_anneal) * λ_max 和 η(T) = (1 - T/T_anneal) * η_max 是退火调度函数。该方案在训练早期强调结构和新颖性奖励以指导探索，随着训练的进行，逐渐将重心转移到终端性能奖励 RIC 上。

此外，为防止过早收敛并鼓励探索，我们在最终训练目标中加入了策略熵正则化 LENT。最终的训练目标 Lfinal 是带熵正则化的期望轨迹平衡损失： \mathcal{L}{\text{ENT}} = -\mathbb{E}{\tau \sim P_F(\tau; \theta)} \left[ \sum_{t=0}^{n-1} H(\pi_\theta(\cdot|s_t)) \right] \quad (14)

\mathcal{L}_{\text{final}} = \mathbb{E}_{\tau \sim P_F(\tau; \theta)}[\mathcal{L}_{\text{TB}}(\tau)] + \beta \cdot \mathcal{L}_{\text{ENT}} \quad (15)

3.5 阿尔法组合

在组合阶段，我们遵循了 AlphaForge (Shi et al., 2025a) 提出的方法。该方法采用动态重新选择和线性组合的方式。在每个周期，系统会筛选出近期表现有效的阿尔法因子，并通过简单的线性回归重新加权，从而生成一个时变的“超级阿尔法”（Mega-Alpha）。这种设计能够快速适应市场环境的变化，同时保持了高度的可解释性并避免过拟合，在稳健性、效率和解释性之间取得了良好平衡。

在详细阐述了 AlphaSAGE 的理论和方法之后，下一章将通过全面的实验来验证其在真实世界数据上的有效性。

--------------------------------------------------------------------------------

4. 实验与结果

本节将通过在中国和美国市场的实证研究，全面评估 AlphaSAGE 框架的性能。我们的目标是量化地证明 AlphaSAGE 相对于现有基准的优越性，并深入剖析其关键组件的贡献。

4.1 实验设置

* 评估指标: 我们采用两类指标进行评估，所有指标均为越高越好：
* 相关性指标: 信息系数 (IC)、信息系数的信息比率 (ICIR)、秩信息系数 (RIC) 和秩信息系数的信息比率 (RICIR)。
* 投资组合指标: 年化回报率 (AR)、最大回撤 (MDD) 和夏普比率 (SR)。
* 数据集: 实验使用了来自两个主要市场的数据集：中国市场的沪深300 (CSI300) 和中证500 (CSI500)，以及美国市场的标普500 (S&P500)。
* 中国市场: 训练集 (2010-01-01 至 2020-12-31), 验证集 (2021-01-01 至 2021-12-31), 测试集 (2022-01-01 至 2024-12-31)。
* 美国市场: 训练集 (2010-01-01 至 2016-12-31), 验证集 (2017-01-01 至 2017-12-31), 测试集 (2018-01-01 至 2020-12-31)²。
* 基准模型: 我们将 AlphaSAGE 与多种基准方法进行了比较，涵盖了四类：
* 传统机器学习方法: MLP, LightGBM, XGBoost。
* 基于遗传算法的方法: GP。
* 基于强化学习的方法: AlphaGen, AlphaQCM。
* 基于生成对抗网络的方法: AlphaForge。

²由于数据源的限制，本研究中使用的美国市场数据截至 2020 年 12 月 31 日。

4.2 总体性能

表1 总结了在 CSI300、CSI500 和 S&P500 数据集上的实验结果。数据显示，AlphaSAGE 在所有相关性指标上均排名第一，尤其是在衡量信号质量稳定性的 ICIR 和 RICIR 指标上表现出显著优势。这些高质量的信号最终转化为最佳的投资组合表现：AlphaSAGE 在所有市场中均取得了最高的年化回报率、最低的最大回撤（即最接近零的值）和最高的夏普比率。

表1: 不同方法在 CSI 300、CSI 500（中国）和 S&P500（美国）上的性能比较。粗体和下划线数字分别代表所有比较方法中的最佳和次佳性能。

数据集方法 IC ICIR RIC RICIR AR MDD SR
CSI300 MLP 0.020 0.158 0.019 0.142 3.54% -20.9% 0.68
LightGBM 0.011 0.124 0.006 0.064 2.61% -18.5% 0.53
XGBoost 0.031 0.243 0.033 0.248 5.40% -17.5% 1.26
GP 0.026 0.215 0.028 0.216 6.80% -17.6% 1.55
AlphaGen 0.058 0.414 0.057 0.360 4.00% -22.6% 0.76
AlphaQCM 0.043 0.262 0.042 0.246 1.95% -24.8% 0.36
AlphaForge 0.041 0.259 0.052 0.306 3.90% -21.9% 0.88
AlphaSAGE(ours) 0.079 0.496 0.094 0.583 7.62% -17.3% 1.71
CSI500 MLP 0.017 0.185 0.020 0.233 1.56% -24.3% 0.27
LightGBM 0.024 0.305 0.021 0.264 4.61% -17.5% 0.89
XGBoost 0.039 0.365 0.052 0.528 5.50% -17.1% 1.15
GP 0.014 0.238 0.022 0.233 3.04% -19.4% 0.56
AlphaGen 0.032 0.270 0.031 0.230 1.15% -32.4% 0.19
AlphaQCM 0.048 0.378 0.073 0.546 4.06% -24.0% 0.75
AlphaForge 0.053 0.345 0.083 0.600 4.18% -16.7% 0.93
AlphaSAGE(ours) 0.054 0.379 0.084 0.637 5.53% -16.0% 1.20
S&P500 MLP 0.035 0.287 0.020 0.143 12.85% -5.6% 3.35
LightGBM 0.023 0.196 0.018 0.165 11.11% -5.1% 4.22
XGBoost 0.016 0.159 0.026 0.168 13.25% -8.3% 3.61
GP 0.032 0.308 0.002 0.016 13.39% -13.0% 3.15
AlphaGen 0.044 0.396 0.013 0.127 10.31% -5.5% 3.96
AlphaQCM 0.038 0.262 0.010 0.071 13.86% -13.0% 3.30
AlphaForge 0.039 0.422 0.031 0.324 17.24% -5.0% 6.30
AlphaSAGE(ours) 0.052 0.493 0.038 0.382 19.47% -4.2% 6.32

图3 进一步展示了在 CSI300 测试集（2022-2024年）上的累计收益曲线。AlphaSAGE 持续领先的累积回报、更平滑的回撤以及更快的恢复能力清晰可见。相较之下，所有基准模型和 CSI300 指数均表现落后，这凸显了主动因子发现和组合的价值。

图3: 在 CSI300 上的累计收益（2022–2024年）。 AlphaSAGE（我们的模型）与所有基准模型及 CSI300 指数的比较。

4.3 消融研究

为了验证 AlphaSAGE 各个创新组件的有效性，我们进行了一项消融研究。表2 的结果系统地展示了每个组件的贡献，并揭示了它们之间深刻的相互依赖性。

* 研究从一个基础的 GFlowNet 模型开始（第一行），其表现最弱。一个关键发现是，仅加入早停机制（ES）后，模型性能反而恶化（第二行）。这表明，一个简单的约束机制在没有强大的、结构感知的编码器指导时是有害的。
* 将序列编码器替换为 GNN 带来了最大的单项性能提升（第三行），这充分证明了结构感知表征是整个框架的核心价值所在，也是使其他组件能够发挥作用的基础。
* 随后，加入结构感知奖励（SA）提升了排名稳定性（ICIR/RICIR）并减小了回撤（第四行）。
* 引入新颖性奖励（NOV）通过减少因子间的冗余，同时提高了信号质量和可交易性（第五行）。
* 最后，加入熵正则化器（ENT）带来了最佳的综合结果，在控制最大回撤的同时，获得了最高的 IC/RIC、年化回报和夏普比率（第六行）。

结论是，AlphaSAGE 的每个组件都对模型的整体性能做出了积极且可验证的贡献，并且它们的协同作用是实现最终卓越性能的关键。

表2: 在 CSI300 上的消融研究。 ES 表示早停，GNN 表示使用 GNN 编码器，SA 代表结构感知奖励，NOV 代表新颖性奖励，ENT 代表熵损失。

ES GNN SA NOV ENT IC ICIR RIC RICIR AR MDD SR
✗ ✗ ✗ ✗ ✗ 0.048 0.393 0.057 0.437 3.63% -22.9% 0.72
✓ ✗ ✗ ✗ ✗ 0.046 0.313 0.060 0.397 -0.47% -24.8% -0.11
✓ ✓ ✗ ✗ ✗ 0.070 0.495 0.088 0.554 5.58% -19.4% 1.25
✓ ✓ ✓ ✗ ✗ 0.071 0.453 0.088 0.566 4.68% -17.6% 1.14
✓ ✓ ✓ ✓ ✗ 0.075 0.494 0.092 0.614 6.77% -17.8% 1.53
✓ ✓ ✓ ✓ ✓ 0.079 0.496 0.094 0.583 7.62% -17.3% 1.71

4.4 敏感性分析

为检验模型性能对关键超参数（RNOV 和 RSA 的权重）变化的鲁棒性，我们进行了敏感性分析。图4 展示了在 CSI300 数据集上调整这两个权重时各项指标的变化。

结果表明，AlphaSAGE 在很宽的超参数范围内都表现出平滑的性能响应，没有出现剧烈的性能下降。具体而言，对于 RNOV 的权重，性能在小到中等水平时提升，随后进入一个宽阔的平台期；对于 RSA 的权重，各项指标的改善则基本上是单调的。这表明该模型具有很强的鲁棒性和较低的调参敏感性，对于实际应用非常有利。

图4: 在 CSI300 上对 RNOV 和 RSA 权重的敏感性分析。对于 y 轴，IC、RIC、AR 和 MDD 参考左轴；ICIR、RICIR 和 SR 参考右轴。

实验结果已经有力地证明了 AlphaSAGE 的优越性和稳健性，接下来将在结论部分对全文进行总结和展望。

--------------------------------------------------------------------------------

5. 结论

我们引入了 AlphaSAGE，一个结构感知、追求多样性的公式化阿尔法发现与组合框架。该方法系统地统一了多个关键创新：用于符号表达式的 GNN 编码器、能够探索多个高奖励模式的 GFlowNet 生成器，以及一个结合了预测质量、表征-行为对齐、新颖性压力和熵正则化的多信号训练目标。最后，一个透明的动态线性组合器将候选阿尔法转化为可交易的投资组合信号，同时保持了高度的可解释性。

实证结果表明，AlphaSAGE 在中国（CSI300/500）和美国（S&P500）市场上均取得了顶级的相关性指标，并始终将这些信号优势转化为卓越的投资组合表现。其在 CSI300 上的累计回报曲线（2022-2024年）展现了持续的领先优势、更平滑的回撤和更强的恢复能力，有力地证明了其跨市场周期的稳健泛化能力。

消融研究提供了深刻的洞见：结构感知编码（GNN）是性能提升的最大驱动力，而其他组件（如结构感知奖励、新颖性奖励和熵正则化）则在此基础上各自发挥了关键的协同作用。敏感性分析则证明了模型的实用鲁棒性，降低了其在实际部署中的调参负担。

总而言之，AlphaSAGE 的成功验证了一个新的范式：将结构感知的表征学习、追求多样性的生成模型以及原则性的多信号监督这三大支柱进行深度耦合，能够在保持因子生成与组合过程透明性的同时，可靠地提升信号质量及其向已实现收益的转化效率。这为现代自动化阿尔法挖掘指明了一个有前景的方向。

AlphaSAGE: 通过 GFlowNets 实现结构感知的鲁棒 Alpha 挖掘

关于我们

链接