H3M-SSMoEs：基于超图的多模态学习、大语言模型推理及风格化结构专家混合的股票走势预测框架

作者： Adair Lee发布时间：2025-12-03 11:51:49 阅读：2067 点赞：448

量化论文

🎵

听论文解读

🔊

H3M-SSMoEs：基于超图的多模态学习、大语言模型推理及风格化结构专家混合的股票走势预测框架

摘要

股票走势预测因其复杂的时序依赖、异构模态和动态变化的股票间关系而极具挑战性。现有方法往往难以在单一可扩展框架内统一结构化、语义化和市场状态自适应建模。本文提出了一种新型框架H3M-SSMoEs，它是一种基于超图的多模态架构，融合了大语言模型（LLM）推理和风格化结构专家混合。该框架集成了三大核心创新：(1) 多情境多模态超图，通过局部情境超图（LCH）和全局情境超图（GCH）分层捕捉细粒度的时空动态和持久的股票间依赖，并利用共享的跨模态超边和詹森-香农散度加权机制实现自适应关系学习与跨模态对齐；(2) LLM增强的推理模块，利用一个带有轻量级适配器的冻结大语言模型，对量化和文本模态进行语义融合与对齐，从而以金融领域知识丰富特征表示；(3) 风格化结构专家混合（SSMoEs）模块，它结合了共享的市场专家和行业专属专家，每个专家都由可学习的风格向量参数化，通过稀疏激活机制实现对市场状态的自适应专业化。在三大主流股票市场的广泛实验表明，H3M-SSMoEs在预测准确性和投资回报方面均超越了现有SOTA方法，并表现出卓越的风险控制能力。

关键词: 股票预测, 超图神经网络, 大语言模型, 专家混合模型

--------------------------------------------------------------------------------

1. 引言

股票市场预测在全球金融体系中占据核心地位，其准确性直接影响资本配置、投资组合优化和风险管理。尽管“有效市场假说”理论上认为价格已反映所有可用信息，使得未来走势不可预测，但研究已证实了系统性低效的存在——如信息不对称、行为偏差和市场微观结构效应——这为能够发掘复杂市场动态中潜在模式的高级建模创造了机会。

然而，股票市场预测面临着一系列相互交织的核心挑战：

1. 低信噪比与非平稳性：金融市场中，有意义的模式常常被随机波动所掩盖。此外，市场具有固有的非平稳性，意味着在一种市场环境下有效的盈利模式可能会随着条件变化而失效。
2. 复杂的相互依赖性：股票间的关系，如行业联动和动量溢出效应，是动态演变的，并非静止不变。
3. 多时间尺度与多模态信息：价格波动受多个时间尺度上的因素影响。同时，相关信息来源多样，既包括结构化的数值数据，也包括非结构化的文本信息。

这些挑战并非孤立存在；它们的相互作用创造了一个高维、非平稳的预测环境，使得简单模型失效。应对这一挑战，需要一个能够同时建模结构性依赖（“如何”关联）、解读语义驱动因素（“为何”变动）并适应变化的市场环境（“何时”调整）的框架。这正是H3M-SSMoEs的核心架构理念。

现有技术在应对这些挑战时各有优势与局限。图神经网络（GNNs）通过建模股票间的关系来捕捉行业影响，但传统图模型本质上受限于成对关系。然而，现实市场常表现出复杂的群体性关联，例如同一板块的股票在行业轮动时同步波动。这些局限性促使我们采用能够自然编码群体关系的超图模型。

大语言模型（LLMs）的出现为处理大规模文本数据提供了新机遇。然而，现有的LLM集成方法通常孤立地处理结构化和文本信息，未能实现协同效应。此外，LLM的离散化、基于令牌的架构与金融时间序列的连续、高频特性之间存在着根本的模态鸿沟，这一问题仍未完全解决。

与此同时，专家混合（MoE）框架通过动态路由将输入分配给专业化的专家网络，在保持模型容量的同时提高了计算效率。然而，MoE在金融建模中的应用尚不成熟，现有实现未能有效捕捉市场的层级性和多尺度动态。

为应对上述挑战，我们提出了H3M-SSMoEs框架。我们的第一项关键创新是多情境多模态超图：一个分层架构，包含一个捕捉实例级细粒度时空动态的局部情境超图（LCH）全局情境超图（GCH）。两者均利用共享超边连接量化和文本模态的节点，实现了市场信号与新闻叙事间的深度整合。其次，我们的LLM增强推理模块集成了一个冻结的大语言模型（Llama-3.2-1B），通过轻量级适配器层在保持计算效率的同时，利用其预训练的金融知识来丰富多模态表征，弥合了文本与数值信息间的语义鸿沟。最后，我们的**风格化结构专家混合 (SSMoEs)**模块设计的每个专家都拥有可学习的风格参数，能够通过稀疏激活机制实现对不同市场状态和行业状况的自适应专业化，从而提供鲁棒的、适应市场环境的表征。

下一章节将对相关研究领域进行更详细的回顾。

2. 相关工作

本章节旨在回顾股票关系建模、金融领域大语言模型应用以及多模态金融预测这三个关键领域的研究进展，并分析现有工作的不足之处，从而确立本研究的创新定位。

2.1 用于股票关系的图与超图模型

股票预测模型经历了从传统统计模型到机器学习，再到图神经网络（GNNs）的演进。早期统计模型（如ARIMA）假设线性依赖，难以捕捉金融市场的复杂动态。随后的机器学习方法增强了非线性建模能力，但常将股票视为独立实体，忽略了它们之间的相互依赖。

为克服这一局限，研究者开始采用GNNs来建模股票间的内在关系结构。早期模型利用行业归属等预定义关系构建图，而更先进的模型如RSR（集成LSTM与图卷积）、HATS（引入多关系注意力）和FinGAT（应用动态注意力）则展现了更优的性能。近年来的趋势已从静态、预定义的结构转向能够捕捉潜在依赖关系的动态学习结构。

超越成对关系，对群体性互动的认知推动了超图模型的发展。例如，STHGCN联合建模股价的时间演变及其行业层面的关联，有效捕捉了更高阶的依赖关系。近期，CI-STHPAN则利用自监督学习在股票时间序列上进行预训练，以提取鲁棒的时空表征。

2.2 金融领域的大语言模型与基础模型

深度学习，特别是大型语言模型（LLMs）和时间序列基础模型（TSFMs），对金融领域产生了深远影响。循环神经网络（RNNs），尤其是LSTM和GRU变体，因其捕捉序列依赖的能力而被广泛应用。基于Transformer的架构，如Stockformer，则通过有效建模复杂的时间和跨资产依赖关系，取得了更优越的性能。

近年来，LLMs已成为金融建模的新范式。BloombergGPT是一个开创性模型，它在一个包含金融和通用文本的混合语料库上训练而成。FinGPT和DISC-FinLLM则引入了指令微调和低秩自适应技术，以提升特定任务的性能。

时间序列基础模型（TSFMs）进一步将基础模型范式扩展到时序数据。通用模型如TimesFM和Lag-Llama在多样化的时间序列领域展现了强大的泛化能力。而金融专用模型如Kronos则通过专注于金融数据集来提高领域相关性。为提升可扩展性，Time-MoE等工作利用MoE架构，在同等计算预算下实现了显著的性能提升。

2.3 多模态金融预测

融合数值和文本数据进行预测的研究已从简单的关键词方法发展到高级架构。Time-LLM将时间序列重编程为与LLM嵌入空间兼容的类文本表示。ChatTime将时间序列视为一种“外语”，将连续数值序列转换为离散令牌。TGForecaster则采用PatchTST编码器处理时序数据，并结合预训练文本模型处理新闻，以实现高效的跨模态融合。

然而，MoE架构在多模态金融预测中尚未得到系统性探索，这构成了一个显著的研究空白。金融市场具有内在的异质性，如状态切换、行业依赖和不同的波动结构，这为MoE的模块化专业分工提供了天然的适用场景。此外，当前方法大多孤立地处理结构、时序和文本信息，亟需一个能够统一超图结构先验、LLM语义推理和MoE专业化处理的整合框架。

现有工作的局限性凸显了开发一个综合性框架的必要性。接下来，我们将详细介绍H3M-SSMoEs方法论，该方法旨在系统地解决上述挑战。

3. 研究方法

本章节将详细阐述H3M-SSMoEs模型的整体架构和核心组件。我们将首先定义问题，然后依次介绍特征嵌入、多情境多模态超图、LLM增强推理、风格化结构专家混合（SSMoEs）以及最终的损失函数。

[Figure 1: H3M-SSMoEs Architecture Overview]

图1: H3M-SSMoEs概览。该框架包括：(1) 使用冻结LLM进行文本和时间数据特征嵌入；(2) 多情境多模态超图处理，包括用于捕捉实例级依赖的局部情境超图（LCH）和用于建模股票间关系的全局情境超图（GCH）；(3) 用于更深层次语义集成的LLM增强多模态推理；(4) 结合共享市场专家和行业专属专家的风格化结构专家混合（SSMoEs），以实现自适应、风格感知的预测。

3.1 问题定义与特征嵌入

* 问题定义：我们将d日后的股票走势预测明确表述为一个二元分类问题，旨在预测指数内每只成分股的收盘价在d个交易日后是否会上涨。输入包含三种模态：(1) 历史量化特征，(2) 每日财经新闻，(3) 时间戳嵌入。
* 特征嵌入：为实现跨模态学习，所有异构输入模态（量化、新闻、时间戳）首先通过模态特定的前馈网络被投影到一个维度为D的统一潜空间： h_{n,t}^{(m)} = \text{FFN}{proj}^{(m)}(x{n,t}^{(m)}) \in \mathbb{R}^D \quad (1)
* 时间编码集成：为了增强量化特征的时间感知能力，我们将其与位置编码（时间戳嵌入）相加。新闻嵌入本身已包含时间语义，无需额外处理。 z_{n,t}^{(m)} = \begin{cases} h_{n,t}^{quant} + h_t^{time}, & \text{if } m = \text{quantitative} \ h_{n,t}^{news}, & \text{if } m = \text{news} \end{cases} \quad (2)

3.2 多情境多模态超图

为克服传统图模型无法捕捉动态、集体性市场行为的局限，我们引入了此分层超图框架。该架构通过共享超图统一了模态内和跨模态的互动，实现了量化信号和新闻语义之间的深度协同整合。

3.2.1 局部情境超图 (LCH)

* 核心功能：LCH旨在捕捉细粒度的时空依赖关系。它将每个时间戳的每只股票视为一个独立节点，从而能够灵活地发现动态演变的群体关系。
* 构建过程：
1. 我们为每个模态对（量化-量化，新闻-新闻，量化-新闻，新闻-量化）学习一个专门的子超图： H_{local}^{(m_i, m_j)} = Z_{flat}^{(m_i)} \cdot \text{FFN}{local}^{(m_i, m_j)}((Z{flat}^{(m_i)})^T) \in \mathbb{R}^{(N \cdot T) \times E_1} \quad (3)
2. 这四种子超图分别捕捉不同的市场动态：动量聚集、叙事传播、市场对新闻的反应以及新闻对市场的预示作用。
3. 通过一个自适应融合网络，将四个子超图动态加权并整合成一个统一的关联矩阵 H_{local}： H'{local} = \text{FFN}{fusion}^{local}([H_{local}^{(m_i, m_j)}]_{\text{all pairs}}) \in \mathbb{R}^{(N \cdot T) \times E_1} \quad (4)
4. 我们引入一种基于詹森-香农散度（JSD）的信息论超边加权方案，为包含更多独特信息的超边赋予更高的权重： \text{JSD}(i, j) = \frac{1}{2} \left[ \text{KL}(h_i || m_{ij}) + \text{KL}(h_j || m_{ij}) \right] \quad (5) 这种基于JSD的加权机制优先考虑那些定义了独特、非重叠节点社群的超边，从而有效过滤冗余的关系模式，使模型专注于最具结构信息量的群体动态。
* 信息传播：通过加权的超图结构进行超图卷积，以建模高阶互动，并实现模态间的隐式对齐： Z'^{(m)}{LCH} = \sigma (H{local}W_1H_{local}^T Z_{flat}^{(m)} \Theta_{local}^{(m)}) \quad (6)

3.2.2 全局情境超图 (GCH)

* 核心功能：GCH与LCH互补，它在股票层面而非实例层面运作，旨在建模贯穿整个时间范围的持久性结构关系，如行业归属、供应链依赖等。
* 构建过程：其构建过程与LCH类似，但操作层面不同，包括将特征扁平化为股票级别、采用多头注意力机制、构建子超图、自适应融合、JSD加权以及最终的超图卷积（如公式26所示）。
* 协同作用：这种双层架构至关重要。LCH如同一个高频传感器，捕捉对新闻或动量变化的即时、战术性反应。GCH则提供战略性覆盖，将这些短期波动置于行业归属等稳定的长期市场结构中进行情境化。若无GCH，LCH易于对噪声过拟合；若无LCH，GCH则会错失预示重大转变的细粒度动态。

3.3 用于语义增强和多模态推理的LLM

* 核心作用：在超图处理之后，我们引入一个冻结的LLM（Llama-3.2-1B），旨在利用其预训练的金融领域知识来丰富语义表征并促进高级多模态推理。
* 实现机制：
1. 我们选择冻结模型参数并使用轻量级适配器，以在保留知识的同时保证计算效率。
2. GCH输出的量化和新闻特征被拼接并投影到LLM的输入空间： Z_{cat} = [Z_{GCH}^{quant}, Z_{GCH}^{news}] \in \mathbb{R}^{N \times T \times 2D} \quad (7) Z_{fused} = \text{FFN}{fusion}(Z{cat}) \in \mathbb{R}^{N \times T \times D_{LLM}} \quad (8)
3. 融合后的嵌入通过冻结的LLM进行处理，生成高层次的语义表征： Z_{LLM} = \text{LLM}(Z_{fused}) \in \mathbb{R}^{N \times T \times D_{LLM}} \quad (9)

3.4 风格化结构专家混合 (SSMoEs)

* 核心思想：SSMoEs架构通过“共享市场专家”和“行业专属专家”两个互补的专家池，分别建模宏观市场状态和行业层面动态。其核心创新在于“可学习的风格参数”。SSMoEs中的“风格”并非仅仅是描述性的；它是一个可学习的向量（s），作为每个专家行为的条件开关。在训练过程中，这些向量通过反向传播产生分化，使得一个市场专家能够演化出“看涨动量”策略（放大积极信号），而另一个则形成“看跌反转”风格（对超买指标作出反应）。该机制使模型能根据市场情境学习并部署独特的、预设的交易角色。

3.4.1 共享市场专家

* 功能：该模块旨在推断当前市场整体状态（如牛市、熊市），并据此进行专业化预测。
* 实现：通过聚合所有股票信息来推断市场状态（公式10），并将其与单个股票特征结合以指导路由决策（公式11）。每个专家利用其独特的风格向量 s_{mkt} 进行预测： \text{Expert}{mkt}^j(z{flat}^i) = \text{FFN}{mkt}^j([z{flat}^i, s_{mkt}^j]) \quad (12)

3.4.2 行业专属专家

* 功能：该模块利用GCH学到的高阶行业关系，对行业内的动态进行建模。
* 实现：通过提取行业嵌入来增强股票表征，为路由提供行业背景（公式13和14）。行业专家同样利用其风格向量 s_{ind} 实现对不同行业的专业化： \text{Expert}{ind}^k(z_i) = \text{FFN}{ind}^k([z_{flat}^i, s_{ind}^k]) \quad (15)

3.4.3 专家池聚合层

* 路由与聚合：两个专家模块都采用Top-K稀疏门控机制来选择最相关的专家。
* 最终融合：最终的聚合层通过一个可学习的非线性融合机制，自适应地结合来自市场和行业两个专家池的输出，产生能够反映多尺度依赖关系的最终表征： z_i = \sigma(W_{mkt}h_{mkt}^i + W_{ind}h_{ind}^i) \quad (16)

3.5 损失函数

* 最终预测：融合后的表征通过一个FFN和Softmax层生成最终的二元分类概率。
* 复合损失：最终的复合损失函数由三部分组成：用于分类目标的交叉熵损失（Lcls），以及两个用于促进专家均衡利用的辅助损失（Lmarket aux和Lindustry aux）。 L_{cls} = - \frac{1}{N} \sum_{i=1}^N [y_i \log \hat{y}i + (1 - y_i) \log(1 - \hat{y}{aux}^e = \sum{i=1}^{N_e} f_i P_i, \quad e \in {\text{market, industry}} \quad (18) L = L_{cls} + \alpha L_{aux}^{market} + \beta L_{aux}^{industry} \quad (19) 其中 α 和 β 是平衡因子。

下一章将通过一系列实验来验证该方法的有效性。

4. 实验设置

本章将详细介绍用于评估H3M-SSMoEs模型性能的实验设计，包括所使用的数据特征、数据集、基线模型以及评估指标。

4.1 数据与特征

* 量化数据：历史股价数据来源于Yahoo Finance，包含收盘价、最高价、最低价、开盘价和成交量五个基本属性。为丰富特征，我们使用Qlib计算了Alpha158和Alpha360技术指标，并对数据进行了z-score归一化处理。
* 新闻数据：为补充文本信息，我们使用Finrobot为每只股票生成每日新闻。该方法通过综合多种数据源，确保了文本数据的一致性和高质量，有效解决了新闻覆盖不全的问题。

4.2 数据集

实验在三个主要股票指数上进行：道琼斯工业平均指数（DJIA）、纳斯达克100指数（NASDAQ 100）和标准普尔100指数（S&P 100）。数据时间范围为2020年1月1日至2025年8月31日¹，并按照7:1:2的比例划分为训练集、验证集和测试集。

数据集股票数量训练集样本数验证集样本数测试集样本数
DJIA 30 996 142 285
NASDAQ 100 91 996 142 285
S&P 100 99 996 142 285

4.3 基线模型

为全面评估模型性能，我们选择了15个基线模型进行对比，涵盖四大类别：

* 股票预测模型 (6个): SFM, Adv-ALSTM, DTML, ESTIMATE, StockMixer, MASTER
* 时间序列模型 (3个): DLinear, iTransformer, TimeMixer
* 图模型 (3个): GCN, GraphSAGE, GAT
* 时间序列LLM与基础模型 (3个): GPT4TS, aLLM4TS, Time-LLM

4.4 评估指标

为全面评估模型，我们同时采用投资组合回测和分类性能指标。

* 回测指标:
* 年化收益率 (AR): 衡量投资的年化盈利能力。
* 夏普比率 (SR): 衡量单位风险下的超额回报。
* 卡玛比率 (CR): 衡量年化收益与最大回撤的比率。
* 最大回撤 (MDD): 衡量投资组合从峰值到谷底的最大损失。
* 预测指标:
* 准确率 (ACC): 衡量预测正确的比例。
* 精确率 (PRE): 衡量预测为上涨的股票中实际也上涨的比例。

5. 结果与分析

本章将展示并深入分析H3M-SSMoEs在三个数据集上的实验结果。我们将通过与基线模型的详细比较，论证本框架在投资回报、风险控制和预测精度方面的优越性，并通过消融实验验证各核心组件的有效性。

5.1 主要结果

我们为每个数据集创建独立的子章节进行分析。

5.1.1 DJIA 数据集结果

5.1.2 NASDAQ 100 数据集结果

5.1.3 S&P 100 数据集结果

5.2 消融研究

为了评估模型中每个关键架构组件（LCH、LLM、SSMoEs）的贡献，我们进行了消融研究。

数据集组件 ACC PRE AR SR CR MDD
DJIA w/o LCH 57.38 53.37 16.47 0.875 1.065 15.47
w/o LLM 57.38 53.37 16.50 0.877 1.067 15.47
w/o SSMoEs 57.40 53.38 16.52 0.877 1.070 15.43
H3M-SSMoEs 57.47 62.01 50.00 1.585 3.377 14.81
NASDAQ 100 w/o LCH 58.12 53.16 7.40 0.345 0.331 22.36
w/o LLM 57.96 52.68 9.78 0.451 0.475 20.60
w/o SSMoEs 58.18 52.83 12.20 0.535 0.514 23.73
H3M-SSMoEs 58.60 69.97 70.80 2.100 4.380 16.17
S&P 100 w/o LCH 56.49 53.26 15.65 0.818 0.996 15.71
w/o LLM 56.54 53.27 16.19 0.845 1.037 15.62
w/o SSMoEs 56.63 53.33 16.01 0.836 1.026 15.61
H3M-SSMoEs 56.91 66.04 29.62 1.351 2.075 14.27

结果清晰地表明，移除任何一个核心组件都会导致性能显著下降。

* 移除LCH (w/o LCH)：这是性能下降最严重的情况。在DJIA和NASDAQ 100上，年化回报率分别从50.00%和70.80%骤降至16.47%和7.40%，显示了LCH在捕捉细粒度时空动态方面的不可或缺性。
* 移除LLM (w/o LLM)：移除LLM语义推理层同样造成了显著的负面影响。例如，在NASDAQ 100上，年化回报率降至9.78%，夏普比率从2.100降至0.451。
* 移除SSMoEs (w/o SSMoEs)：用标准前馈网络替代SSMoEs后，性能也明显下降，DJIA和NASDAQ 100的回报率分别降至16.52%和12.20%。

消融研究的结果明确指出，模型的每个创新组件对于其卓越性能都是至关重要的。

5.3 综合讨论

综合所有实验结果，H3M-SSMoEs在所有三个指数上均展现出一致的优越性，尤其是在风险调整后收益方面，它始终实现了最高的夏普比率和卡玛比率，以及最低的最大回撤。这些卓越性能归因于架构三大创新（多情境超图、LLM语义增强、风格化MoE）的协同作用。这证明了该框架能够成功应对金融市场的复杂挑战，实现优异且稳健的投资表现。

6. 结论

本文设计并验证了H3M-SSMoEs框架，一个用于股票预测的综合性多模态模型。该框架通过协同整合多情境超图建模、LLM增强的语义推理和风格化结构专家混合（SSMoEs），统一了市场信息的结构、语义和风格维度，有效捕捉了细粒度的时序依赖和长期的股票间关系。

在DJIA、NASDAQ 100和S&P 100指数上的广泛实验结果表明，我们的模型在预测精度和风险调整后回报方面均取得了一致性的SOTA性能。特别是，它实现了最高的夏普比率和卡玛比率，并显著降低了最大回撤，验证了该架构的鲁棒性和实际应用价值。消融研究进一步证实了每个创新组件对于实现这一卓越性能都是不可或缺的。

最终，H3M-SSMoEs提供的不仅仅是性能的增量提升，更为金融建模提供了一种新的范式。通过证明结构先验（超图）、语义推理（LLMs）和自适应专业化（SSMoEs）的显式、协同整合能够产生卓越的风险调整后回报，本研究为未来的多模态金融人工智能建立了一个强大且可扩展的蓝图。

H3M-SSMoEs：基于超图的多模态学习、大语言模型推理及风格化结构专家混合的股票走势预测框架

关于我们

链接