基于PPO的自适应Alpha权重分配：增强由LLM生成的量化交易Alpha因子

发布时间：2025-12-03 21:39:22阅读：19点赞：10

量化论文

--------------------------------------------------------------------------------

摘要

本文旨在解决在动态市场条件下，自适应地整合多个由大型语言模型（LLM）生成的交易信号（Alpha）这一核心挑战。我们提出了一种强化学习框架，该框架采用近端策略优化（PPO）算法，以动态优化由deepseek-r1-distill-llama-70b模型生成的五十个公式化Alpha的权重。实验覆盖了五家主要公司的股票：苹果（Apple）、汇丰（HSBC）、百事（Pepsi）、丰田（Toyota）和腾讯（Tencent）。实验结果表明，与等权重投资组合及主要市场基准（日经225指数、标准普尔500指数和恒生指数）相比，经PPO优化的策略在大多数股票上实现了更高的回报和夏普比率。本研究的主要贡献在于证明了将LLM生成的信号与自适应强化学习相结合，在构建稳健的金融预测和交易策略方面具有巨大潜力。

关键词

公式化Alpha生成, LLM, 近端策略优化, 股票预测, 时间序列预测

--------------------------------------------------------------------------------

1. 引言

在过去几十年中，随着先进技术的融合，金融市场发生了显著变化，尤其是在量化金融领域。传统上，股票交易策略依赖于移动平均线、波动率指标和动量指标等金融工具来预测市场行为并获取利润[1, 2]。这些方法在一定程度上取得了成功，但通常缺乏应对不断变化的市场条件所需的灵活性和适应性。此外，仅依赖于手动选择的指标可能会限制在庞大且持续变化的金融数据中发现新模式的能力。

此外，由于市场条件和投资者行为的变化，交易信号的有效性往往会随着时间的推移而减弱[3]，这种现象在量化金融中被称为“Alpha衰减”。因此，交易员和投资者必须不断寻找新的信号或开发与股价波动保持密切相关的新特征。在动态且竞争激烈的金融市场中，保持适应性和前瞻性对于维持竞争优势至关重要。

为了应对瞬息万变且复杂的金融市场，研究人员开发了先进的模型和技术来管理日益增长的数据量和多样性。近年来，最有前景的进展之一是在交易策略开发中应用机器学习，特别是深度学习模型[4]。这些模型能够处理大规模数据集，并揭示传统方法可能忽略的市场行为中的复杂模式。然而，尽管机器学习模型能力强大，但在可解释性[5]、灵活性以及对大量数据标注的需求等方面仍面临挑战[6, 7]。为了克服这些局限性，研究领域开始转向能够处理非结构化数据并生成新颖特征的模型，这为大型语言模型的应用奠定了基础。

该领域的一个新发展涉及应用大型语言模型（LLM），如OpenAI的GPT模型，进行金融分析。LLM在大量文本数据上进行训练，能够处理金融新闻、报告和历史价格信息，以生成见解和预测[8]。这些模型可以生成多种输出，包括总结金融新闻和创建算法交易策略。特别是，基于提示的LLM通过接收特定提示并根据输入生成相关输出，为自动化和增强股票交易中的Alpha生成过程提供了强大工具[9]。然而，以往的研究大多仅利用LLM生成公式化Alpha并检验其与股票回报的相关性，并未解决如何自适应地组合它们或评估其随时间变化的表现，而这正是本文将深入探讨的问题。

在我们之前的工作中[10]，LLM生成的公式化Alpha已被证明在股价预测方面具有强大的预测能力。本研究在此基础上进一步拓展，将重点从Alpha生成转向Alpha的整合与优化。我们不再仅仅依赖单个Alpha的预测强度，而是研究如何利用强化学习，特别是近端策略优化（PPO），在多个LLM生成的Alpha之间动态分配权重。这种方法使交易策略能够适应不断变化的市场环境，增强对噪声信号的鲁棒性，并捕捉多样的市场动态。

本研究的主要贡献如下：

1. 提出了一种使用PPO的强化学习框架，用于动态优化多个LLM生成的Alpha的权重，从而适应不断变化的市场条件。
2. 对多种Alpha选择策略（包括随机选择、低相关性选择和高贡献度选择）进行了实证分析，证明了所提出的框架在不同股票上均能持续优于市场基准。这为Alpha质量和选择标准如何影响投资组合表现提供了实践见解。

本文的其余部分结构如下：第二部分回顾了相关工作。第三部分描述了研究方法。第四部分展示了实验结果。第五部分提供了进一步的讨论。最后，第六部分对全文进行了总结。

2. 相关工作

回顾现有文献对于明确本研究的创新性至关重要。本节将概述Alpha生成技术从传统方法到高级人工智能应用的演进过程，从而为我们提出的框架提供背景。

金融领域的Alpha生成是指交易策略超越市场或基准（如股票指数）表现的能力。传统的Alpha生成方法基于基本面分析和技术分析，旨在识别历史股价、交易量及其他经济因素中的模式。然而，随着金融市场的日趋复杂，利用机器学习，乃至最近的深度学习等量化方法来开发公式化Alpha已变得越来越普遍。公式化Alpha是旨在预测市场走势并产生超额回报的数学公式或模型。

早期在公式化Alpha生成方面的努力依赖于统计和计量经济学模型。例如，Fama和French [13]提出的因子模型，旨在通过市场风险、规模、价值和动量等因子来解释资产回报。这些模型是理解系统性风险因素的基础，但在捕捉金融数据中复杂的非线性关系方面存在局限。

机器学习方法在Alpha生成领域获得了显著关注。一个值得注意的发展是使用监督学习模型来预测股价和回报。研究人员已应用了多种机器学习技术，包括决策树[14]、支持向量机（SVM）[15, 16]和随机森林[17]，以识别历史数据中的模式并生成Alpha信号。然而，这些模型通常受限于对结构化数据的依赖以及对耗时且易于产生偏见的手动特征工程的需求。

Alpha生成研究的最新转变涉及深度学习技术的应用。与传统机器学习方法相比，深度学习模型能够自动从原始市场数据中学习复杂和非线性的模式，从而克服了手动特征工程的局限性。特别是卷积神经网络（CNN）[18]和循环神经网络（RNN）[19]在股票市场预测中得到了广泛应用。最近，研究人员提出了混合模型以进一步提高预测性能，例如Zhang等人[20]提出的CNN-BiLSTM-Attention模型，以及Lu等人[21]提出的CNN-LSTM模型。近年来，基于Transformer的模型已成为股价预测的热门选择，例如Informer [23]和Autoformer [24]等。

除了监督学习和深度学习，自然语言处理（NLP）技术也被用于从非结构化数据源（如金融新闻、财报和社交媒体）中提取信息。NLP模型，特别是像LLaMA和GPT这样的生成式LLM，在情感分析和基于文本数据预测股票走势方面显示出巨大潜力[8, 27, 28]。

基于提示的LLM是公式化Alpha生成中另一个新兴的研究领域。这些模型根据定制的输入提示生成特定的金融Alpha。例如，Chen和Kawashima [10]利用LLM生成公式化Alpha，并证明了其在预测股价走势方面的有效性。Wang等人[9]则使用基于提示的GPT-4模型生成公式化Alpha。然而，这些研究仅止步于Alpha的生成，并未解决如何自适应地组合它们或评估其随时间变化的表现。

强化学习（RL）在金融预测和交易中也日益受到关注。RL模型通过与市场环境的试错交互来学习最优交易策略。通过基于观察到的奖励持续更新其策略，RL算法可以适应变化的市场动态并改进决策[30]。各种RL方法，如深度Q网络（DQN）和近端策略优化（PPO），已成功应用于投资组合管理和算法交易等任务[31-34]。

将LLM和RL相结合以优化多个公式化Alpha仍然是一个相对新颖的研究领域。本研究旨在填补这一空白，即探索将基于LLM的Alpha生成与基于RL的权重优化相结合的有效性，从而构建一个能够动态适应市场变化的综合交易框架。

3. 研究方法

本研究的总体方法论框架旨在构建一个端到端的交易策略，涵盖从数据获取、Alpha生成到核心的基于PPO的权重优化算法。本节将详细阐述这一框架，为所提出的策略提供一个全面的蓝图。

3.1 数据来源与处理

本研究使用的数据主要来自两个渠道：股票数据和金融新闻情感数据。

我们使用yfinance Python库下载了丰田、苹果、汇丰、百事和腾讯五家公司从2016年2月16日到2024年5月8日的历史股票价格数据，包括每日的开盘价、收盘价、最高价、最低价和成交量。这些数据被用于计算关键的技术指标，这些指标是Alpha生成过程的输入。我们使用pandas-ta库计算了表1中列出的所有技术指标。

指标名称
简单移动平均线 (5日)
简单移动平均线 (20日)
指数移动平均线 (10日)
动量 (3日)
动量 (10日)
相对强弱指数 (14日)
移动平均收敛散度 (MACD)
MACD信号线
布林带上轨
布林带下轨
平衡交易量 (OBV)
表1: 用于Alpha生成的技术指标

每日新闻文章数据通过Eodhd API获取，情感分析则使用NLTK自然语言处理模型进行。该模型分析文本的基调并输出一个从-1（强负面）到1（强正面）的极性分数，0代表中性。这个情感分数与历史价格和技术指标数据一起被整合到LLM的提示中，以生成公式化Alpha。

我们将数据的前80%用于模型训练，剩余的20%用于测试。

3.2 模型设置

3.2.1 基于提示的LLM Alpha生成

我们使用deepseek-r1-distill-llama-70b模型生成公式化Alpha。该模型由美国AI公司Groq提供，它采用知识蒸馏技术，即一个较小的“学生”模型（deepseek-r1-distill-llama-70b）从一个更大、更复杂的“教师”模型（LLaMA-70B）的输出中学习[35]。这种方法使得学生模型在保持轻量化的同时，能够继承教师模型的大部分性能。

我们向LLM的提示中输入了所有公司的历史价格、技术指标和情感分数。模型基于这些输入为所有公司生成了一套通用的、包含五十个不同公式的Alpha。这些Alpha是结合了动量、移动平均线、RSI和情感等多种金融指标的数学表达式。提示的结构如表2所示：

你是一位量化交易员。请使用给定的股票特征：{features}，生成50个alpha公式。这些公式应该是结合了这些特征的数学表达式。请仅返回Python语法的公式，使用像C_t（收盘价）、O_t（开盘价）、V_t（成交量）、S_t（情感）以及标准指标（SMA、动量）这样的变量。输出示例：alpha_t = (C_t - O_t) / O_t + 0.5 * S_t

表2: 用于公式化Alpha生成的LLM提示

3.2.2 基于PPO的Alpha权重优化

我们选择PPO算法进行Alpha权重优化，因为它特别适合金融应用中的连续动作空间。PPO的三个关键特性使其成为理想选择：（1）其裁剪的目标函数可防止破坏性的大规模策略更新；（2）其样本效率高，符合金融数据质量高但数量有限的特点；（3）其能够处理市场环境中固有的非平稳动态。

交易环境被定义为一个部分可观察马尔可夫决策过程（POMDP）。在时间t的状态空间s_t包括四类信息： s_t = {\text{OHLCV}t, p{t-1}, \text{regime}_t, \sigma_t} \quad (2) 其中，OHLCVt 是原始价格和交易量数据，pt−1 是前一时刻的头寸，regimet 是基于20日和100日移动平均线交叉的牛/熊市分类，σt 是63日滚动日波动率。

动作空间A是一个50维的权重向量w_t，对应于每个Alpha信号。这些权重通过L1约束进行归一化： \tilde{w}_t = \text{clip}(w_t, -1, 1) \quad (3) w_t^{\text{norm}} = \frac{\tilde{w}_t}{|\tilde{w}_t|_1 + \epsilon}, \quad \epsilon = 10^{-8} \quad (4) 裁剪操作确保权重在[-1, 1]区间内，防止极端权重。随后的L1归一化确保权重的绝对值之和约等于1。这种归一化在保持多空信号可解释性的同时，也维持了数值稳定性，通过添加一个极小值ϵ来避免除以零。

奖励函数r_t结合了两个关键部分：持仓盈亏和交易成本。 r_t = \underbrace{p_t \cdot R_t^{\text{future}}}{\text{持仓盈亏}} - \underbrace{\lambda |p_t - p{t-1}|}_{\text{交易成本}} \quad (5) 其中 Rfuturet 是资产在下一期的已实现回报，λ = 0.1% 是交易成本系数。

最终头寸 pt 的计算分为多个阶段。首先，计算复合Alpha α_composite_t： \alpha_{\text{composite},t} = \sum_{i=1}^{50} w_t[i] \cdot \alpha_{i,t} \quad (6) 然后，根据以下逻辑确定头寸规模： p_t = v_t \cdot \begin{cases} \min(1, 2(\alpha_{\text{composite},t} - \tau_{\text{upper},t})) & \text{if } \alpha_{\text{composite},t} > \tau_{\text{upper},t} \ \max(-1, 2(\alpha_{\text{composite},t} - \tau_{\text{lower},t})) & \text{if } \alpha_{\text{composite},t} < \tau_{\text{lower},t} \ 0 & \text{otherwise} \end{cases} \quad (7) 此处的头寸规模计算逻辑体现了策略的复杂性。波动率缩放因子 vt 用于动态调整头寸以维持稳定的风险暴露。当市场波动加剧时，它会缩减头寸规模；而在低波动性环境下，则会放大头寸以抓住机会。自适应滚动分位数阈值 τ_upper_t 和 τ_lower_t（分别基于过去126天的75%和25%分位数价格）充当信号过滤器。之所以选择126天（约半个交易年）的窗口期，是因为它在过滤短期市场噪音和适应市场状况变化之间取得了平衡。该机制使其能够自动适应市场波动性，从而在避免过度交易的同时捕捉真实趋势。

PPO的目标函数如下： L^{\text{CLIP}}(\theta) = \hat{\mathbb{E}}t \left[ \min \left( \frac{\pi\theta(a_t|s_t)}{\pi_{\theta_{\text{old}}}(a_t|s_t)} \hat{A}t, \text{clip}\left(\frac{\pi\theta(a_t|s_t)}{\pi_{\theta_{\text{old}}}(a_t|s_t)}, 1-\epsilon, 1+\epsilon\right) \hat{A}_t \right) \right] \quad (8) PPO代理使用Stable-Baselines3的默认超参数进行训练，包括学习率3 × 10−4，折扣因子0.99和裁剪参数0.2。

3.3 评估指标

为了全面评估所提出框架的有效性，我们采用了一系列指标，既衡量Alpha的预测质量，也评估整体交易策略的表现。

* 信息系数 (IC): 衡量预测信号与实际未来回报之间的秩相关性。IC值大于0.05通常被认为具有显著的预测能力，而负值可用于构建反向策略[36]。

\text{IC} = \frac{\text{Cov}(\text{rank}(\hat{r}), \text{rank}(r))}{\sigma_{\text{rank}(\hat{r})} \cdot \sigma_{\text{rank}(r)}} \quad (9)

* 互信息 (MI): 量化输入特征与目标变量之间共享的信息量，能捕捉线性和非线性关系。

I(X;Y) = \sum_{x \in X} \sum_{y \in Y} p(x,y) \log\left(\frac{p(x,y)}{p(x)p(y)}\right) \quad (10)

* LightGBM特征重要性 (增益): 衡量每个特征在所有分裂中带来的总损失减少量，反映其对模型性能的贡献。我们选择增益（Gain）作为衡量标准，因为它直接量化了特征对减少预测误差的贡献。相比之下，其他指标如分裂（Split）和覆盖（Cover）重要性可能会受到频繁但微弱的分裂或不均匀样本分布的影响，因此不太适合评估预测强度。

\text{Importance}(f_i) = \sum_{t=1}^{T} \sum_{s \in S_t(f_i)} \Delta L_{t,s} \quad (11)

* 累计回报 (Rcum): 衡量策略在整个评估期内的总盈利能力。

R_{\text{cum}} = \prod_{t=1}^{T} (1 + r_t) - 1 \quad (12)

* 夏普比率 (Sharpe Ratio): 衡量经风险调整后的回报。夏普比率大于1通常被认为是良好交易策略的标志，表明策略所获得的收益显著高于其承担的风险。

\text{Sharpe Ratio} = \frac{R_p - R_f}{\sigma_p} \quad (13)

* 最大回撤 (MDD): 表示从峰值到谷底的最大跌幅，是评估下行风险的关键指标。

\text{MDD} = \max_{t \in [0, T]} \left( \frac{\max_{\tau \in [0,t]} P(\tau) - P(t)}{\max_{\tau \in [0,t]} P(\tau)} \right) \quad (14)

通过综合使用这些评估指标，我们可以更可靠地评估模型在真实交易场景中的有效性。接下来，我们将展示应用此框架和这些指标所得出的实验结果。

4. 实验结果

本节将呈现研究的实证结果。我们首先分析由LLM生成的Alpha信号的质量，然后评估经PPO优化的交易策略与既定基准相比的表现。

4.1 Alpha信号质量分析

互信息（MI）与信息系数（IC）分析图4展示了五十个LLM生成的Alpha在五家公司中的互信息（MI）和信息系数（IC）。蓝色条代表MI值，红色条代表IC值。

(a) Apple (b) HSBC (c) Tencent (d) Toyota (e) Pepsi 图4: LLM生成的Alpha的互信息（蓝色）与信息系数（红色）

* 苹果（Apple）：显示出最强的整体信号，多个Alpha的MI值超过0.04，表明信号与回报之间存在中到强的依赖关系。然而，其IC值各不相同，表明高MI值并不总能转化为高方向性预测能力。
* 汇丰（HSBC）：以其较高的IC值而突出，多个Alpha的IC值超过0.04，显示出强大且一致的方向预测能力。
* 腾讯（Tencent）：MI值普遍较低，IC值多为负，表明LLM生成的Alpha对腾讯股票回报的依赖性较弱，且未能捕捉到准确的方向。
* 丰田（Toyota）：少数Alpha（如2、4、5）的IC值超过0.06，显示出强大的预测信号，但大多数Alpha的IC值在0.01到0.03之间，反映了相对较弱但仍可用的信号。
* 百事（Pepsi）：许多Alpha的MI值较高，但IC值大多为负，表明信号虽然与回报相关，但预测方向往往不正确。

综合来看，这些结果揭示了一个关键发现：信号与回报之间的统计依赖性（MI）并不能保证其方向性预测能力（IC），这是策略设计中必须考虑的核心问题。

LightGBM特征重要性分析图5展示了LightGBM的特征重要性分数。结果表明：

(a) Apple (b) HSBC (c) Tencent (d) Toyota (e) Pepsi 图5: LLM生成的Alpha的特征重要性

* Alpha 25 是苹果、丰田和百事的最具影响力的特征。
* Alpha 21 对汇丰和腾讯的重要性最高。
* Alpha 39 在所有五家公司中的重要性都微乎其微。

虽然不同股票优先考虑的Alpha有所不同，但重要性分数的整体分布并未显示出极端差异，这表明模型依赖于多个Alpha的平衡组合，而非少数几个主导Alpha。这种多样性凸显了每个Alpha的预测能力可能高度依赖于各支股票的内在特性。

4.2 策略性能对比

PPO调整策略与市场基准对比表7展示了PPO调整策略与相应市场基准的性能对比。为了捕捉随机性，每个框架均执行十次，结果以均值（标准差）的形式报告。

指标苹果 (Apple) 汇丰 (HSBC) 百事 (Pepsi) 腾讯 (Tencent) 丰田 (Toyota)
累计回报 1.6817 (0.0619) 0.4657 (0.0554) 0.6272 (0.0331) 0.6245 (0.0632) 0.0299 (0.0398)
夏普比率 1.9998 (0.0169) 0.8131 (0.0691) 1.4319 (0.0434) 1.1440 (0.1052) 0.1011 (0.0786)
最大回撤 -0.0101 (0.0007) -0.2259 (0.0099) -0.0067 (0.0001) -0.0810 (0.0208) -0.2801 (0.0076)
市场回报 0.3476 (标普500) 0.0033 (恒生) 0.3476 (标普500) 0.0033 (恒生) 0.4081 (日经225)
表7: PPO调整策略 vs. 市场基准（使用50个Alpha），均值（标准差）

分析结果显示，PPO调整策略在大多数公司上表现出色。苹果、汇丰、百事和腾讯均取得了显著高于其市场基准的累计回报和夏普比率，且回撤较低。然而，丰田的表现相对较差，回报低于其基准。这可能归因于LLM生成的Alpha对丰田的信号较弱或噪声较多，或是由于日经225指数与美国市场相比具有更高的波动性和更低的流动性等市场特定因素。标准差值表明，苹果和百事的表现高度一致，而丰田的结果则不太稳定。

PPO调整策略与等权重策略对比表8比较了PPO调整策略与使用相同Alpha集的等权重策略。

指标苹果 (Apple) 汇丰 (HSBC) 百事 (Pepsi) 腾讯 (Tencent) 丰田 (Toyota)
累计回报 -0.3200 -0.9059 -0.1726 -0.7074 0.1026
夏普比率 -0.3601 -0.3580 -0.2879 -0.2032 0.1586
最大回撤 -0.3663 -0.9489 -0.2922 -0.8741 -0.3571
市场回报 0.3476 (标普500) 0.0033 (恒生) 0.3476 (标普500) 0.0033 (恒生) 0.4081 (日经225)
表8: 等权重策略（使用50个Alpha）

与等权重策略相比，PPO调整策略在除丰田外的所有股票上均表现出卓越的性能。PPO策略实现了更高的累计回报和夏普比率，以及更低的最大回撤。这一对比有力地表明，PPO框架的动态权重调整机制能够有效识别并侧重于信息量更大的Alpha，从而获得比静态等权重方案更稳健、更盈利的交易表现。

这些关键结果总结完毕后，下一节将进一步探讨这些发现并对其进行情境化分析。

5. 进一步讨论

本节旨在通过一系列消融研究来探讨我们所提框架的鲁棒性和敏感性。我们将研究Alpha数量、LLM提示信息以及情感数据对交易性能的影响，从而深入探究框架性能的驱动因素。

5.1 不同Alpha选择设置对交易性能的影响

我们测试了三种不同的Alpha选择方法：（1）低相关性选择（移除相关性绝对值大于0.7的Alpha），（2）高贡献度选择（选择LightGBM增益排名前十的Alpha），以及（3）随机选择（随机选择三十个Alpha）。

指标苹果 (Apple) 汇丰 (HSBC) 百事 (Pepsi) 腾讯 (Tencent) 丰田 (Toyota)
累计回报 1.6641 (0.1755) 0.4983 (0.0660) 0.6319 (0.0775) 0.5956 (0.0722) 0.0842 (0.0579)
夏普比率 2.0002 (0.0692) 0.8388 (0.0776) 1.4259 (0.0622) 1.1191 (0.1018) 0.2072 (0.1083)
最大回撤 -0.0113 (0.0016) -0.2210 (0.0121) -0.0066 (0.0002) -0.0810 (0.0183) -0.2344 (0.0288)
表9: 使用低相关性Alpha的PPO调整策略 vs. 市场基准，均值（标准差）

指标苹果 (Apple) 汇丰 (HSBC) 百事 (Pepsi) 腾讯 (Tencent) 丰田 (Toyota)
累计回报 1.6072 (0.1093) 0.5199 (0.0991) 0.6023 (0.0441) 0.5634 (0.1200) 0.0741 (0.0395)
夏普比率 1.9890 (0.0626) 0.8791 (0.1215) 1.3996 (0.0296) 1.0620 (0.1735) 0.1894 (0.0765)
最大回撤 -0.0113 (0.0016) -0.2286 (0.0253) -0.0076 (0.0022) -0.0919 (0.0263) -0.2625 (0.0217)
表10: 使用高贡献度Alpha的PPO调整策略 vs. 市场基准，均值（标准差）

指标苹果 (Apple) 汇丰 (HSBC) 百事 (Pepsi) 腾讯 (Tencent) 丰田 (Toyota)
累计回报 1.7276 (0.0647) 0.4853 (0.0451) 0.6176 (0.0225) 0.6041 (0.0755) 0.0410 (0.0291)
夏普比率 2.0133 (0.0255) 0.8399 (0.0534) 1.4271 (0.0367) 1.1129 (0.1132) 0.1238 (0.0565)
最大回撤 -0.0109 (0.0009) -0.2248 (0.0061) -0.0068 (0.0006) -0.0937 (0.0307) -0.2664 (0.0137)
表11: 使用30个随机选择的Alpha的PPO调整策略 vs. 市场基准，均值（标准差）

总体而言，结果表明该框架对不同的Alpha选择方法具有普遍的鲁棒性。尽管不同设置对个别股票的影响各异，但策略始终能够超越市场基准，核心结论保持不变。这表明，框架的稳健性主要源于核心的PPO优化机制，而非特定Alpha组合的选择，这凸显了动态权重分配的重要性。

5.2 提示信息对交易性能的影响

我们仅针对苹果公司，测试了两种替代提示情景：（1）仅提供特征名称，（2）仅提供苹果公司的部分信息。

指标完整信息部分信息仅特征名称
累计回报 1.6817 (0.0619) 1.4312 (0.1342) 1.2134 (0.0848)
夏普比率 1.9998 (0.0169) 1.9715 (0.0622) 1.9540 (0.0360)
最大回撤 -0.0101 (0.0007) -0.0130 (0.0011) -0.0116 (0.0012)
市场回报 0.3476 (标普500) 0.3476 (标普500) 0.3476 (标普500)
表13: 苹果公司在不同提示信息下的PPO调整策略表现，均值（标准差）

结果表明，即使提示信息变化或最少化，该框架依然表现出高度的鲁棒性，取得了强劲的性能并超越了市场基准。这一发现具有重要的实践意义，因为它表明即使在提示信息不完整的情况下，该框架也能生成有效的Alpha并取得优异表现，从而降低了对完美提示工程的依赖。

5.3 情绪特征对交易性能的影响

我们测试了三种情感设置：（1）仅目标公司情感，（2）所有公司情感，（3）无情感。根据对五家公司的测试结果（如源数据中的表14至18所示），我们得出的主要结论是：在PPO框架内加入情感特征并未导致交易性能出现实质性差异。在所有三种情感设置下，所提出的策略都持续表现出强劲的成果，这表明该框架的性能主要由价格和技术指标驱动，而非情感特征。

这些详细的分析引出了本文的最终结论。

6. 结论

本研究的核心目标是探索将用于Alpha生成的LLM与用于动态权重优化的PPO相结合的协同效应。

关键的实验结果表明，经PPO调整的策略在大多数目标股票上的累计回报、夏普比率和最大回撤方面，均显著优于传统市场基准和等权重投资组合。例如，在苹果和百事等公司的股票上，该策略不仅回报更高，还展现了强大的风险调整后表现和下行保护能力，证明了其优越性。

此外，进一步的讨论分析揭示了该框架的鲁棒性。无论是在Alpha选择、提示信息还是情感特征方面进行变化，该框架均能保持稳健的表现，持续超越市场基准。这一发现的意义在于，它表明框架的成功并非依赖于特定的输入配置，而是源于其核心的自适应优化能力。

综上所述，本研究证明了将LLM与强化学习相结合的方法在创建有效且可解释的交易策略方面具有巨大潜力。未来的工作可以探索替代的LLM架构和强化学习方法，并将该框架应用于其他市场或资产类别，以进一步验证和拓展其应用范围。

参考文献

[1] Yash K. Pardeshi and Prof. Preeti Kale. Technical analysis indicators in stock market using machine learning: A comparative analysis. In 2021 12th International Conference on Computing Communication and Networking Technologies (ICCCNT), pages 1–6, 2021. [2] Seyed Mostafa Mostafavi and Ali Reza Hooman. Key technical indicators for stock market prediction. Machine Learning with Applications, 20:100631, 2025. [3] Yi Zhou and Jianwu Lin. The alpha life cycle of quantitative strategy. In 2017 IEEE/SICE International Symposium on System Integration (SII), pages 53–59, 2017. [4] Latrisha N. Mintarya, Jeta N.M. Halim, Callista Angie, Said Achmad, and Aditya Kurniawan. Machine learning approaches in stock market prediction: A systematic literature review. Procedia Computer Science, 216:96–102, 2023. 7th International Conference on Computer Science and Computational Intelligence 2022. [5] Terrence J. Sejnowski. The unreasonable effectiveness of deep learning in artificial intelligence. Proceedings of the National Academy of Sciences, 117(48):30033–30038, January 2020. [6] Lei Gao and Ling Guan. Interpretability of machine learning: Recent advances and future prospects. IEEE MultiMedia, 30(4):105–118, 2023. [7] Zhizhuo Kou, Holam Yu, Jingshu Peng, and Lei Chen. Automate strategy finding with llm in quant investment, 2024. [8] Qizhao Chen and Hiroaki Kawashima. Stock price prediction using llm-based sentiment analysis. In 2024 IEEE International Conference on Big Data (BigData), pages 4846–4853, 2024. [9] Yining Wang, Jinman Zhao, and Yuri Lawryshyn. Gpt-signal: Generative ai for semi-automated feature engineering in the alpha research process, 2024. [10] Qizhao Chen and Hiroaki Kawashima. Sentiment-aware stock price prediction with transformer and llm-generated formulaic alpha, 2025. [11] Zura Kakushadze. 101 formulaic alphas, 2016. [12] John Schulman, Filip Wolski, Prafulla Dhariwal, Alec Radford, and Oleg Klimov. Proximal policy optimization algorithms, 2017. [13] Eugene F. Fama and Kenneth R. French. Common risk factors in the returns on stocks and bonds. Journal of Financial Economics, 33(1):3–56, 1993. [14] Rupesh A. Kamble. Short and long term stock trend prediction using decision tree. In 2017 International Conference on Intelligent Computing and Control Systems (ICICCS), pages 1371–1375, 2017. [15] Zhen Hu, Jie Zhu, and Ken Tse. Stocks market prediction using support vector machine. In 2013 6th International Conference on Information Management, Innovation Management and Industrial Engineering, volume 2, pages 115–118, 2013. [16] Zixuan Liu, Ziyuan Dang, and Jie Yu. Stock price prediction model based on rbf-svm algorithm. In 2020 International Conference on Computer Engineering and Intelligent Control (ICCEIC), pages 124–127, 2020. [17] Shipei Du, Dehong Hao, and Xiao Li. Research on stock forecasting based on random forest. In 2022 IEEE 2nd International Conference on Data Science and Computer Application (ICDSCA), pages 301–305, 2022. [18] Sidra Mehtab and Jaydip Sen. Stock price prediction using cnn and lstm-based deep learning models. In 2020 International Conference on Decision Aid Sciences and Application (DASA), pages 447–453, 2020. [19] Sagar Shinde, Lalitkumar Wadhwa, Naynesh Mohane, Vishal Pagar, Nitin Sherje, and Sohan Mane. Stock price prediction using lstm. In 2023 7th International Conference On Computing, Communication, Control And Automation (ICCUBEA), pages 1–7, 2023. [20] Jilin Zhang, Lishi Ye, and Yongzeng Lai. Stock price prediction using cnn-bilstm-attention model. Mathematics, 11(9), 2023. [21] Wenjie Lu, Jiazheng Li, Yifan Li, Aijun Sun, and Jingyang Wang. A cnn-lstm-based model to forecast stock prices. Complexity, 2020(1):6622927, 2020. [22] Qizhao Chen and Hiroaki Kawashima. A novel sentiment correlation-based method with dual transformer model for stock price prediction. Preprint, Research Square, 2025. [23] Haoyi Zhou, Shanghang Zhang, Jieqi Peng, Shuai Zhang, Jianxin Li, Hui Xiong, and Wancai Zhang. Informer: Beyond efficient transformer for long sequence time-series forecasting, 2021. [24] Haixu Wu, Jiehui Xu, Jianmin Wang, and Mingsheng Long. Autoformer: Decomposition transformers with auto-correlation for long-term series forecasting, 2022. [25] Yuxuan Wang, Haixu Wu, Jiaxiang Dong, Guo Qin, Haoran Zhang, Yong Liu, Yunzhong Qiu, Jianmin Wang, and Mingsheng Long. Timexer: Empowering transformers for time series forecasting with exogenous variables, 2024. [26] Tong Li, Zhaoyang Liu, Yanyan Shen, Xue Wang, Haokun Chen, and Sen Huang. Master: Market-guided stock transformer for stock price forecasting, 2023. [27] Hongyang Yang, Xiao-Yang Liu, and Christina Dan Wang. Fingpt: Open-source financial large language models, 2023. [28] Qianqian Xie, Weiguang Han, Xiao Zhang, Yanzhao Lai, Min Peng, Alejandro Lopez-Lira, and Jimin Huang. Pixiu: A large language model, instruction data and evaluation benchmark for finance, 2023. [29] Zhizhuo Kou, Holam Yu, Junyu Luo, Jingshu Peng, and Lei Chen. Automate strategy finding with llm in quant investment, 2025. [30] Qizhao Chen. Stock price change prediction using prompt-based llms with rl-enhanced post-hoc adjustments. In Proceedings of the 2025 4th International Conference on Bigdata Blockchain and Economy Management (ICBBEM 2025), pages 475–483. Atlantis Press, 2025. [31] Gang Huang, Xiaohua Zhou, and Qingyang Song. A deep reinforcement learning framework for dynamic portfolio optimization: Evidence from china’s stock market, 2025. [32] Philip Ndikum and Serge Ndikum. Advancing investment frontiers: Industry-grade deep reinforcement learning for portfolio optimization, 2024. [33] Rishabh Sharma, Ajay Sharma, Shanmugasundaram Hariharan, and Vishal Jain. Adaptive investment strategies: Deep reinforcement learning approaches for portfolio optimization. In 2024 4th International Conference on Intelligent Technologies (CONIT), pages 1–5, 2024. [34] Adrian Millea and Abbas Edalat. Using deep reinforcement learning with hierarchical risk parity for portfolio optimization. International Journal of Financial Studies, 11(1), 2023. [35] Geoffrey Hinton, Oriol Vinyals, and Jeff Dean. Distilling the knowledge in a neural network, 2015. [36] David Dreman. Contrarian Investment Strategies: The Next Generation. Free Press, 1998.

基于PPO的自适应Alpha权重分配：增强由LLM生成的量化交易Alpha因子

关于我们

链接