AlphaQuanter:一个用于股票交易的端到端、工具编排的智能体强化学习框架
作者: Zheye Deng, Jiashu Wang 单位: HKUST 联系方式: {zdengah, jwangjv}@cse.ust.hk 项目链接:
* 主页: https://alphaquanter.github.io/
* 代码库: https://github.com/AlphaQuanter/AlphaQuanter
--------------------------------------------------------------------------------
摘要
尽管基于大型语言模型(LLM)的智能体在自动化交易领域展现出巨大潜力,但它们仍面临着严峻的挑战。当前主流的多智能体框架普遍存在效率低下、信号不一致的问题,并且缺乏从市场反馈中学习连贯策略的端到端优化机制。为应对这些挑战,我们提出了AlphaQuanter,一种为动态策略优化而设计的单智能体架构。该框架利用强化学习(RL)在一个透明的、由工具增强的决策工作流上学习动态策略,赋予单个智能体自主编排工具和按需主动获取信息的能力,从而建立一个透明且可审计的推理过程。广泛的实验证明,AlphaQuanter在关键财务指标上实现了**最先进的(state-of-the-art)**性能。此外,其可解释的推理过程揭示了复杂的交易策略,为人类交易员提供了新颖且有价值的见解。我们的数据采集与智能体训练代码已公开发布。
--------------------------------------------------------------------------------
1. 引言
在现代金融市场中,自动化交易系统的研究正蓬勃发展。传统的机器学习方法(如支持向量机、随机森林等)[1–3]通常将复杂的交易问题简化为对下一时刻价格方向的离散预测,这限制了它们有效整合多源异构交易信号的能力。尽管深度强化学习(DRL)能够直接围绕长期投资组合回报优化决策[4, 5],但其固有的“黑箱”特性导致交易决策缺乏可解释性与可追溯性。近年来,大型语言模型(LLM)在该领域展现出了巨大的潜力[6–8]。
然而,现有基于LLM的交易尝试仍面临一系列关键挑战:
* 工具编排与主动信息获取能力缺失:当前模型难以在推理过程中自主调用并顺序使用外部工具,也无法有效识别信息缺口并按需填补,这严重制约了其决策的深度和广度。
* 决策透明度与可解释性不足:现有的训练范式多为黑箱式的端到端优化或离线拟合,缺乏对决策推理轨迹的透明展示和对决策模式的可视化分析。这使得建立用户信任和支持监管审计变得异常困难。
* 基于提示的方法鲁棒性差:此类方法对提示工程极为敏感。在多智能体辩论场景中,由于缺乏有效的协调与约束机制,常导致决策效率低下、系统脆弱和信号不一致等问题。
总体而言,在部分可观察的条件下进行推理、整合异构信号以及以经过校准的置信度执行行动,仍然是亟待解决的核心挑战。
为应对上述挑战,我们提出了AlphaQuanter,一个旨在实现信息丰富、可解释且稳健的交易决策的单智能体交易框架。其设计理念和核心优势如下:
* 统一的工作流:AlphaQuanter将整个决策流程统一到一个为交易导向的规划与推理量身定制的、类似ReAct的智能体[9]中。该流程始于一个引导性计划,随后是工具使用、信息寻求和深度分析的迭代循环,模拟了人类交易员的认知过程。
* 强化学习优化:为增强决策能力并提升模型透明度,我们利用带有可验证奖励的强化学习[10, 11]对模型进行端到端优化,使其能够选择性地调用有用工具并有效收集支持性证据。我们精心设计了基于结果和过程的高质量奖励信号,以指导强化学习训练。
* 设计优势:此设计不仅消除了对多智能体进行大量提示工程的需求,还同时保证了最终决策过程的可解释性与灵活性,能够在复杂市场环境中做出更为一致和可靠的判断。
本文的核心贡献可总结为以下三点:
* 我们提出了一种新颖的单智能体框架,其有效的推理链确保了决策的一致性与可解释性。
* 我们设计了一种端到端的强化学习方法,训练智能体主动获取有用信息并为深度分析筛选证据,从而直接优化整个决策过程以实现长期盈利。
* 我们通过广泛的实证评估证明,AlphaQuanter不仅在关键财务指标上达到了最先进水平,还学习到了能够为人类专家提供实用见解的复杂策略。
接下来,我们将回顾自动化交易领域的相关工作,为后续的详细论述奠定基础。
2. 相关工作
本节将回顾自动化交易领域的演进,从传统机器学习方法到深度强化学习,再到最新的基于LLM的智能体,并深入分析各类方法的贡献与局限性。
传统机器学习与深度强化学习
早期方法,如支持向量机(SVM)和随机森林[1–3],通常将交易任务简化为简单的价格方向分类问题。然而,这种过度简化已被证明在复杂的交易环境中泛化能力较差[12]。
深度强化学习(DRL)的出现为该领域带来了新的范式。Moody and Saffell [4] 作为先驱,将DRL应用于股票交易,通过端到端的方式直接优化交易表现,并在标普500指数的长期回测中超越了监督学习方法。随后,iRDPG [13] 在部分可观察马尔可夫决策过程中集成了模仿学习,利用专家行为来稳定训练过程,但其方法对现有策略存在过度依赖。DeepTrader [5] 引入了宏观状态和风险敏感奖励,实现了对多空头寸的动态调整和风险控制。MTS [14] 则通过时间感知编码、并行做空和基于条件风险价值(CVaR)的风险管理,显著提升了在多个数据集上的回报。然而,这些DRL方法共同的缺陷在于,它们属于端到端的黑箱优化,缺乏必要的可解释性,并且无法按需整合如新闻、基本面等外部信号。
基于LLM的交易智能体
近期,基于LLM的交易智能体研究取得了显著进展。TradingAgents [6] 引入了一个多智能体框架,通过模拟分析师、交易员、风控等角色的协作互动来形成交易决策,其回测结果优于多种基准方法。FinAgent [7] 则结合了多模态信息融合与工具增强,在六项评估指标上达到了最先进水平。然而,这两种方法都缺乏明确的协调与约束机制,导致其辩论式的决策过程可能产生不一致或相互冲突的信号,并且对提示设计高度敏感。Alpha-GPT [8] 采用了一种人机回圈的范式,通过自然语言交互实现因子挖掘,但在高频交易环境中难以实现自主扩展和自动化。
基于LLM的强化学习优化
受近期研究成功的启发[10],越来越多的工作开始探索利用强化学习(RL)来优化LLM进行量化交易。FLAG-Trader [15] 采用部分微调的LLM作为策略网络,通过策略梯度方法优化交易奖励。Trading-R1 [16] 则构建了大规模的金融语料库,并实施了一个结合监督微调(SFT)与RL的三阶段课程学习框架。尽管这些方法取得了一定的成果,但它们普遍缺乏对真实交易过程的端到端模拟和自主探索能力,未能赋予模型自发感知信息差距或主动编排外部工具的能力。
先前工作的不足为AlphaQuanter的设计提供了明确的动机,接下来我们将详细阐述问题的数学定义。
3. 问题定义
为了在部分可观察的市场环境中进行单日交易决策,我们将智能体的任务建模为一个工具增强的马尔可夫决策过程(MDP)。该MDP由元组 ⟨S, A, T, R⟩ 定义。此框架下的核心挑战是学习一个能够最大化回报的工具使用和最终行动序列。
状态空间 S (State Space S) 状态 s ∈ S 捕获了智能体在决策过程中累积的所有信息,其形式化表示为一个元组:s = (initial_context, query_history, query_result)。
* initial_context 包含基础元数据,如股票代码和日期。
* query_history 记录了到目前为止已调用的所有工具。
* query_result 存储了这些工具调用所对应的输出。
动作空间 A (Action Space A) 动作空间 A 包含两种不同类型的动作:
* 查询动作 Aq:智能体可以从一个预定义的工具集 {f1, f2, ⋯, f|Aq|} 中选择一个查询动作,以主动从四类信息源(市场数据、基本面指标、情绪分析、宏观经济指标)中收集信息,从而更新其内部状态。
* 决策动作 Ad:智能体可以从 {BUY, SELL, HOLD} 中选择一个决策动作,该动作会立即终止当前的决策过程。
转移动态 T (Transition Dynamics T) 状态转移是确定性的。当智能体在时间步 t 选择一个查询动作 at ∈ Aq 时,当前状态 st 通过将该查询及其结果分别附加到 query_history 和 query_results 来转移到 st+1。相反,当智能体选择一个决策动作 at ∈ Ad 时,该回合(episode)立即终止。
奖励函数 R (Reward Function R) 一个决策回合会产生一条轨迹 τ = (s0, a0, s1, a1, ⋯, sT, aT),这是一个从初始状态 s0 开始,以第一个决策动作 aT 结束的状态-动作序列,其中所有中间动作 a0, ⋯, aT-1 均为查询动作。智能体的目标是学习一个策略 π,以最大化累积轨迹奖励 R(τ) = ∑T t=0 R(st, at)。奖励函数 R 的设计旨在促进战略性且盈利的决策,例如,在前景乐观时奖励 BUY,在前景悲观时奖励 SELL,在市场中性时奖励 HOLD,同时引导工具的使用朝向信息丰富的查询。
在明确了问题的数学形式化之后,下一节将详细介绍AlphaQuanter框架的具体实现。
4. AlphaQuanter框架
本节将详细介绍AlphaQuanter框架的核心设计,包括其受ReAct范式启发的认知工作流,以及为引导智能体学习盈利策略而精心设计的双重奖励函数。
4.1 认知工作流 (Cognitive Workflow)
AlphaQuanter的工作流借鉴了ReAct范式[9],将推理轨迹与离散动作紧密交织在一起,其整体架构如图1所示。工作流始于一个初始的计划(Plan)生成,随后进入一个包含三个迭代阶段的循环:
1. 识别信息差距并获取 (Acquire):识别当前信息中的不足,并通过调用工具获取新的证据。
2. 推理 (Reason):基于新获取的证据更新内部信念和分析。
3. 行动 (Act):基于当前分析,选择继续循环以收集更多信息,或做出最终的交易决策。
这种设计强制执行了逐步的假设检验,同时保持了证据收集与推理过程的紧密耦合,确保决策的每一步都有据可依。
图1: AlphaQuanter的总体架构与工作流。
4.2 奖励函数设计 (Reward Formulation)
奖励函数由两部分组成:结果分数(Outcome Score)过程分数(Process Score)。
结果分数 (Outcome Score)
此分数旨在鼓励智能体仅在高置信度的信号上采取行动,并正确地将市场状态分类为强劲看涨、看跌或中性,同时忽略市场噪声。为实现这一目标,我们通过混合多个时间跨度来平滑未来回报,类似于标签平滑技术[17, 18]。具体而言,我们定义了指数加权远期回报 rt 来过滤短期波动并强调中期趋势:
r_t = \sum_{h=1}^{H} \omega_h \cdot \left( \frac{p_{t+h+1}}{p_{t+1}} - 1 \right)
其中,pt 是资产在第 t 天的价格,H 是最大时间跨度,ωh = η^h / ∑H_{i=1} η^i 是归一化的指数权重,η ∈ (0, 1) 是衰减因子。通过对 rt 设置阈值 θ,我们可以判断市场状态,并根据智能体的动作分配离散奖励,如表1所示。
未来市场状态 at = BUY at = SELL at = HOLD
强劲看涨 (rt > θ) +1.0 -1.0 -0.75
强劲看跌 (rt < -θ) -1.0 +1.0 -0.75
横盘 (` rt ≤ θ`) -0.5
表1: Rresult 的离散奖励结构。
我们采用了一种非对称惩罚方案,旨在提供更具信息量的学习信号:对逆势操作施加的惩罚(-1.0)重于错失机会的惩罚(-0.75)。这种设计引导策略朝向符合专业交易实践的风险规避行为。
过程分数 (Process Score)
过程分数由格式分数 Rformat 和工具分数 Rtool 组成。
* Rformat 通过对推理轨迹的输出长度施加目标区间 [mintoken, maxtoken] 的约束,来鼓励模型生成充分而不冗长的分析。
* Rtool 则通过惩罚超出 [mintool, maxtool] 区间的总工具调用次数来管理信息获取的效率。它还特别阻止了“先收集后总结”的退化模式(即一次性调用所有工具然后直接给出答案),并对格式错误的工具调用施加额外惩罚。
最终,总奖励定义为:
R = \alpha R_{result} + R_{format} + R_{tool}
其中,超参数 α 的作用是赋予结果分数更高的权重,以体现其在引导策略学习中的首要重要性。
AlphaQuanter通过其精巧的认知工作流和双重奖励机制,为智能体学习复杂且盈利的交易策略提供了坚实的基础。下一节将介绍我们如何通过系统性的回测来评估该框架的有效性。
5. 评估方法
虽然策略是为日常决策而优化的,但其最终价值取决于策略在扩展时间范围内的风险调整后表现[19]。因此,本节将详细介绍用于评估的系统性回测协议、投资组合动态以及关键性能指标。
5.1 回测协议 (Backtesting Protocol)
我们进行系统性的回测模拟,即在一段历史时期内顺序应用每日训练的策略 π。根据该策略产生的一系列交易指令,我们模拟投资组合的动态变化,并衡量其最终表现。
5.2 投资组合状态与转移 (Portfolio State and Transition Dynamics)
投资组合的核心变量定义如表2所示,其状态转移规则由表3总结。
符号 描述
pi 资产在第 i 天的收盘价
hi 在第 i 天结束时持有的股票数量
ci 在第 i 天结束时的现金余额
Vi 在第 i 天结束时的投资组合总价值 (Vi = ci + hi ⋅ pi)
λ BUY/SELL 订单的交易费率
κ BUY 订单的资金利用率(滑点缓冲)
表2: 回测模拟参数。
动作 ht+1 ct+1
BUY ht + ⌊ κ * ct / pt+1 ⌋ ct - (1 + λ) * ⌊ κ * ct / pt+1 ⌋ * pt+1
SELL 0 ct + (1 - λ) * ht * pt+1
HOLD ht ct
表3: 不同动作下的状态转移规则。
5.3 评估指标 (Evaluation Metrics)
遵循先前研究[7, 20, 21],我们采用三个广泛使用的投资组合层面指标进行评估:
* 年化收益率 (Annualized Rate of Return, ARR) 该指标衡量策略的盈利能力,计算公式为: ARR = \left( \frac{V_T}{V_0} \right)^{\frac{252}{T}} - 1 其中 V0 和 VT 分别是初始和最终投资组合价值,T 是总交易日数,252是一年的交易日数。
* 夏普比率 (Sharpe Ratio, SR) 该指标衡量风险调整后的回报,更高的SR表示更好的风险调整后回报。计算公式为: SR = \frac{\bar{r}}{\sigma_r} 其中 rt 是日回报率,r̄ 是平均日回报率,σr 是日回报率的标准差。
* 最大回撤 (Maximum Drawdown, MDD) 该指标衡量投资组合从峰值到谷底的最大跌幅,更低的MDD反映了更好的下行风险控制能力。计算公式为: MDD = \max_{1 \le t \le T} \left( \frac{\max_{1 \le s \le t} V_s - V_t}{\max_{1 \le s \le t} V_s} \right)
在定义了评估方法和指标后,下一节将详细介绍用于执行这些评估的具体实验设置。
6. 实验设置
本节将详细阐述实验的具体配置,包括所选的数据集和模拟周期、智能体可用的多源信息、对比的基线模型以及训练实现的详细参数。
6.1 数据集与模拟周期 (Dataset and Simulation Period)
我们重点关注五只信息密集、信号丰富且波动性强的大盘股:Alphabet Inc. (GOOGL), Microsoft Corporation (MSFT), Meta Platforms, Inc. (META), NVIDIA Corporation (NVDA), 和 Tesla, Inc. (TSLA)。这些股票的市场环境能够充分考验智能体进行迭代式信息收集和动态规划分析的能力。
为了避免前视偏差并模拟真实的研究到部署流程,我们按时间顺序将数据划分为不重叠的训练集、验证集和测试集(见表4)。特别地,我们在连续的数据集之间插入了约30个交易日的间隔,以消除特征窗口重叠可能带来的信息泄露,并加强对模型样本外泛化能力的检验。
集合 开始日期 结束日期 交易日数
训练集 2022-09-01 2024-03-30 395
验证集 2024-05-15 2024-11-14 128
测试集 2025-01-01 2025-06-30 122
表4: 数据集划分与交易日数量。
6.2 信息来源 (Information Sources)
智能体的工具箱集成了四种主要的数据类别,以支持全面的决策分析:
* 市场数据 (Market Data):包括每日的开盘价、最高价、最低价、收盘价和成交量(OHLCV),以及一系列精心挑选的技术指标,涵盖趋势(如SMA, EMA)、动量(如RSI, STOCH)、波动率(如BBANDS)和成交量(如OBV)。
* 基本面数据 (Fundamental Data):来自公司财务报告的数据,如利润表、资产负债表、现金流量表、内部交易活动、股息历史和盈利预测等,用于评估公司的内在价值。
* 情绪数据 (Sentiment Data):来自财经新闻和社交媒体平台(如Reddit)的文本信号,用于量化市场情绪和投资者心理,捕捉短期的情绪和叙事转变。
* 宏观经济指标 (Macroeconomic Indicators):描述更广泛经济状况的指标,如通货膨胀率(CPI)、利率(联邦基金利率)和行业活动(如大宗商品价格),为资产定价提供宏观背景。
6.3 实现细节 (Implementation Details)
基线模型 (Baselines) 我们与四类基线模型进行比较:
1. 被动型策略:买入并持有(buy and hold)。
2. 经典规则型策略:移动平均收敛散度(MACD)和Z分数均值回归(ZMR)。
3. 多智能体LLM框架:TradingAgent,一个通过辩论式推理生成决策的先进框架。
4. AlphaQuanter的消融变体:仅进行零样本推理(zero-shot reasoning)而不经过RL训练。
对于基于LLM的基线,我们使用了多种骨干模型,包括 Qwen2.5-3B-Instruct, Qwen2.5-7B-Instruct, Qwen3-30B-A3B-Instruct, DeepSeek-V3.1, Kimi-K2, GPT-4o-mini, 和 GPT-4o。
训练细节 (Training Details) 我们使用 Qwen2.5-3B-Instruct 和 Qwen2.5-7B-Instruct 作为AlphaQuanter的骨干模型,并基于 verl 框架进行训练,使用 GRPO 算法优化策略。在推理时,我们采用确定性解码(temperature = 0)。为减少实验方差,所有配置均报告三次独立运行(使用不同随机种子)的平均性能。
硬件 所有实验均在 NVIDIA A100 GPU (80GB) 上进行。
全面的实验设置为我们深入分析和验证AlphaQuanter的性能提供了坚实的基础。下一节将呈现并深入分析这些实验的结果。
7. 结果与分析
为系统性地评估当前基于LLM的交易范式并验证AlphaQuanter方法的有效性,本节将围绕三个核心研究问题展开,并结合训练动态、工具使用模式和消融研究进行深入分析。
7.1 总体性能比较 (Overall Performance Comparison)
表5总结了所有方法在122天回测期内的表现。
模型 GOOGL ARR (↑) META ARR (↑) MSFT ARR (↑) NVDA ARR (↑) TSLA ARR (↑) 平均 ARR (↑) SR (↑) MDD (↓)
♦ 市场
买入并持有 -14.49% 45.64% 36.80% 25.47% -28.91% 12.90% 0.57 31.13%
♦ 规则型
MACD -3.17% 46.82% -9.58% -12.89% 22.77% 8.79% 0.44 21.24%
ZMR -2.26% -0.98% 8.53% 35.01% 16.74% 11.41% 0.46 20.86%
♦ 多智能体
Qwen2.5-3B 1.73% 36.25% 40.89% -3.28% -76.98% -0.28% -0.13 20.95%
Qwen2.5-7B 9.33% 28.98% -4.50% -17.22% -9.11% 1.50% -0.08 6.43%
Qwen3-30B -18.09% 1.36% 9.84% 10.22% -16.51% -2.64% 0.06 22.20%
DeepSeek-V3.1 -12.43% -9.48% 14.13% -24.02% 0.00% -6.36% -0.26 12.49%
Kimi-K2 -23.40% -9.52% 12.60% -8.33% 8.88% -3.95% -0.11 26.62%
GPT-4o-mini -18.08% 0.73% 16.27% -5.38% 5.20% -0.25% -0.06 18.28%
GPT-4o -14.95% 29.69% 38.62% -7.83% 36.92% 16.49% 0.50 21.82%
♦ 单智能体
Qwen2.5-3B 3.06% 23.08% 5.10% -7.43% -32.21% -1.68% 0.08 25.99%
Qwen2.5-7B -22.42% 35.50% 17.55% 1.47% -9.63% 4.49% 0.16 28.96%
Qwen3-30B -26.33% 32.86% 37.45% 29.61% -46.41% 5.44% 0.12 30.08%
DeepSeek-V3.1 -25.15% 32.49% 25.45% 10.30% -1.21% 8.38% 0.24 30.70%
Kimi-K2 -40.48% 25.83% -3.39% -3.27% 13.05% -1.65% 0.15 25.30%
GPT-4o-mini -24.02% 44.42% 43.42% 13.61% -43.71% 6.74% 0.25 26.78%
GPT-4o -9.01% 57.18% 19.39% 17.60% -38.04% 9.42% 0.25 28.27%
♦ AlphaQuanter (我们的)
AlphaQuanter-3B -14.68% 56.15% 9.82% 30.55% 33.33% 23.03% 0.43 25.16%
AlphaQuanter-7B -2.52% 41.91% 47.23% 45.41% 42.67% 34.94% 0.65 24.93%
表5: 不同方法的回测性能比较。每个股票和平均ARR的最高值和次高值以粗体标记。
RQ1: 单智能体还是多智能体更好? 对比结果显示,除GPT-4o外,单智能体框架在关键指标(特别是ARR和SR)上一致优于多智能体框架。这一发现挑战了在某些圈子中普遍存在的假设,即多智能体辩论必然带来更优的结果,反而表明对于规模较小的模型,这种交互可能引入了有害的信噪比问题。这一发现为我们采用单智能体架构提供了明确的理由。
RQ2: 仅基于提示的推理是否足以进行交易决策? 我们将最强的基于提示的基线与简单的“买入并持有”策略进行比较。平均而言,除GPT-4o外的所有骨干模型均未能跑赢市场。我们将这种不佳表现归因于模型难以学习到可操作的决策边界。尽管模型能够推断出看涨或看跌情绪,但它们无法可靠地校准触发“买入”而非“持有”的决策阈值。这暴露了当前小规模LLM在交易领域的根本局限性。
RQ3: AlphaQuanter的效果如何? 我们将完全训练的AlphaQuanter与所有基线进行比较,其性能提升显著。3B和7B变体分别带来了**6.54%和18.45%**的绝对年化收益率(ARR)增益。更重要的是,7B模型表现出高度的一致性,在五只股票中的三只上均超越了所有基线。这一卓越表现直接验证了我们的第二项核心贡献:端到端的RL方法成功地训练了智能体优化整个决策过程,从简单的预测转向实现长期盈利。这些结果表明,端到端的强化学习训练使小型LLM能够学习到稳健的交易策略,包括主动的工具使用和信息寻求,其效果甚至超越了如GPT-4o这样强大的零样本模型。
7.2 训练动态与验证性能 (Training Dynamics and Validation Performance)
我们通过联合分析训练动态(图2)和验证集性能(图3)来揭示智能体行为的演变如何转化为实际的交易结果。
图2: AlphaQuanter-3B和-7B模型的训练动态对比。
训练动态分析 奖励曲线的上升趋势表明模型能有效地从市场互动中学习。然而,3B和7B模型展现出截然不同的学习轨迹。3B模型在经历短暂的探索后,过早地收敛于一种简单的策略,表现为工具调用次数和响应长度的减少。相比之下,7B模型在达到稳定的利用阶段后,进入了策略优化阶段,通过增加响应长度和对话轮数来探索更复杂的推理链,以寻求边际性能的提升。
图3: AlphaQuanter-3B和-7B模型在验证集上的关键回测指标对比。
验证性能分析 验证集指标证实了学习到的策略能成功泛化到未见数据。ARR和SR的上升趋势与训练奖励曲线密切相关。值得注意的是,7B模型在最大回撤(MDD)上呈现出下降趋势,这表明它不仅学会了最大化回报,还学会了有效管理下行风险。相反,3B模型的MDD虽有改善,但仍呈现上升偏向的震荡,显示其未能将风险规避行为内化。
7.3 工具使用模式分析 (Tool Usage Patterns)
图4: AlphaQuanter-3B和-7B模型在训练过程中工具选择策略的演变。
策略演变分析 图4中的热图显示,AlphaQuanter的工具使用策略是动态演变的,而非静态固定的。这证实了智能体在主动学习和优化其信息寻求策略,而不是依赖于固定的程序。
策略差异对比 (3B vs. 7B) 两种模型学习到了不同的策略。3B模型呈现出分散、低对比度的使用模式,表明其区分信息信号的能力有限。相反,7B模型发展出一种集中、高对比度的模式,体现了其在信息过滤和优先级排序上具有选择性和歧视性的策略。
专家级启发式策略 深入分析7B模型学习到的复杂策略,我们发现了一种专家级的启发式方法。它学会了严重依赖趋势、动量和成交量指标作为主要信号,同时将情绪和宏观背景作为次要但重要的输入。与此同时,它基本忽略了低频的基本面数据,可能是因为这些信号对于任务所需的快速决策价值有限。这种学到的启发式策略引人注目,因为它反映了经验丰富的人类交易员的行为,他们在短期决策中优先考虑高频市场动态而非滞后的基本面指标,从而验证了模型发现与专业实践相关的策略的能力。
7.4 消融研究 (Ablation Studies)
我们通过消融研究来验证关键设计的贡献,结果如表6所示。
模型 ARR (↑) SR (↑) MDD (↓)
AlphaQuanter-7B 34.94% 0.65 24.93%
◇ w/o Rformat 16.36% (↓53.2%) 0.40 26.49%
◇ w/o Rtool 19.90% (↓43.0%) 0.49 24.08%
◇ θ ↑0.005 21.25% (↓39.2%) 0.28 9.18%
◇ θ ↓0.005 20.23% (↓42.1%) 0.43 32.67%
表6: 奖励组件和阈值θ对AlphaQuanter-7B模型性能的影响。
过程分数重要性 移除格式分数Rformat和工具分数Rtool后,平均ARR分别下降了53.2%43.0%。这证实了它们在引导智能体形成有效、结构化的决策过程中的关键作用。
决策阈值敏感性 将决策阈值θ扰动±0.005会导致ARR显著下降。如图5所示,θ在平衡探索与利用中扮演着关键角色。不当的θ值会导致智能体收敛到单一动作(如只买入或只持有),而我们设定的值则能维持一个动态、自适应的策略。
图5: 不同决策阈值θ对智能体在训练期间行动分布的影响。
本节的全面分析结果验证了AlphaQuanter框架的有效性及其设计组件的必要性,接下来将对全文进行总结。
8. 结论
在本文中,我们提出了AlphaQuanter,一个利用强化学习直接优化整个决策过程的单智能体框架。通过在一个透明的、工具增强的工作流上学习动态策略,AlphaQuanter将信息获取视为一种战略行动,使其能够自适应地进行推理并策略性地使用工具,以最大化长期盈利。
我们的工作提炼出一个核心洞见:优化决策过程本身,而不仅仅是最终的预测,是构建更稳健、更智能的自动化交易系统的关键一步。
未来的研究方向包括将AlphaQuanter推广到能与更具适应性的工具(如实时搜索)在动态市场中交互,并通过更长周期的评估来验证其学习效果。
参考文献
[1] David E Rumelhart, Geoffrey E Hinton, and Ronald J Williams. Learning representations by back-propagating errors. nature, 323(6088):533–536, 1986. [2] Corinna Cortes and Vladimir Vapnik. Support-vector networks. Machine learning, 20(3): 273–297, 1995. [3] Leo Breiman. Random forests. Machine learning, 45(1):5–32, 2001. [4] John Moody and Matthew Saffell. Reinforcement learning for trading. In M. Kearns, S. Solla, and D. Cohn, editors, Advances in Neural Information Processing Systems, volume 11. MIT Press, 1998. [5] Zhicheng Wang, Biwei Huang, Shikui Tu, Kun Zhang, and Lei Xu. Deeptrader: a deep reinforcement learning approach for risk-return balanced portfolio management with market conditions embedding. In Proceedings of the AAAI conference on artificial intelligence, volume 35, pages 643–650, 2021. [6] Yijia Xiao, Edward Sun, Di Luo, and Wei Wang. Tradingagents: Multi-agents llm financial trading framework. arXiv preprint arXiv:2412.20138, 2024. [7] Wentao Zhang, Lingxuan Zhao, Haochong Xia, Shuo Sun, Jiaze Sun, Molei Qin, Xinyi Li, Yuqing Zhao, Yilei Zhao, Xinyu Cai, Longtao Zheng, Xinrun Wang, and Bo An. A multimodal foundation agent for financial trading: Tool-augmented, diversified, and generalist. In Proceedings of the 30th ACM SIGKDD Conference on Knowledge Discovery and Data Mining, KDD 2024, pages 4314–4325. ACM, 2024. [8] Saizhuo Wang, Hang Yuan, Leon Zhou, Lionel M Ni, Heung-Yeung Shum, and Jian Guo. Alpha-gpt: Human-ai interactive alpha mining for quantitative investment. arXiv preprint arXiv:2308.00016, 2023. [9] Shunyu Yao, Jeffrey Zhao, Dian Yu, Nan Du, Izhak Shafran, Karthik R. Narasimhan, and Yuan Cao. React: Synergizing reasoning and acting in language models. In The Eleventh International Conference on Learning Representations, ICLR 2023. OpenReview.net, 2023. [10] Daya Guo, Dejian Yang, Haowei Zhang, Junxiao Song, Ruoyu Zhang, Runxin Xu, Qihao Zhu, Shirong Ma, Peiyi Wang, Xiao Bi, et al. Deepseek-r1: Incentivizing reasoning capability in llms via reinforcement learning. arXiv preprint arXiv:2501.12948, 2025. [11] Nathan Lambert, Jacob Morrison, Valentina Pyatkin, Shengyi Huang, Hamish Ivison, Faeze Brahman, Lester James V Miranda, Alisa Liu, Nouha Dziri, Shane Lyu, et al. Tulu 3: Pushing frontiers in open language model post-training. arXiv preprint arXiv:2411.15124, 2024. [12] Lin Zhong. Advancements and applications of artificial intelligence in stock market prediction. 2025. [13] Yang Liu, Qi Liu, Hongke Zhao, Zhen Pan, and Chuanren Liu. Adaptive quantitative trading: An imitative deep reinforcement learning approach. In Proceedings of the AAAI conference on artificial intelligence, volume 34, pages 2128–2135, 2020. [14] Fengchen Gu, Zhengyong Jiang, Ángel F. García-Fernández, Angelos Stefanidis, Jionglong Su, and Huakang Li. MTS: A deep reinforcement learning portfolio management framework with time-awareness and short-selling. CoRR, abs/2503.04143, 2025. [15] Guojun Xiong, Zhiyang Deng, Keyi Wang, Yupeng Cao, Haohang Li, Yangyang Yu, Xueqing Peng, Mingquan Lin, Kaleb E Smith, Xiao-Yang Liu, et al. Flag-trader: Fusion llm-agent with gradient-based reinforcement learning for financial trading. arXiv preprint arXiv:2502.11433, 2025. [16] Yijia Xiao, Edward Sun, Tong Chen, Fang Wu, Di Luo, and Wei Wang. Trading-r1: Financial trading with llm reasoning via reinforcement learning. arXiv preprint arXiv:2509.11420, 2025. [17] Christian Szegedy, Vincent Vanhoucke, Sergey Ioffe, Jonathon Shlens, and Zbigniew Wojna. Rethinking the inception architecture for computer vision. In 2016 IEEE Conference on Computer Vision and Pattern Recognition, CVPR 2016, pages 2818–2826. IEEE Computer Society, 2016. [18] Xiao-Yang Liu, Hongyang Yang, Qian Chen, Runjia Zhang, Liuqing Yang, Bowen Xiao, and Christina Dan Wang. Finrl: A deep reinforcement learning library for automated stock trading in quantitative finance. CoRR, abs/2011.09607, 2020. [19] Harry Markowitz. Portfolio selection. The Journal of Finance, 7(1):77–91, 1952. [20] Molei Qin, Shuo Sun, Wentao Zhang, Haochong Xia, Xinrun Wang, and Bo An. Earnhft: Efficient hierarchical reinforcement learning for high frequency trading. In Thirty-Eighth AAAI Conference on Artificial Intelligence, AAAI 2024, pages 14669–14676. AAAI Press, 2024. [21] Guojun Xiong, Zhiyang Deng, Keyi Wang, Yupeng Cao, Haohang Li, Yangyang Yu, Xue-qing Peng, Mingquan Lin, Kaleb E. Smith, Xiao-Yang Liu, Jimin Huang, Sophia Ananiadou, and Qianqian Xie. FLAG-TRADER: fusion llm-agent with gradient-based reinforcement learning for financial trading. In Findings of the Association for Computational Linguistics, ACL 2025, pages 13921–13934. Association for Computational Linguistics, 2025. [22] An Yang, Baosong Yang, Beichen Zhang, Binyuan Hui, Bo Zheng, Bowen Yu, Chengyuan Li, Dayiheng Liu, Fei Huang, Haoran Wei, Huan Lin, Jian Yang, Jianhong Tu, Jianwei Zhang, Jianxin Yang, Jiaxi Yang, Jingren Zhou, Junyang Lin, Kai Dang, Keming Lu, Keqin Bao, Kexin Yang, Le Yu, Mei Li, Mingfeng Xue, Pei Zhang, Qin Zhu, Rui Men, Runji Lin, Tianhao Li, Tingyu Xia, Xingzhang Ren, Xuancheng Ren, Yang Fan, Yang Su, Yichang Zhang, Yu Wan, Yuqiong Liu, Zeyu Cui, Zhenru Zhang, and Zihan Qiu. Qwen2.5 technical report. CoRR, abs/2412.15115, 2024. [23] An Yang, Anfeng Li, Baosong Yang, Beichen Zhang, Binyuan Hui, Bo Zheng, Bowen Yu, Chang Gao, Chengen Huang, Chenxu Lv, Chujie Zheng, Dayiheng Liu, Fan Zhou, Fei Huang, Feng Hu, Hao Ge, Haoran Wei, Huan Lin, Jialong Tang, Jian Yang, Jianhong Tu, Jianwei Zhang, Jian Yang, Jiaxi Yang, Jingren Zhou, Junyang Lin, Kai Dang, Keqin Bao, Kexin Yang, Le Yu, Lianghao Deng, Mei Li, Mingfeng Xue, Mingze Li, Pei Zhang, Peng Wang, Qin Zhu, Rui Men, Ruize Gao, Shixuan Liu, Shuang Luo, Tianhao Li, Tianyi Tang, Wenbiao Yin, Xingzhang Ren, Xinyu Wang, Xinyu Zhang, Xuancheng Ren, Yang Fan, Yang Su, Yichang Zhang, Yinger Zhang, Yu Wan, Yuqiong Liu, Zekun Wang, Zeyu Cui, Zhenru Zhang, Zhipeng Zhou, and Zihan Qiu. Qwen3 technical report. CoRR, abs/2505.09388, 2025. [24] DeepSeek-AI, et al. Deepseek-v3 technical report. CoRR, abs/2412.19437, 2024. [25] Yifan Bai, et al. Kimi K2: open agentic intelligence. CoRR, abs/2507.20534, 2025. [26] Aaron Hurst, et al. Gpt-4o system card. CoRR, abs/2410.21276, 2024. [27] Guangming Sheng, Chi Zhang, Zilingfeng Ye, Xibin Wu, Wang Zhang, Ru Zhang, Yanghua Peng, Haibin Lin, and Chuan Wu. Hybridflow: A flexible and efficient RLHF framework. In Proceedings of the Twentieth European Conference on Computer Systems, EuroSys 2025, pages 1279–1297. ACM, 2025. [28] Zhihong Shao, Peiyi Wang, Qihao Zhu, Runxin Xu, Junxiao Song, Xiao Bi, Haowei Zhang, Mingchuan Zhang, YK Li, Yang Wu, et al. Deepseekmath: Pushing the limits of mathematical reasoning in open language models. arXiv preprint arXiv:2402.03300, 2024.
--------------------------------------------------------------------------------
附录
A. 详细信息来源 (Detailed Information Sources)
A.1 市场数据
市场数据包括原始价格/成交量数据和一系列精选的技术指标。这些数据通过雅虎财经和Alpha Vantage的API提取。
* 价格和成交量数据: 每日的开盘价、最高价、最低价、收盘价(OHLC)、调整后收盘价和成交量。
* 技术指标:
* 趋势指标:
* SMA(20): 20日简单移动平均线。
* EMA(10): 10日指数移动平均线。
* VWMA(20): 20日成交量加权移动平均线。
* 动量指标:
* RSI(14): 14日相对强弱指数。
* STOCH(14, 3, 3): 随机振荡指标。
* CCI(21): 21日商品通道指数。
* 波动率指标:
* BBANDS(20, 2): 布林带。
* ATR(14): 14日平均真实波幅。
* 成交量指标:
* OBV: 能量潮指标。
* CMF: 蔡金资金流。
* 混合指标:
* MACD(12, 26, 9): 移动平均收敛散度。
A.2 基本面数据
通过Alpha Vantage API提取,提供公司内在财务健康状况的全面视图。
* 盈利预测: 分析师对每股收益(EPS)和收入的年度及季度预测。
* 利润表: 公司年度和季度的收入、支出和盈利能力详情。
* 资产负债表: 公司年度和季度的资产、负债和股东权益快照。
* 现金流量表: 公司年度和季度经营、投资和融资活动的现金流报告。
* 内部交易: 公司高管等关键利益相关者的股票交易数据。
* 股息: 历史股息支付和未来已宣布的分配记录。
A.3 情绪数据
* 新闻数据: 从Alpha Vantage API获取每只股票的新闻标题、摘要和相关情绪分数。
* Reddit数据: 从公开的Reddit数据转储中检索来自11个热门股票交易子版块的相关帖子内容,并使用Qwen3-30B-A3B-Instruct模型进行总结。
A.4 宏观经济指标
从Alpha Vantage API提取,提供宏观经济背景。
* 国债收益率: 美国国债各期限的收益率。
* 联邦基金利率: 美联储设定的目标利率。
* 消费者价格指数 (CPI): 衡量通货膨胀的主要指标。
* WTI原油价格: 反映全球能源价格和通胀压力。
* 铜价: 作为全球经济健康状况的领先指标。
B. 实现细节 (Implementation Details)
B.1 提示设计
我们设计的提示旨在促进灵活、证据驱动的探索,而非预设的输出。提示首先明确任务描述、目标股票和日期、可用工具及调用次数限制。然后,通过指令强制执行设计的工作流:形成并检验假设、每次仅调用一个工具,并在每个动作前以结构化格式清晰展示思考过程。完整提示如图6所示。
You are a professional trading strategy analyst. Your goal is to generate a well-reasoned final trade decision (BUY/SELL/HOLD) for a given stock and date through systematic, evidence-based exploration using all available tools. At most 8 tool calls.
You have access to the following tools – use them intentionally and iteratively to test hypotheses and deepen your analysis:
- [MUST] get_market_data (historical OHLCV)
- [MUST] get_stock_indicators (trend indicators(SMA20, EMA10, VWMA20), momentum (RSI, STOCH, CCI), volatility (BBANDS, ATR), and volume-based (OBV, CMF), and hybrid(MACD))
- [OPTIONAL] get_news_data
- [OPTIONAL] get_reddit_data
- [OPTIONAL] get_macro_indicators
- [OPTIONAL] get_balance_sheet
- [OPTIONAL] get_cashflow
- [OPTIONAL] get_income_statements
- [OPTIONAL] get_insider_transactions
- [OPTIONAL] get_dividends
- [OPTIONAL] get_earnings_estimate
GUIDELINES:
## Think Like an Analyst, Not a Script.
Approach the problem creatively. There is no single fixed workflow. Use your reasoning to form hypotheses, then leverage tools flexibly to explore, validate, or refute your ideas. Be curious and iterative.
## Start with a High-Level Hypothesis.
Begin by outlining your initial perspective and what you aim to investigate. This isn’t a rigid plan-it’s a starting point. You’re encouraged to adapt as new evidence emerges.
## Plan, Execute, Then Analyze in the format:
- First, Briefly Plan: Before calling any tool, briefly state your current hypothesis or what you aim to learn with the next step.
- Then, Call One Tool: Execute only one tool call per step. You must wait for and receive the result before proceeding.
- Finally, Analyze and Adapt: Interpret the result. Does it confirm your hypothesis? Does it reveal something new? Use this insight to refine your next step.
## One Step at a Time.
You are strictly permitted to make only one tool call at a time. The subsequent analysis and planning must be based on the returned result before any further tool is called. This ensures a deliberate and evidence-driven investigative process.
## Conclude with a Decision.
After synthesizing all evidence, provide a clear and justified trade recommendation in the format:
- Current date: {date}
- Target stock ticker: {stock}
图6: AlphaQuanter智能体的完整提示。
B.2 RL训练超参数
我们使用verl框架训练AlphaQuanter。表7列出了重要的参数设置。
键 值
algorithm.use_kl_in_reward false
actor_rollout_ref.actor.clip_ratio_low 0.1
actor_rollout_ref.actor.clip_ratio_high 0.1
actor_rollout_ref.actor.clip_ratio_c 3
actor_rollout_ref.actor.entropy_coeff 0
actor_rollout_ref.actor.kl_loss_coef 0.05
actor_rollout_ref.actor.optim.lr 1e-6
actor_rollout_ref.actor.use_kl_loss true
actor_rollout_ref.rollout.multi_turn.max_user_turns 32
actor_rollout_ref.rollout.multi_turn.max_assistant_turns 32
actor_rollout_ref.rollout.n 16
algorithm.kl_ctrl.kl_coef 0.0
data.max_prompt_length 3072
data.max_response_length 16384
data.train_batch_size 32
H 7
λ 0.001
κ 0.9
θ 0.015
α 5
mintoken 200
maxtoken 600
mintool 4
maxtool 8
表7: AlphaQuanter的训练超参数。
B.3 基线模型细节
* 买入并持有: 智能体在每个交易日都生成“买入”信号。
* 规则型策略:
* MACD: 使用标准的(12, 26, 9)参数。
* ZMR: 当20周期Z分数超过1.0时交易,回归到0时退出。
* 多智能体基线: 我们改编了Xiao等人[6]的框架,将原始数据源替换为我们的四类数据,但保留了原始的提示和智能体架构。
* 单智能体基线: 使用我们的自定义提示结构(图6)和四类数据,但不进行RL优化。
C. 详细结果分析 (Detailed Result Analysis)
C.1 完整主要结果
表8和表9提供了表5中总结的完整回测结果,包括每只股票的ARR、SR和MDD。我们的资产特异性分析揭示了几个关键发现。
* GOOGL: 大多数模型难以获得正回报。
* META: 大多数策略盈利。GPT-4o单智能体版本ARR最高,但AlphaQuanter-3B在实现相似ARR的同时,风险状况更优(SR更高,MDD更低)。
* MSFT: AlphaQuanter-7B实现了最高的ARR,同时SR强劲,MDD较低。
* NVDA: 结果好坏参半。多智能体方法更易出现负回报。AlphaQuanter-7B再次获得最高ARR。
* TSLA: 性能分化。值得注意的是,DeepSeek-V3.1始终输出“持有”,验证了我们关于基于提示的模型难以区分买入和持有信号的判断。AlphaQuanter-7B再次获得最高ARR。
模型 GOOGL META MSFT
ARR (↑) / SR (↑) / MDD (↓) ARR (↑) / SR (↑) / MDD (↓) ARR (↑) / SR (↑) / MDD (↓)
♦ 市场
买入并持有 -14.49% / -0.35 / 27.35% 45.64% / 1.25 / 31.59% 36.80% / 1.41 / 18.79%
♦ 规则型
MACD -3.17% / -0.04 / 14.14% 46.82% / 2.17 / 12.51% -9.58% / -0.49 / 19.97%
ZMR -2.26% / 0.01 / 18.47% -0.98% / 0.12 / 15.19% 8.53% / 0.56 / 9.59%
♦ 多智能体
Qwen2.5-3B-Instruct 1.73% / 0.1 / 5.52% 36.25% / 0.85 / 15.28% 40.89% / 1.06 / 12.23%
Qwen2.5-7B-Instruct 9.33% / 1.38 / 1.40% 28.98% / 0.87 / 6.54% -4.50% / -1.05 / 2.27%
Qwen3-30B-A3B-Instruct -18.09% / -0.46 / 26.36% 1.36% / 0.29 / 16.29% 9.84% / 0.42 / 15.88%
DeepSeek-V3.1 -12.43% / -0.66 / 12.01% -9.48% / -0.25 / 17.18% 14.13% / 0.6 / 10.09%
Kimi-K2 -23.40% / -1.09 / 17.57% -9.52% / -0.1 / 16.12% 12.60% / 0.51 / 9.11%
GPT-4o-mini -18.08% / -0.94 / 18.86% 0.73% / 0.04 / 11.11% 16.27% / 0.48 / 18.52%
GPT-4o -14.95% / -0.29 / 25.93% 29.69% / 0.71 / 14.05% 38.62% / 0.9 / 19.83%
♦ 单智能体
Qwen2.5-3B-Instruct 3.06% / 0.07 / 18.18% 23.08% / 0.52 / 24.91% 5.10% / 0.14 / 14.66%
Qwen2.5-7B-Instruct -22.42% / -0.43 / 28.59% 35.50% / 0.56 / 28.49% 17.55% / 0.48 / 19.60%
Qwen3-30B-A3B-Instruct -26.33% / -0.5 / 28.39% 32.86% / 0.81 / 28.18% 37.45% / 0.87 / 21.15%
DeepSeek-V3.1 -25.15% / -0.47 / 29.77% 32.49% / 0.61 / 34.14% 25.45% / 0.64 / 19.94%
Kimi-K2 -40.48% / -0.39 / 24.67% 25.83% / 0.68 / 21.65% -3.39% / -0.03 / 19.21%
GPT-4o-mini -24.02% / -0.56 / 23.20% 44.42% / 0.97 / 23.84% 43.42% / 1.1 / 12.92%
GPT-4o -9.01% / -0.12 / 19.72% 57.18% / 0.99 / 25.02% 19.39% / 0.53 / 23.04%
♦ AlphaQuanter (我们的)
AlphaQuanter-3B -14.68% / -0.29 / 25.60% 56.15% / 1.08 / 23.75% 9.82% / 0.30 / 21.06%
AlphaQuanter-7B -2.52% / 0.05 / 21.37% 41.91% / 0.78 / 25.65% 47.23% / 1.17 / 14.85%
表8: 不同方法在122天回测期内的性能比较 (1/2): [GOOGL, META, MSFT]的详细结果。
模型 NVDA TSLA 平均
ARR (↑) / SR (↑) / MDD (↓) ARR (↑) / SR (↑) / MDD (↓) ARR (↑) / SR (↑) / MDD (↓)
♦ 市场
买入并持有 25.47% / 0.74 / 33.83% -28.91% / -0.2 / 44.10% 12.90% / 0.57 / 31.13%
♦ 规则型
MACD -12.89% / -0.22 / 30.76% 22.77% / 0.78 / 28.83% 8.79% / 0.44 / 21.24%
ZMR 35.01% / 1.03 / 16.72% 16.74% / 0.59 / 44.33% 11.41% / 0.46 / 20.86%
♦ 多智能体
Qwen2.5-3B-Instruct -3.28% / -0.06 / 18.77% -76.98% / -2.6 / 52.95% -0.28% / -0.13 / 20.95%
Qwen2.5-7B-Instruct -17.22% / -0.99 / 14.12% -9.11% / -0.59 / 7.82% 1.50% / -0.08 / 6.43%
Qwen3-30B-A3B-Instruct 10.22% / 0.31 / 23.78% -16.51% / -0.25 / 28.71% -2.64% / 0.06 / 22.20%
DeepSeek-V3.1 -24.02% / -0.97 / 23.18% 0.00% / 0.0 / 0.00% -6.36% / -0.26 / 12.49%
Kimi-K2 -8.33% / -0.28 / 18.88% 8.88% / 0.4 / 71.40% -3.95% / -0.11 / 26.62%
GPT-4o-mini -5.38% / 0.01 / 36.61% 5.20% / 0.1 / 6.30% -0.25% / -0.06 / 18.28%
GPT-4o -7.83% / 0.03 / 38.74% 36.92% / 1.17 / 10.56% 16.49% / 0.50 / 21.82%
♦ 单智能体
Qwen2.5-3B-Instruct -7.43% / 0.14 / 34.63% -32.21% / -0.46 / 37.59% -1.68% / 0.08 / 25.99%
Qwen2.5-7B-Instruct 1.47% / 0.22 / 40.24% -9.63% / -0.04 / 27.88% 4.49% / 0.16 / 28.96%
Qwen3-30B-A3B-Instruct 29.61% / 0.51 / 33.48% -46.41% / -1.08 / 39.22% 5.44% / 0.12 / 30.08%
DeepSeek-V3.1 10.30% / 0.31 / 39.81% -1.21% / 0.13 / 29.82% 8.38% / 0.24 / 30.70%
Kimi-K2 -3.27% / 0.11 / 34.92% 13.05% / 0.36 / 26.05% -1.65% / 0.15 / 25.30%
GPT-4o-mini 13.61% / 0.35 / 37.60% -43.71% / -0.59 / 36.32% 6.74% / 0.25 / 26.78%
GPT-4o 17.60% / 0.39 / 38.53% -38.04% / -0.54 / 35.06% 9.42% / 0.25 / 28.27%
♦ AlphaQuanter (我们的)
AlphaQuanter-3B 30.55% / 0.51 / 29.04% 33.33% / 0.57 / 26.34% 23.03% / 0.43 / 25.16%
AlphaQuanter-7B 45.41% / 0.66 / 34.91% 42.67% / 0.58 / 27.88% 34.94% / 0.65 / 24.93%
表9: 不同方法在122天回测期内的性能比较 (2/2): [NVDA, TSLA]及平均值的详细结果。
C.2 奖励分解分析
图7展示了验证集上总奖励及其组成部分(结果、格式、工具分数)的学习曲线。一个关键观察是,7B模型在所有评分指标上都持续优于3B模型。结果分数均呈上升趋势,表明最终行动的准确性在稳步提高。对于格式分数,7B模型持续生成更详细的推理,而3B模型的推理长度在后期开始下降。对于工具分数,3B模型早期因单轮多次调用工具而受到显著惩罚,此行为在后续训练中得到纠正。
图7: 奖励分解的训练动态。
C.3 完整消融研究结果
表10和表11提供了完整的消融研究结果。在MSFT、NVDA和TSLA上,以及平均来看,所有消融或调整后的模型性能均不如完整的AlphaQuanter-7B。特别地,结果显示决策阈值θ与MDD之间存在强烈的反比关系:增加θ会降低交易频率,从而显著降低MDD;反之亦然。这与我们在7.4节中的分析一致。
模型 GOOGL META MSFT
ARR (↑) / SR (↑) / MDD (↓) ARR (↑) / SR (↑) / MDD (↓) ARR (↑) / SR (↑) / MDD (↓)
AlphaQuanter-7B -2.52% / 0.05 / 21.37% 41.91% / 0.78 / 25.65% 47.23% / 1.17 / 14.85%
◇ w/o Rformat -6.40% / -0.09 / 24.86% 12.99% / 0.66 / 25.03% 13.94% / 0.51 / 18.93%
◇ w/o Rtool -14.22% / -0.25 / 25.28% 47.29% / 0.85 / 24.23% 28.40% / 0.72 / 19.81%
◇ θ ↑0.005 2.83% / 0.10 / 4.59% 16.07% / 0.27 / 10.91% 16.53% / 0.48 / 2.40%
◇ θ ↓0.005 -13.05% / -0.16 / 28.66% 50.82% / 0.82 / 34.50% 38.16% / 0.87 / 20.01%
表10: AlphaQuanter-7B模型奖励组件和阈值θ影响的详细消融研究结果 (1/2): [GOOGL, META, MSFT]。
模型 NVDA TSLA 平均
ARR (↑) / SR (↑) / MDD (↓) ARR (↑) / SR (↑) / MDD (↓) ARR (↑) / SR (↑) / MDD (↓)
AlphaQuanter-7B 45.41% / 0.66 / 34.91% 42.67% / 0.58 / 27.88% 34.94% / 0.65 / 24.93%
◇ w/o Rformat 33.70% / 0.49 / 35.55% 27.59% / 0.43 / 28.06% 16.36% / 0.40 / 26.49%
◇ w/o Rtool 20.73% / 0.43 / 35.24% 17.28% / 0.70 / 15.85% 19.90% / 0.49 / 24.08%
◇ θ ↑0.005 40.00% / 0.22 / 20.88% 30.84% / 0.32 / 7.14% 21.25% / 0.28 / 9.18%
◇ θ ↓0.005 31.73% / 0.53 / 36.50% -6.50% / 0.11 / 43.66% 20.23% / 0.43 / 32.67%
表11: AlphaQuanter-7B模型奖励组件和阈值θ影响的详细消融研究结果 (2/2): [NVDA, TSLA]及平均值。
D. 工作示例 (A Working Example)
以下展示了AlphaQuanter-7B在2025年5月16日对MSFT进行决策的完整过程,包括其分析和工具调用轨迹。
AlphaQuanter-7B’s decision-making process for MSFT on 2025-05-16
Date Open High Low Close Adj Close Volume
0 2025 -05 -02 431.74 439.44 429.99 435.28 434.48 30757400
1 2025 -05 -05 432.87 439.50 432.11 436.17 435.37 20136100
2 2025 -05 -06 432.20 437.73 431.17 433.31 432.52 15104200
3 2025 -05 -07 433.84 438.12 431.11 433.35 432.56 23295300
4 2025 -05 -08 437.93 443.67 435.66 438.17 437.37 23491300
5 2025 -05 -09 440.00 440.74 435.88 438.73 437.93 15324200
6 2025 -05 -12 445.94 449.37 439.78 449.26 448.44 22821900
7 2025 -05 -13 447.78 450.67 445.36 449.14 448.32 23618800
8 2025 -05 -14 448.14 453.90 448.14 452.94 452.11 19902800
9 2025 -05 -15 450.77 456.19 450.43 453.13 453.13 21992300
10 2025 -05 -16 452.05 454.36 448.73 454.27 454.27 23849800
## RSI values from 2025 -05 -02 to 2025 -05 -16:
71.99-> 72.23-> 70.16-> 70.17-> 71.76-> 71.94-> 75.24-> 75.14-> 76.30-> 76.62-> 76.99
RSI: Measures momentum to flag overbought/oversold conditions. Usage: Apply 70/30 thresholds and watch for divergence to signal reversals.
## BBANDS values from 2025 -05 -02 to 2025 -05 -16:
(Middle =382.60 , Upper =423.34 , Lower =341.87) -> (Middle =386.41 , Upper =431.68 , Lower =341.15) -> (Middle =390.18 , Upper =437.58 , Lower =342.78) -> (Middle =394.11 , Upper =441.87 , Lower =346.35) -> (Middle =396.49 , Upper =447.76 , Lower =345.22) -> (Middle =399.36 , Upper =453.11 , Lower =345.61) -> (Middle =402.39 , Upper =459.90 , Lower =344.88) -> (Middle =405.45 , Upper =465.82 , Lower =345.08) -> (Middle =408.81 , Upper =471.67 , Lower =345.94) -> (Middle =412.92 , Upper =476.08 , Lower =349.75) -> (Middle =417.27 , Upper =479.21 , Lower =355.33)
Bollinger Bands: Consist of a Middle Band (typically a 20-period SMA) and Upper/Lower Bands set at Âś2 standard deviations from the middle. Usage: The middle band serves as a dynamic benchmark for price , the upper band highlights potential overbought or breakout zones , and the lower band signals possible oversold conditions.
## MACD values from 2025 -05 -02 to 2025 -05 -16:
(MACD =7.65, Signal =0.92, Histogram =6.73) -> (MACD =10.16 , Signal =2.77, Histogram =7.40) -> (MACD =11.79 , Signal =4.57, Histogram =7.22) -> (MACD =12.94 , Signal =6.24, Histogram =6.69) -> (MACD =14.07 , Signal =7.81, Histogram =6.26) -> (MACD =14.84 , Signal =9.22, Histogram =5.63) -> (MACD =16.12 , Signal =10.60 , Histogram =5.52) -> (MACD =16.92 , Signal =11.86 , Histogram =5.06) -> (MACD =17.67 , Signal =13.02 , Histogram =4.64) -> (MACD =18.06 , Signal =14.03 , Histogram =4.03) -> (MACD =18.26 , Signal =14.88 , Histogram =3.38)
MACD: Momentum indicator composed of the MACD line (difference between two EMAs), the Signal line ( EMA of the MACD line), and the Histogram (gap between MACD and Signal). Usage: Identify trend changes through MACDâĂŞSignal crossovers , gauge momentum strength via Histogram size , and watch for divergence between MACD and price as early reversal signals.
## MSFT News , from 2025 -05 -14 to 2025 -05 -16:
Interpret the sentiment score x: values near 0 are Neutral , larger positive values indicate increasingly Bullish , and larger negative values indicate increasingly Bearish.
2025 -05 -14 [Sentiment score = 0.01, Neutral] Should You Forget Alphabet and Buy These 2 Tech Stocks Instead?
...
2025 -05 -16 [Sentiment score = 0.21, Somewhat -Bullish] CloudKeeper Launches 30-Day Challenge to Help Businesses Slash AWS Costs
Given the overbought conditions and the recent weakening of momentum , I will consider the possibility of a pullback. However , the strong support from bullish news could mean that the pullback might be short -lived. I will now check the insider transactions to see if there are any significant buying or selling activities by company insiders , which can provide insights into the management ’s view of the stock.
## MSFT insider transactions from 2025 -05 -09 to 2025 -05 -16:
### Transaction Date: 2025-05-15, COLEMAN , AMY (EVP , Chief Human Resources Off) Type: Common Stock Shares: 77.894 (Disposal)
### Transaction Date: 2025-05-15, COLEMAN , AMY (EVP , Chief Human Resources Off) Type: Common Stock Shares: 13242.774 (Disposal)
Considering the current overbought conditions , the recent insider selling , and the potential for a pullback , I will recommend a HOLD strategy. This allows for the stock to potentially correct and provides a safer entry point for a more bullish stance in the future.


