TradingGroup白皮书:一个具备自省与数据合成能力的融合式多智能体交易系统
1.0 引言:应对下一代量化交易的挑战
近年来,大型语言模型(LLM)的飞速发展为金融领域带来了变革性的机遇,尤其在市场情感分析、财务报告理解和股价预测等方面展现出巨大潜力。然而,尽管现有系统取得了一定进展,但它们普遍面临三大核心局限:首先,缺乏智能体之间高效、协同的工作机制;其次,缺少一个能够深度整合历史业绩与风险信号的结构化自省框架,导致现有方法难以准确区分历史决策中的“好”与“坏”,从而无法进行有效的策略优化;最后,也是最关键的一点,高质量、与真实交易过程紧密相关的训练数据极度稀缺,这限制了模型通过实战经验持续进化的能力。
在此背景下,本白皮书旨在解决两个核心研究问题:
1. 一个多智能体交易系统应如何设计,才能有效整合业绩指标、智能体日志和风险信号,从而实现深刻的自省并持续优化其交易策略?
2. 如何构建一个自动化流程,以高效收集并精准标注交易过程中的关键数据,从而为基础模型的微调提供源源不断的高质量样本?
为了应对上述挑战,我们正式引入TradingGroup——一个创新的多智能体量化交易系统。TradingGroup通过其独特的自省架构和端到端的自动化数据合成管道,旨在系统性地克服当前金融智能体所面临的瓶颈。下文将深入剖析该系统的架构设计、核心机制及其在严谨回测实验中验证的卓越性能。
2.0 TradingGroup 核心架构概览
TradingGroup的战略定位是一个高度协同的多智能体系统(MAS),其核心设计理念是通过整合多个拥有专业分工的智能体、一套动态风险管理模块以及一个持续学习的反馈循环,来从容应对复杂多变的金融市场环境。
图1: TradingGroup 整体框架架构图
参考图1的系统框架,TradingGroup由四个紧密协作的核心功能模块构成:
1. 五类专业智能体 (Five Specialized Agents): 系统包含新闻情感、财务报告、股票预测、风格偏好和交易决策五类智能体。它们各司其职,形成了一个从市场信息输入、多维度分析到最终决策输出的完整逻辑链条。
2. 动态风险管理模块 (Dynamic Risk-Management Module): 作为系统的“安全阀”,该模块根据市场波动和系统当前的交易风格动态调整止盈止损阈值,确保在追求收益的同时,有效控制潜在风险,保障系统的长期生存能力。
3. 自省机制 (Self-Reflection Mechanism): 这是系统实现经验学习和自我优化的核心引擎。它深度集成于关键智能体中,通过分析历史决策的成败得失,动态调整未来行为,使系统具备了从错误中学习并不断进化的能力。
4. 数据合成管道 (Data-Synthesis Pipeline): 该管道是驱动模型持续进化的“数据飞轮”。它自动捕获、评估并标注交易过程中的所有关键数据,为模型的参数高效微调(PEFT)提供高质量、结构化的训练样本。
TradingGroup的核心贡献可总结为以下三点:
* 新颖的多智能体链式交易系统: 通过角色明确的智能体协作,实现了从数据处理到决策执行的专业化分工。
* 创新的自省机制与动态风险管理模块: 赋予系统多层次的自我修正能力,并能根据市场环境灵活调整风险敞口。
* 用于模型微调的自动化数据合成管道: 解决了高质量金融训练数据稀缺的难题,为模型的持续迭代提供了坚实基础。
接下来,我们将逐一深入探讨每个智能体的具体工作流程和技术实现细节。
3.0 专业化智能体协同工作流
TradingGroup的核心优势在于其专业分工的智能体团队,每个成员都在决策链条中扮演着不可或缺的角色。本章节将详细剖析各个智能体的独特功能、技术栈及其在协同工作流中的关键作用。
3.1 新闻情感智能体 (News-Sentiment Agent)
该智能体的主要任务是从复杂且充满噪音的金融新闻中,准确地提取并量化市场情绪,为后续决策提供宏观情感背景。
其工作流程经过精心设计,以确保分析的准确性和效率:
1. 新闻检索: 首先,利用Serper MCP Server等在线工具实时获取与目标资产相关的最新金融新闻。
2. 重要性排序: 接着,使用Qwen3-Reranker-0.6B模型计算每条新闻的影响力分数𝑁𝑡。该分数通过以下公式加权得出,综合了基于规则的评分、模型概率输出和一个基础分偏置: 𝑁𝑡 = 0.55 × base(𝑡) + 0.25 × prob(𝑡) + 0.20
3. 去重与分析: 系统筛选出影响力分数最高的Top-k新闻,并利用Qwen3-Embedding-0.6B进行向量相似性去重,以避免信息冗余。最后,由LLM对筛选后的新闻进行并行分析,汇总得出最终的市场情绪综合得分与分析摘要。
通过这一系列流程,新闻情感智能体能够有效过滤掉无关噪音,聚焦于对市场最具影响力的信息,从而显著提升了市场情绪分析的质量。
3.2 财务报告智能体 (Financial-Report Agent)
该智能体的核心价值在于深度解析企业的年度和季度财务报告,从中提取关键财务指标、业绩指引和风险预警,为交易决策提供坚实的基本面支持。
为实现精准的信息提取,该智能体采用了一种改进型检索增强生成(RAG)方法,其特点包括:
* 混合检索 (Hybrid Retrieval): 为了同时捕捉语义相似性和关键词匹配,该智能体结合了两种先进的嵌入模型。它使用Qwen3-Embedding-0.6B进行密集检索(dense retrieval),并使用BGE-M3-0.6B进行稀疏检索(sparse retrieval)。两者的检索得分通过以下公式加权组合,以获得更全面的检索结果: 𝐻𝑖 = 1.0 × dense(𝑞, 𝑖) + 0.8 × sparse(𝑞, 𝑖) (1)
* LLM重排序 (LLM Re-ranking): 在混合检索初步筛选出相关文本块后,系统会利用Qwen3-Reranker-0.6B进行二次排序。通过一个特定的提示(prompt),该模型能够精准识别出与股价波动最相关的内容,确保最终输入给核心LLM进行分析的都是最高价值的信息。
3.3 股票预测智能体 (Stock-Forecasting Agent)
该智能体的核心功能是整合价格、情绪和基本面三大维度的信息,对未来股价趋势(上涨、下跌或横盘)提供稳健的预测。
为实现这一目标,智能体首先计算一系列关键的技术指标:
* RSI-14 (相对强弱指数): 用于判断市场是否处于超买或超卖状态,指标高于70通常预示超买,低于40则预示超卖。
* 距20日高/低点距离 (%): 衡量当前价格与近期极值的距离,识别潜在突破。
* 距20日SMA距离 (%): 评估价格偏离移动平均线的程度,判断回调健康度。
* 20日高/低点标志 (布尔值): 标记当前收盘价是否创下近期新高或新低。
* HV-10 (%) (10日历史波动率): 用于动态风险阈值的计算。
* 简化的ATR-20 (%) (20日平均真实波幅): 用于近似估算价格波动范围(我们使用收盘价以适应不同数据集),其计算公式如下: SimplifiedATR20 (%) = 100 * sqrt( (1/20) * Σ(ln(Pt/Pt-1) - r20)^2 ) (2)
更重要的是,该智能体采用了独特的混合门控 (Hybrid Gate) 机制。该机制巧妙地结合了硬性规则与模型概率:
* 硬拦截: 当RSI等指标显示市场严重过热,且价格尚未有效突破预设的BreakoutThreshold(%)时,即使LLM预测上涨,系统也会强制将趋势判断为“横盘”,以避免追高风险。该突破阈值公式为 max(1%, 0.5 × SimplifiedATR20 (%)),旨在区分价格对前期高点的试探与真实的有效突破。
* 软通道: 在非极端情况下,系统会结合LLM的概率预测与技术形态信号,做出最终的趋势判断。
这种混合门控机制既保留了LLM对新闻和基本面信息的敏感度,又通过客观规则约束了其预测范围,有效防止了模型过拟合和极端误判。
3.4 风格偏好智能体 (Style-Preference Agent)
该智能体是TradingGroup的一大创新,它将交易风格、动态风险管理和自省机制有机结合,使系统能够根据市场和自身状态动态调整其行为模式。
通过内置的自省机制,该智能体能够持续分析历史交易记录(评估不同风格下的盈亏表现),并结合当前的账户状况(可用资金、持仓情况、浮动盈亏),动态地选择最合适的交易风格:激进型、平衡型或保守型。
所选风格会直接影响买入和卖出操作的执行强度,具体如下表所示:
交易风格 买入操作 卖出操作
激进型 (Aggressive) 投入所有可用现金 仓位减半
平衡型 (Balanced) 投入所有可用现金 全部清仓
保守型 (Conservative) 仅使用50%可用现金 全部清仓
3.5 交易决策智能体 (Trading-Decision Agent)
作为TradingGroup系统的最高决策层,该智能体负责最终的决策输出。
其核心职责是全面整合所有上游智能体(新闻情感、财务报告、股票预测、风格偏好)提供的信息,结合当前账户状态、波动性约束以及历史交易表现,最终输出一个附带详细解释的买入、持有或卖出决策。
该智能体通过一种强大的自省机制来提升决策质量:系统利用数据合成管道,自动标记过去20个交易日中每个决策的实际市场结果(盈利或亏损),并从中挑选成功和失败的典型案例,自动生成一份“经验总结”。这份总结会被前置于LLM的最终决策提示中,强制模型在做出新决策之前,明确回顾和修正过去的错误,从而实现基于经验的持续改进。
综上所述,TradingGroup中的各个专业智能体通过紧密的协同工作和内置的智能机制,形成了一个从数据处理到决策执行的完整闭环。接下来,我们将深入探讨支撑这些智能体高效运作的核心机制。
4.0 核心机制:自省、风控与数据合成
TradingGroup的卓越性能不仅源于其精巧的多智能体架构,更关键的是其内置的三大创新机制:自省、动态风控和数据合成。这些机制协同工作,构成了驱动系统不断学习和适应的“智能内核”。
4.1 自省机制 (Self-Reflection Mechanism)
TradingGroup的自省机制与传统的RAG方法有着根本性的区别。它并非简单地从历史案例库中检索相似情境,而是深度整合了决策的执行结果、智能体日志和风险信号,形成了一个连贯的、可操作的反馈循环。这种设计解决了传统方法难以准确区分历史决策优劣的关键痛点,因为它不仅回顾了“过去说了什么”,更重要的是评估了“这样做之后的结果如何”,从而实现了真正意义上的经验学习。
图2: TradingGroup 的数据合成与标注评估管道工作流
参考图2,该自省机制在三个关键智能体中发挥着核心作用:
* 股票预测智能体: 自动提取近期成功和失败的预测案例,总结导致预测准确或失误的关键模式与根本原因,并将这些洞察注入LLM的上下文,促使其在相似的市场条件下进行自我修正。
* 风格偏好智能体: 深入分析历史交易记录,评估不同交易风格在特定市场环境下的盈亏表现。结合当前账户状态,动态地选择最有可能成功的交易风格。
* 交易决策智能体: 自动生成一份包含成功与失败案例的“经验总结”,强制LLM在做出新决策前进行深度复盘,从而避免重复过去的错误。
这种机制使得系统能够准确地区分“好”与“坏”的历史决策,并基于这些宝贵的经验进行有效的策略调整。
4.2 动态风险管理模块 (Dynamic Risk-Management Module)
该模块的核心设计理念是采用“风格分层的动态阈值”与“硬拦截”相结合的方案,以确保系统在多变市场中的长期生存能力。
模块首先会计算10日历史波动率𝜎𝑑,10,然后根据风格偏好智能体选择的风格𝑠,动态注入不同的乘数𝑚,从而计算出自适应的止盈(𝑇TP)和止损(𝑇SL)阈值:
𝑇SL =𝑚sl 𝑠 𝜎𝑑,10, 𝑇TP =𝑚 tp 𝑠 𝜎𝑑,10 (3)
一旦持仓的未实现盈亏(PnL)百分比触及设定的动态阈值,硬拦截 (hard-intercept) 机制便会立即被触发。系统将无条件执行强制卖出操作,其执行规模(例如是清仓还是减半仓位)同样由当前的交易风格动态决定,确保风险得到及时、果断的控制。
4.3 端到端数据合成管道 (Data-Synthesis Pipeline)
该数据合成管道具有双重战略目的:一方面为智能体微调(无论是监督微调SFT还是强化学习RL)提供高质量、自动标注的数据支持;另一方面也为自省机制提供必要的历史案例和评估依据。
如图2所示,该管道系统性地收集了每个智能体在决策过程中的各类数据,包括:输入输出的文本内容、当日的账户状态(现金、持仓等)、以及完整的思维链(CoT)推理过程。
更关键的是,我们为两个核心智能体设计了专用的标签和奖励参数,并以此作为高质量样本筛选的核心依据:
* 交易决策智能体: 采用以下奖励公式来量化每个交易行为的有效性: reward𝑎 = 𝑟eq,𝑎 − 𝛽 𝑟bm − 𝛾 𝑐𝑎 (5) 该公式综合考虑了操作带来的账户回报、基准回报(Buy & Hold)以及交易成本。在生成训练数据时,只有reward𝑎为正的样本才会被保留,确保模型学习到的是真正有效的决策模式。
* 股票预测智能体: 采用加权命中奖励𝑤hit来评估预测质量: 𝑤hit = sign_ok × tanh ( |pct|/𝜖 ) × 𝑝true (4) 该奖励综合了预测方向的准确性(sign_ok)、实际回报的强度(tanh(|pct|/𝜖))以及模型自身的置信度(𝑝true)。只有𝑤hit值高的预测样本才会被筛选出来用于模型微调,从而保证训练数据的信噪比。
在详细阐述了系统架构和核心机制之后,接下来的章节将通过一系列严格的回测实验,来验证TradingGroup在真实市场数据中的实际性能表现。
5.0 实验设计与性能评估
为了客观、全面地评估TradingGroup的性能,我们设计了一系列严格的回测实验。本章将详细介绍实验所使用的数据集、对比基准、评估指标以及两种核心的实验设置。
5.1 数据集与基准策略
数据集
* 训练集: 我们在两个不重叠的历史时间段(2020年6月-2021年8月,2021年8月-2022年10月)运行TradingGroup系统(以DeepSeek-R1为基础模型)。通过其内置的数据合成管道,我们自动生成并筛选了1,080条高质量的标记轨迹,构成了一个用于模型微调的蒸馏数据集。
* 测试集: 我们使用了FINSABER框架提供的公开基准测试数据,时间范围为2022年10月6日至2023年4月10日。该数据集涵盖了五只具有代表性的美股股票(AMZN, NFLX, TSLA, MSFT, COIN),并包含了每日收盘价、相关金融新闻以及企业财务报告。
基准策略 (Baselines)
为了进行全面对比,我们选取了四类共计15种基准策略:
* 基于规则的策略:
* Buy & Hold
* SMA Cross (简单移动平均线交叉)
* WMA Cross (加权移动平均线交叉)
* ATR Band (平均真实波幅通道)
* Bollinger Bands (布林带)
* Turn-of-the-Month (月末效应)
* 基于预测器的策略:
* ARIMA
* XGBoost
* 基于强化学习的策略:
* FinRL库中的五种经典算法 (A2C, PPO, SAC, TD3, DDPG)
* 基于LLM的智能体:
* FinMem
* FinAgent
5.2 实验设置与评估指标
实验设置
我们设计了两个核心实验方案来验证TradingGroup的不同方面:
1. 框架对比实验: 此设置旨在评估TradingGroup多智能体架构本身的优势。我们统一使用GPT-4o-mini作为所有LLM智能体(包括TradingGroup, FinMem, FinAgent)的推理核心,并在相同的测试集上与所有基准策略进行性能比较。
2. 数据合成+PEFT实验: 此设置旨在验证数据合成管道的有效性。我们使用前述生成的1,080条蒸馏数据,通过LoRA方法结合int8量化技术对Qwen3-8B模型进行参数高效微调(PEFT),得到了一个专用模型Qwen3-Trader-8B-PEFT。该过程的可训练参数仅占总参数的0.5301%,在**单个V100 (32G)**显卡上完成,仅训练一个轮次(epoch),充分展示了该方案的高效性和可行性。随后,我们将其性能与原始的Qwen3-8B进行对比。
评估指标
我们采用FINSABER框架提供的四个核心量化指标来评估所有策略的表现:
* 累计回报率 (Cumulative Return, CR): 衡量策略在整个回测期内的总盈利能力。
* 夏普比率 (Sharpe Ratio, SPR): 衡量每单位风险所获得的超额回报,是风险调整后收益的核心指标。
* 最大回撤 (Maximum Drawdown, MDD): 衡量策略历史上可能出现的最大资金回撤,是衡量风险控制能力的关键指标。
* 年化波动率 (Annualised Volatility, AV): 衡量策略收益率的波动性,反映了策略的稳定性。
所有准备工作就绪,下一章节我们将呈现并深入分析详细的实验结果。
6.0 结果分析与洞察
本章节将深入分析前述实验的量化结果,旨在从数据层面揭示TradingGroup相较于行业基准的性能优势,验证其数据合成管道的实际价值,并通过消融研究剖析其关键模块的贡献。
6.1 与基准策略的性能对比
图3: 不同LLM智能体在测试集上的累计回报率曲线对比
表1和图3的详细数据显示,以GPT-4o-mini为核心的TradingGroup在多个方面表现出色。
* 在TSLA、AMZN、MSFT和COIN这四只股票上,TradingGroup的综合性能显著优于所有基于LLM的基准策略(FinMem和FinAgent)。
* 尤其在AMZN数据集上,TradingGroup取得了40.46%最低的最大回撤(-2.118%)。这一“高回报+低风险”的优异表现,有力地验证了其动态风险管理模块在实战中的关键作用。
* 在NFLX数据集上,当默认开启风控模块时,TradingGroup的回报略显保守。然而,消融研究显示,关闭风控后,其回报率和夏普比率均跃升至所有策略中的第一位。这揭示了风险管理模块对于系统稳定性的重要性——它通过牺牲部分极端行情下的潜在收益,换取了在更广泛市场环境下的稳健性和生存能力。
6.2 数据合成与PEFT微调的成效
表2和图3中TRADINGGROUP_QWEN3_PEFT的曲线清晰地展示了数据合成管道的巨大价值。
* 在所有五个测试股票上,经过PEFT微调的Qwen3-Trader-8B-PEFT模型,其累计回报率(CR)和夏普比率(SPR)均全面优于原始的Qwen3-8B基础模型。
* 一个惊人的发现是,在TSLA和NFLX两个数据集上,这个经过微调的8B参数级模型的性能甚至超越了使用更强大的GPT-4o-mini的版本。这强有力地证明了TradingGroup数据合成管道所产出的高质量、高相关性数据对于提升模型交易能力的决定性作用。
* 以MSFT为例,微调后的模型不仅将累计回报率从0.35%提升至13.82%,还同时降低了最大回撤和年化波动率。这验证了经过优化后的决策链与TradingGroup风险管理模块之间能够产生高效的协同效应。
6.3 关键模块的消融研究
表3的消融研究结果使我们能够深入剖析TradingGroup各核心组件的独立贡献。其中,组件定义如下:RM (Risk Management,风险管理模块),SR (Self Reflection,自省机制),RE (Qwen3-Reranker & Embedding,检索增强模块),PC (Style-Preference Agent & Current State,风格偏好与当前状态模块)。
模块组合 对回报率的影响 (CR) 对风险指标的影响 (MDD, AV) 核心洞察
仅风控 (RM+PC) 显著下降 (如TSLA下降77%) 显著改善 (如TSLA波动率下降39%) 风险控制是基础稳定器。如TSLA所示,它以77%的回报下降为代价,将波动率降低了39%,证实了其在动荡市场中防止灾难性损失的作用。
移除风控 (SR+RE+PC) 表现不稳定 (NFLX回报最高,TSLA变为负值) 风险显著增加 移除风险管理会产生高方差的“英雄或零”策略。虽然它在NFLX上释放了最高回报(+61%),但在TSLA上却造成了-14.38%的灾难性回报,表明缺乏风险护栏的性能优化模块是不可靠的。
完整系统 (All Enabled) 在多数情况下实现回报与风险的最佳平衡 在多数情况下实现回报与风险的最佳平衡 自省(SR)和检索增强(RE)等性能优化元素,能在风控基础上同时改善回报和风险指标。
综合所有实验结果,我们可以得出结论:TradingGroup的卓越性能并非源于单一模块,而是其整体设计的胜利。特别是其创新的自省机制和数据合成管道,共同构成了系统能够从经验中学习、在风险可控的前提下不断优化决策的核心驱动力。
7.0 结论与未来展望
TradingGroup作为一个创新的多智能体量化交易系统,通过深度整合自省机制、动态风险管理和端到端的自动化数据合成管道,成功地解决了当前金融LLM智能体面临的核心挑战。在FINSABER回测框架中的一系列严谨实验证明,TradingGroup的性能在风险调整后收益、回报率和稳定性方面均优于现有的各类基准策略,包括其他LLM智能体。
尤为重要的是,我们通过数据合成管道生成的蒸馏数据,成功微调出Qwen3-Trader-8B-PEFT模型。该模型在部分数据集上的性能甚至超越了基于GPT-4o-mini的系统,这充分验证了TradingGroup所提出的数据驱动、自我进化的范式具有巨大的潜力和应用价值。
未来展望
展望未来,我们的工作将聚焦于以下三个主要方向:
* 扩展数据与标注维度: 我们计划设计新的评估指标,如“风控执行得分”,并对智能体的决策过程进行更细粒度的标注,以捕捉更丰富的训练信号。
* 探索“三阶段训练”范式: 我们将深入研究结合监督微调(SFT)、由交易回报驱动的策略优化算法(如GRPO)以及拒绝采样(Rejection Sampling)等先进技术,以期进一步强化模型的决策质量和鲁棒性。
* 构建端到端平台: 我们的最终目标是持续改进TradingGroup的协作与安全机制,将其构建成一个端到端的、专为量化交易而设计的多智能体训练与实战平台。


