FinDebate:用于金融分析的多智能体协同智能框架
作者与单位 (Authors and Affiliations) Tianshi Cai¹*, Guanxu Li¹*, Nijia Han²*, Ce Huang¹, Zimu Wang¹†, Changyu Zeng¹, Yuqi Wang⁴, Jingshi Zhou¹, Haiyang Zhang¹, Qi Chen³, Yushan Pan¹, Shuihua Wang², Wei Wang¹†
¹ 西安交通利物浦大学,未来技术学院,中国苏州 ² 西安交通利物浦大学,理学院,中国苏州 ³ 西安交通利物浦大学,人工智能与先进计算学院,中国苏州 ⁴ 上海交通大学,中国上海
{Tianshi.Cai24, Guanxu.Li24, Nijia.Han23}@student.xjtlu.edu.cn Zimu.Wang19@student.xjtlu.edu.cn, Wei.Wang03@xjtlu.edu.cn
* 同等贡献 † 通讯作者
摘要 (Abstract) 本文介绍了FinDebate,一个用于金融分析的多智能体框架,它将协同辩论与领域特定的检索增强生成(RAG)技术相结合。该框架包含五个专业智能体,分别负责盈利、市场、情绪、估值和风险分析,它们并行工作,将证据综合成多维度的洞察。为了减轻过度自信并提高可靠性,我们引入了一种安全辩论协议,使智能体能够在保持一致性建议的同时,对初步结论进行挑战和完善。基于大型语言模型(LLM)和人工评估的实验结果表明,该框架在生成具有校准置信度的高质量分析报告以及跨多个时间范围的可行投资策略方面表现出色。
--------------------------------------------------------------------------------
1. 引言 (引言)
大型语言模型(LLM)的出现催化了自然语言处理领域的进步,但在金融领域,严格的操作和监管约束对准确性、可靠性和可解释性提出了极高的要求,使其成为一个充满机遇与挑战的领域。本节将深入剖析这些挑战,评估现有解决方案的局限性,并引入FinDebate框架,作为一项旨在弥合这些差距的创新贡献。
1.1. 金融领域中大型语言模型的挑战 (Challenges of Large Language Models in the Financial Domain)
LLM基于统计相关性进行“下一词元预测”的本质,与金融行业对可验证推理和稳定建议的需求之间存在根本性的错位。这导致了一系列具体问题,例如模型输出在不同提示和运行中存在波动,置信度校准不当,以及陈述看似合理但缺乏可验证的证据支持(Zhang et al., 2024; Tatarinov et al., 2025)。
此外,在生成长篇、多章节的分析报告时,还面临着文档级和流程级的挑战。模型必须将证据综合成统一、连贯的叙述,同时避免主题漂移,并确保所有论断均有原始文本支持(Goldsack et al., 2024; Xia et al., 2025)。在长篇报告的生成过程中,维持观点的一致性和覆盖所有关键要素变得尤为困难。
1.2. 现有方法的局限性 (Limitations of Existing Approaches)
从业者已经采用多种实用策略来应对这些挑战,但这些方法各有其短。
* 模板驱动的工作流:虽然这种方法能够确保纪律性和风格一致性,但它削弱了引用证据、推理过程与报告最终立场之间的对齐关系(Kang et al., 2025; Tian et al., 2025)。
* 标准的检索增强生成(RAG):RAG能够为事实性声明提供依据,但在将分散的文本片段整合成一个连贯、多维度的叙述方面仍然面临挑战(Jimeno-Yepes et al., 2024)。
* 传统的多智能体协作与辩论:这些方法虽然能在短篇论断中发现问题,但在处理章节式长篇分析报告时,往往难以在覆盖所有基本要素的同时保持一致的立场(Sun et al., 2024)。
1.3. 本文贡献:FinDebate框架 (Our Contribution: The FinDebate Framework)
为解决上述问题,我们提出了FinDebate框架。其核心创新在于一个安全约束的辩论协议,旨在稳定立场的同时,强化证据覆盖和风险阐述。如图1所示,框架的工作流程始于一个领域特定的RAG模块和一组角色专业化的分析智能体,它们共同生成一份初稿。随后,辩论阶段对初稿进行有界限的增强:辩论前的立场被固定,各角色被禁止改变方向,且每一个新增内容都必须锚定于可验证的参考文献。
这一设计在提升报告覆盖面和可验证性的同时,保留了投资理据的连贯性,从而产生了既可审计又以决策为导向的分析报告,其有效性已通过基于LLM和人工的评估得到证实。
2. 方法论 (Methodology)
本节对FinDebate的架构进行详细的技术分解,以确保框架的透明性和可复现性。该方法论由三个核心模块组成:领域特定的RAG模块、多智能体分析模块以及安全协同辩论机制。
2.1. 领域特定的RAG模块 (Domain-Specific RAG Module)
2.1.1. 文本分割策略 (Text Segmentation Strategy)
由于LLM的上下文窗口限制,直接处理长篇金融报告是不可行的。为解决此问题,我们采用了一个集成了ChromaDB的领域特定RAG模块,以支持对海量金融文档的高效索引和相似性搜索。我们采用了一种基于上下文分块的上下文敏感的分割策略(Gunther et al., 2024),而非简单的固定大小分块。该策略采用递归程序,优先保留段落边界,其次是句子边界,最后是词元边界,从而最大化地维护了语义完整性,为后续高精度的检索和可靠的推理奠定了坚实基础。
2.1.2. 金融嵌入与多层次检索 (Financial Embedding and Multi-level Retrieval)
我们使用FinLang模型对分割后的文本段落进行编码。该模型是基于BGE(Zhang et al., 2023)通过领域特定的微调改编而来,能够精准捕捉投资风险、估值指标、市场情绪等金融构念的语义精髓。在此基础上,我们借鉴多层次检索(Adjali et al., 2024)的理念,跨越四个维度进行上下文检索:一般财务表现、专业财务指标、市场情绪与风险以及多查询整合,为后续的多智能体系统提供了坚实的分析基础。
2.2. 多智能体设计 (Multi-Agent Design)
单一模型方法通常依赖通用方法论,视角有限,导致分析流于表面。为了克服这一局限,我们提出了一个多智能体协作框架,旨在从五个专业领域进行深度金融分析。
2.2.1. 智能体提示策略 (Agent Prompting Strategy)
每个智能体都配备了两级提示结构(系统提示和用户提示)。
* 系统提示通过四个关键组成部分定义了智能体的专业身份:专业资质、权威背景、明确使命和高质量标准。
* 用户提示则概述了分配给每个智能体的具体分析任务,包含四个要素:分析框架、技术要求、输出规格以及与RAG检索信息的上下文整合。
2.2.2. 智能体专业化分工 (Agent Specialization)
我们的框架利用五个专业化的智能体,构建了一个全面的分析体系,以应对机构投资决策的关键方面。
* 专业盈利分析师 (Professional Earnings Analyst): 评估收入质量、盈利能力和可持续性,并审查净息差(NIM)、资产质量和资本充足率等关键财务指标。
* 专业市场预测师 (Professional Market Predictor): 预测跨多个时间范围的市场趋势,包括对财报的即时市场反应、基本面驱动因素的可持续性以及基于战略发展的长期市场定位。
* 专业情绪分析师 (Professional Sentiment Analyst): 结合行为金融学理论,评估管理层可信度和投资者情绪,并将心理因素转化为可行的投资策略。
* 专业估值分析师 (Professional Valuation Analyst): 应用行业特定的估值模型,如贴现现金流(DCF),综合考虑信用损失周期性和监管资本约束等因素。
* 专业风险分析师 (Professional Risk Analyst): 提供全面的风险评估和头寸规模建议,评估信用、利率和流动性等多种风险因素。
2.2.3. 报告综合 (Report Synthesis)
在各专业智能体完成分析后,报告综合智能体将整合它们的输出,提取关键财务指标并管理情绪数据,生成一份全面的报告,提交给协同辩论机制进行最终优化。
2.3. 安全协同辩论机制 (Safe Collaborative Debate Mechanism)
2.3.1. 三智能体协作 (Three-Agent Collaboration)
我们引入了一个由三个智能体组成的安全协同辩论机制:信任智能体、怀疑智能体和领导智能体。
* 信任智能体 (Trust Agent): 通过提供支持性证据、强化论证逻辑和优化语言表达来增强原始报告。在此过程中,它被严格禁止改变报告的基调(如从看跌转为看涨)或修改投资建议。
* 怀疑智能体 (Skeptic Agent): 从风险管理的角度完善报告,其核心职责是识别潜在风险因素,提出对冲策略,并改进情景分析框架。
* 领导智能体 (Leader Agent): 综合信任智能体的证据增强和怀疑智能体的风险分析,生成最终的优化报告。
2.3.2. 算法设计 (Algorithm Design)
算法1概述了辩论框架的设计,采用安全第一的原则来维护原始投资建议的完整性。辩论在单轮内进行,以有效避免多轮迭代中常见的主题漂移,并且整个过程只涉及微小的改进,而不进行方向性的重写。值得注意的是,该机制仅适用于对已有明确投资建议的报告进行优化,而不用于从零开始生成报告。
这一由三个模块组成的架构确保了框架的稳健性与可靠性,其有效性将在接下来的实验部分得到验证。
3. 实验 (Experiments)
为实证检验FinDebate框架的有效性,我们进行了一系列严格的对照实验。本节将详细介绍实验所使用的数据集、模型、基线和评估指标,为框架的有效性提供量化和定性证据。
3.1. 实验设置 (Experimental Setup)
* 数据集 (Datasets): 实验使用了Earnings2Insights共享任务的数据集,该任务包含来自ECTSum的40份财报电话会议记录和24份专业分析师报告。
* 模型与参数 (Models and Setup): 我们使用了五种先进的大型语言模型进行评估:
* GPT-4o (2024-08-06)
* Gemini 2.5 Flash
* Llama 4 Maverick
* DeepSeek-R1 (0528)
* Claude Sonnet 4 为确保公平比较,所有模型均采用相同的生成参数(温度:0.6,最大输出长度:6,500词元,top-p:0.85,频率惩罚:0.1)。
* 基线模型 (Baselines): 我们将FinDebate与以下三种基线方法进行了比较:
1. 零样本推理 (Zero-shot inference): 直接处理报告,不依赖任何额外信息。
2. 标准RAG (Standard RAG): 代表使用通用嵌入模型的传统RAG方法。
3. 无辩论的多智能体生成 (Multi-agent generation w/o Debate): 这是一项消融研究,旨在剥离安全协同辩论机制,以评估该机制本身的贡献。
3.2. 评估指标 (Evaluation Metrics)
我们的评估协议涵盖两个核心维度,并使用GPT-4o进行实施。
* LLM-based评估 (LLM-based Evaluation): 根据表3的定义,评估分为两大类:
* 文本质量 (Textual Quality): 包括可读性、语言抽象性和连贯性。
* 金融分析专业性 (Financial Analysis Professionalism): 包括金融关键点覆盖率、背景信息充分性、管理层情绪传达、未来展望分析和事实准确性。
评估维度 定义
可读性 报告语言的清晰度和流畅性;语法、风格和阅读的难易程度。
语言抽象性 超越原始数据重复的总结和综合程度。
连贯性 段落和观点之间的逻辑流程和结构清晰度。
金融关键点覆盖率 包含核心盈利亮点(收入、利润、利润率、指引)。
背景信息充分性 提供历史/行业背景和业绩解释。
管理层情绪传达 准确反映管理层表达的基调(乐观、谨慎等)。
未来展望分析 报告有关未来业绩的指引、预测或战略计划。
事实准确性 所有陈述和数据与官方记录和文件的一致性。
表3:评估维度及其对应定义。
* 人工评估 (Human Evaluation): 人工评估主要关注报告是否能有效引导和说服投资者做出正确的决策。
* 关键指标包括基于报告做出的1天、1周和1个月投资选择(做多或做空)的平均准确率。
* 通过平均李克特量表评分评估报告的清晰度、逻辑性、说服力、可读性和实用性。
通过这一详尽的实验设计,我们旨在全面评估FinDebate框架的性能,并将在下一节中展示其结果。
4. 结果与分析 (Results and Analysis)
本节展示了本研究的核心发现。我们首先详细介绍基于LLM的量化评估结果,然后分析来自人工评估的定性洞察,以论证FinDebate的实用价值和技术优势。
4.1. 主要结果 (Main Results)
基础模型 零样本 标准RAG 无辩论的多智能体 FinDebate 总体提升
GPT-4o 2.97 3.21 3.39 3.58 +0.61
Gemini 2.5 Flash 2.90 3.15 3.32 3.50 +0.60
Llama 4 Maverick 2.82 3.06 3.24 3.41 +0.59
DeepSeek-R1 2.77 3.02 3.10 3.39 +0.62
Claude Sonnet 4 3.03 3.27 3.45 3.64 +0.61
表1:FinDebate在不同模型上的性能比较。每个模型的最佳性能以粗体显示。
如表1所示,FinDebate框架在所有五个模型上均实现了显著的性能提升,增幅范围从+0.59到+0.62,平均提升了20.4%。通过配对t检验,这些提升在统计上是显著的(p < 0.001)。这些结果表明,FinDebate将模型的性能从“满意”(约3.0分)提升至“优秀”(约3.6分)的水平。这种跨模型的一致性突显了该框架的普适性和技术优越性。
4.2. 人工评估结果 (Human Evaluation Results)
人工评估的结果进一步证实了FinDebate的有效性。
首先,在金融决策准确性方面,FinDebate展现了卓越的预测能力。与其他团队相比,FinDebate生成的报告在指导投资决策上准确率更高,其中1天、1周和1个月的预测准确率分别为0.58、0.58和0.60,显著优于其他团队的0.55、0.53和0.54。
其次,在报告质量方面,FinDebate在多个维度均获得更高评分。例如,在实用性(Usefulness)方面,FinDebate的评分为5.98,远高于其他团队的平均分5.60。同样,在清晰度(5.71 vs 5.37)、逻辑性(5.89 vs 5.52)和说服力(5.95 vs 5.31)方面,FinDebate也表现出明显优势。这表明该框架不仅能生成技术上准确的分析,还能产出对专业投资者具有实际指导价值的高质量内容。
综合来看,LLM和人工评估的结果一致证明,FinDebate框架能够生成专业级的金融分析报告,其质量和实用性均优于基线方法。
5. 结论与未来工作 (结论 and Future Work)
本节首先总结论文的主要贡献,重申FinDebate框架的重要性,然后基于当前工作为未来的研究指明方向。
5.1. 结论 (结论)
本文介绍了FinDebate,一个多智能体框架,它通过整合领域特定的RAG、专业化的分析智能体和一种安全协同辩论机制,有效解决了现有金融AI应用中的关键局限性。实验证明,该框架能够生成机构级的金融报告,并提供跨多个时间范围的可行投资建议,展示了其在复杂推理任务中的独特价值。
5.2. 未来工作 (Future Work)
未来的研究方向包括:
* 将框架扩展到更广泛的金融领域:将该框架应用于资产管理、信贷分析等其他金融场景。
* 开发动态的置信度调整机制:研究能够根据市场波动性和数据质量动态调整置信度评分的方法。
* 与实时市场数据集成:将框架与实时市场数据流相结合,以提供更具时效性的分析和建议。
* 将该系统迁移到其他应用领域:探索将该协同智能框架应用于法律、医疗等其他需要高可靠性推理的领域。
参考文献 (References)
Adjali, O., Ferret, O., Ghannay, S., & Le Borgne, H. (2024). Multi-level information retrieval augmented generation for knowledge-based visual question answering. In Conference on Empirical Methods in Natural Language Processing.
Du, Y., Li, S., Torralba, A., Tenenbaum, J. B., & Mordatch, I. (2023). Improving factuality and reasoning in language models through multiagent debate. ArXiv, abs/2305.14325.
Estornell, A., & Liu, Y. (2024). Multi-llm debate: Framework, principals, and interventions. In Neural Information Processing Systems.
Goldsack, T., Wang, Y., Lin, C., & Chen, C.-C. (2024). From facts to insights: A study on the generation and evaluation of analytical reports for deciphering earnings calls. In International Conference on Computational Linguistics.
Gunther, M., Mohr, I., Wang, B., & Xiao, H. (2024). Late chunking: Contextual chunk embeddings using long-context embedding models. ArXiv, abs/2409.04701.
Guo, D., et al. (2025). Deepseek-r1: Incentivizing reasoning capability in llms via reinforcement learning. ArXiv, abs/2501.12948.
Hurst, A., et al. (2024). Gpt-4o system card. ArXiv, abs/2410.21276.
Jimeno-Yepes, A., You, Y., Milczek, J., Laverde, S., & Li, R.-Y. (2024). Financial report chunking for effective retrieval augmented generation. ArXiv, abs/2402.05131.
Kang, X., Wang, Z., Jin, X.-B., Wang, W., Huang, K., & Wang, Q. (2025). Template-driven llm-paraphrased framework for tabular math word problem generation. In AAAI Conference on Artificial Intelligence.
Li, R., Wang, Z., Tran, S. Q., Xia, L., & Du, X. (2024). Meqa: A benchmark for multi-hop event-centric question answering with explanations. In Neural Information Processing Systems.
Liang, T., He, Z., Jiao, W., Wang, X., Wang, Y., Wang, R., Yang, Y., Tu, Z., & Shi, S. (2024). Encouraging divergent thinking in large language models through multi-agent debate. In Conference on Empirical Methods in Natural Language Processing.
Mukherjee, R., Bohra, A., Banerjee, A., Sharma, S., Hegde, M., Shaikh, A., Shrivastava, S., Dasgupta, K., Ganguly, N., Ghosh, S., & Goyal, P. (2022). Ectsum: A new benchmark dataset for bullet point summarization of long earnings call transcripts. In Conference on Empirical Methods in Natural Language Processing.
Sun, X., Li, J., Zhong, Y., Zhao, D., & Yan, R. (2024). Towards detecting llms hallucination via markov chain-based multi-agent debate framework. In IEEE International Conference on Acoustics, Speech, and Signal Processing.
Takayanagi, T., Goldsack, T., Izumi, K., Lin, C., Takamura, H., & Chen, C.-C. (2025). Earnings2Insights: Analyst Report Generation for Investment Guidance. In Proceedings of the FinNLP Workshop at EMNLP 2025, Suzhou, China.
Tatarinov, N., Sukhani, S., Shah, A., & Chava, S. (2025). Language modeling for the future of finance: A quantitative survey into metrics, tasks, and data opportunities. ArXiv, abs/2504.07274.
Tian, Y.-E., Tang, Y.-C., Wang, K.-D., Yen, A.-Z., & Peng, W.-C. (2025). Template-based financial report generation in agentic and decomposed information retrieval. ArXiv, abs/2504.14233.
Xia, H., Peng, H., Qi, Y., Wang, X., Xu, B., Hou, L., & Li, J. (2025). Storywriter: A multi-agent framework for long story generation. ArXiv, abs/2506.16445.
Zhang, P., Xiao, S., Liu, Z., Dou, Z., & Nie, J.-Y. (2023). Retrieve anything to augment large language models. ArXiv, abs/2310.07554.
Zhang, Z., Sen, P., Wang, Z., Sun, R., Jiang, Z., & Su, J. (2024). Finbpm: A framework for portfolio management-based financial investor behavior perception model. In Conference of the European Chapter of the Association for Computational Linguistics.


