FinGEAR: 金融图谱引导的增强型答案检索框架
Ying Li, Mengyu Wang, Miguel de Carvalho, Sotirios Sabanis, Tiejun Ma
The University of Edinburgh, University of Aveiro, National Technical University of Athens, Archimedes/Athena Research Centre, The Artificial Intelligence Applications Institute
摘要 (Abstract)
金融披露文件(如 10-K 年报)因其篇幅冗长、监管要求的章节层级以及领域特定的语言,给信息检索带来了严峻挑战,而标准的检索增强生成(RAG)模型未能充分利用这些特性。为此,我们提出了 FinGEAR (Financial Mapping-Guided Enhanced Answer Retrieval),一个专为金融文档量身定制的检索框架。FinGEAR 结合了用于项目级指导的金融词典(FLAM)、用于项目内搜索的双层层级索引(摘要树和问题树),以及一个两阶段的交叉编码器重排序器。这一设计使检索过程与披露文件的结构和术语保持一致,从而实现了细粒度、查询感知的上下文选择。在 FinQA 数据集和完整的 10-K 文件上进行的评估表明,FinGEAR 在精确率、召回率、F1 值和相关性方面均取得了持续的提升。具体而言,其 F1 值相比扁平化 RAG 提升高达 56.7%,相比图 RAG 提升 12.5%,相比先前的树形系统提升 217.6%,同时在固定阅读器模型的情况下也提高了下游任务的答案准确率。通过对章节层级和领域词典信号进行联合建模,FinGEAR 显著提升了检索保真度,为高风险金融分析提供了坚实的实用基础。
1. 引言 (引言)
金融披露文件,如美国证券交易委员会(SEC)要求的 10-K 年报,是投资分析、监管监控和风险评估的核心依据。这些文件通常篇幅冗长(常超过 100 页),并按照 SEC 规定的项目(Item)进行组织,例如项目 1(业务)、项目 1A(风险因素)、项目 7(管理层讨论与分析)和项目 8(财务报表)。各项目混合了叙述性文本、表格和脚注。许多金融自然语言处理(NLP)任务,包括情感分析、趋势检测、实体提取、风险检测和问答,都依赖于首先从这些文件中准确检索到相关段落。然而,由于相关证据可能分散在多个项目或年份中,且领域同义词(如“sales”与“revenue”)和交叉引用十分常见,信息检索变得异常困难。因此,检索至今仍是当前金融 NLP 工作的主要瓶颈。
现有的检索增强生成(RAG)方法在应用于金融领域时,存在三个核心局限性:(1) 缺乏结构感知能力:固定大小的分块方式破坏了文件的逻辑层级,导致上下文检索错位;(2) 缺乏金融特异性:通用检索器无法区分金融领域中细微但至关重要的概念(例如,“净利润”与“营业利润”);(3) 纯密集检索的可解释性差:在高风险、重证据的场景中,仅依赖向量相似性难以提供清晰的解释。
为了解决这些问题,我们提出了 FinGEAR(Financial Mapping-Guided Enhanced Answer Retrieval),一个以“检索为中心”的框架,专为处理冗长、半结构化的专业披露文件而设计。FinGEAR 将检索视为核心问题,旨在提取结构连贯、金融术语精准且适用于多种任务的内容。
FinGEAR 的核心贡献包括以下三点:
1. 文档-查询层级对齐 (Document–Query hierarchical alignment): 通过构建摘要树 (Summary Tree) 捕捉文档的结构布局,并通过一个结构镜像的问题树 (Question Tree) 实现查询敏感的检索。
2. 金融词典感知映射 (Financial Lexicon-Aware Mapping, FLAM): 利用领域特定的术语集群和词典加权评分来引导检索过程,使其更具领域感知能力。
3. 混合密集-稀疏检索 (Hybrid dense–sparse retrieval): 结合稀疏关键词锚定和密集嵌入相似性,以在可解释性与相关性之间取得平衡。
在完整的 10-K 文件上进行的实验评估显示,FinGEAR 的检索 F1 值相比扁平化 RAG 提升高达 138%,相比图基线模型(如 LightRAG)提升 28%,相比先前的树形系统提升 263%。[^1] 消融研究证实,这些性能提升源于其结构化和领域感知模块的协同设计。尽管 FinGEAR 不直接优化推理任务,但下游实验表明,提升的检索质量能够显著提高问答任务的准确率,再次证明了高质量检索是金融文档理解的基础。
据我们所知,FinGEAR 是首个专为金融披露文件量身定制的“检索优先”系统。它为实现结构化、可解释且任务灵活的金融 NLP 提供了一个原则性的模块化基础。
2. 相关工作 (Related Work)
本节旨在通过回顾现有文献,将 FinGEAR 定位在 RAG、层级检索和金融 NLP 的交叉领域,并明确其创新之处。
2.1 检索增强生成 (RAG)
检索增强生成(RAG)通过从外部语料库中获取相关上下文来增强语言模型,减少了对完整模型微调的需求。诸如 Self-RAG 和 Adaptive RAG 等高级变体改善了检索器与生成器之间的协调,但它们仍然依赖固定大小的分块。这种方法难以保留长文档的结构信息,并可能在处理长篇问答等任务时引入偏差。尽管一些工作通过长上下文模型或检索感知的块划分来解决上下文长度限制,但它们并未解决金融领域特有的结构化检索问题。
2.2 层级与图检索
层级方法(如 RAPTOR)和图方法(如 GraphRAG 和 LightRAG)通过将文档表示为树或图来建模实体和章节间的关系,以支持多跳推理。例如,GraphRAG 构建局部-全局图,并通过社区级遍历进行检索;LightRAG 则在与章节对齐的段落上执行双层级查询分解。然而,这些方法大多是领域无关的,并且常常依赖可能产生幻觉的大语言模型(LLM)来生成摘要,这在高风险的金融领域是一个显著的缺陷。
2.3 金融 NLP 与领域特定检索
金融 NLP 领域已涌现出许多领域适应模型,如 FinBERT-QA 和 FinGPT,以及像 DocFinQA 这样的基准测试。这些模型提升了对金融文本的语义理解,但它们通常假设相关上下文已经提供,并未解决检索架构本身的问题。DocFinQA 虽然在完整文件上评估问答性能,却依赖一个理想化的“神谕”检索器,从而回避了检索设计这一核心挑战。因此,先前的工作未能充分构建一个能够反映金融文档层级布局、领域术语和章节语义的检索架构。
2.4 金融文档的引导式与可解释检索
在金融等高风险领域,检索结果不仅要相关,还必须是可解释的,因为它们直接支持监管或分析决策。扁平化的纯密集检索管道由于缺乏透明度,难以解释段落被选中的原因。尽管层级和图检索方法通过编码文档结构提高了可追溯性,但它们大多是领域无关的。FinGEAR 遵循的原则是,通过结合词典引导的全局导航和与项目(Item)对齐的层级索引,实现了专为金融披露文件定制的可解释、分区域的证据选择。
综上所述,FinGEAR 旨在填补现有研究的空白,通过一个专为金融文档设计的结构感知、领域特定且可解释的框架来解决检索挑战。
3. 方法论 (Methodology)
FinGEAR 是一个模块化的检索框架,其设计旨在与冗长金融文件的结构和术语保持一致。我们的动机源于一个观察:10-K 报告中嵌入了丰富的领域特定信号,如 SEC 项目标题、披露层级和金融术语,这些信号可以被提取并用于改进检索。FinGEAR 并未采用扁平化分块或纯密集相似性搜索,而是构建了层级表示,并利用金融词典通过混合匹配来引导搜索,从而实现具有结构保真度和领域特异性的检索。
3.1 预检索流程 (Pre-Retrieval Pipeline)
在检索开始前,FinGEAR 会构建用于上下文感知导航的索引结构。该阶段主要包括两个并行过程:(1)结构提取,用于建模披露文件的层级结构;(2)金融词典感知映射 (FLAM),用于引导搜索过程,使其聚焦于金融相关的核心内容。图 1 概述了这一预检索阶段,展示了如何从解析后的 10-K 文件出发,同时构建双树索引(摘要树和问题树),并由 FLAM 生成用于指导检索预算分配的项目权重。
图 1: 预检索流程。从解析后的 10-K 文件出发,FinGEAR 同时进行结构提取和词典映射(FLAM)。FLAM 负责聚类领域术语并分配项目权重;主题聚类则为每个项目构建一个摘要树和镜像的问题树。
3.1.1 结构提取 (Structure Extraction)
FinGEAR 在每个 10-K 项目内部提取细粒度的结构。尽管 SEC 规定的项目提供了高层级的布局,但每个项目可能跨越数十页,内容异构。为了支持多粒度的检索,FinGEAR 在每个项目内部使用基于主题的聚类来构建语义树。
* 分块与编码: 每个项目被分割成约 2000 个词元(token)的块,并有 100 个词元的重叠。我们使用在金融数据上微调过的句子嵌入模型对每个块进行编码,从而获得一个与领域对齐的表示空间。
* 通过主题聚类进行层级扩展: 我们自下而上地构建层级结构。首先,使用 UMAP 进行降维;随后,使用高斯混合模型(GMM)进行软聚类。叶节点对应原始的文本块,而每个内部节点代表一个软聚类,并通过摘要来引导自顶向下的遍历。最终形成一个从粗到细粒度的主题内容层级。
* 摘要树与问题树 (Outputs): 结构提取的最终产出是两个结构相同的层级索引:
* 摘要树 (Summary Tree): 其内部节点存储由 LLM 生成的摘要,叶节点则存储原始的文本块。
* 问题树 (Question Tree): 它复制了摘要树的拓扑结构,但其内部节点存储的是由 LLM 生成的、嵌入在相同查询空间中的子问题。其叶节点指向与摘要树相同的文本块。
这种共享拓扑但节点内容不同的设计,使得在检索过程中可以进行混合的稀疏-密集遍历。
3.1.2 金融词典感知映射 (FLAM)
FLAM 通过在遍历前为各个项目分配领域感知的权重,来提供指导。我们从 FinRAD 词典中提取候选术语,使用在金融语言上微调的句子嵌入进行聚类。每个相关术语根据其相对频率 (Relative Frequency) 被赋予一个权重: weight(ki) = count(ki) / Σj count(kj) 该方法因其可解释性和在异构文件中的稳健性而被选中。
FLAM 与结构提取的区别: FLAM 在语料库层面操作,它对词汇术语进行聚类,并将其转化为用于分配全局检索预算的项目级权重。换言之,FLAM 决定**“在哪些项目(Items)中查找”。而结构提取在单个 10-K 项目内部操作,它对文本块进行聚类,以构建用于遍历的局部树。简而言之,结构提取决定“在项目内部如何查找”**。
3.2 检索中流程 (In-Retrieval Pipeline)
在查询时,FLAM 首先识别出最可能包含相关内容的项目。在这些选定的项目内部,双树遍历会检索候选段落:摘要树提供稀疏、高层级的路由,而问题树则提供密集、查询特定的精细化搜索。图 2 以一个具体的 FinQA 查询(例如,“What was JPMorgan Chase & Co.’s CET1 ratio in 2008?”)为例,展示了这一过程。
图 2: 检索中流程。FLAM 在项目间分配预算(组内)。在每个项目内部,摘要树和问题树被遍历(项目内)。候选段落经过联合重排序并在项目间合并。
3.2.1 全局导航 (Global Navigation)
全局导航在任何树遍历开始之前,选择要搜索的 SEC 项目。利用 FLAM,我们执行以下步骤:
1. 术语检测与扩展: 从查询中提取显著的金融术语(如 CET1, capital ratio),并使用 FLAM 的词典聚类进行扩展,以捕捉紧密相关的变体。
2. 将术语映射到项目: 计算每个术语集群在各个 SEC 项目中出现的频率,并将其转换为归一化的项目权重 wi。
3. 分配预算: 给定总检索预算 k,为每个项目分配一个子预算 k*i = round(k * wi)。
4. 移交至遍历: 将预算 k*i 大于零的项目及其预算传递给项目内搜索阶段。
图 3: 使用 FLAM 进行全局导航。词典聚类将查询术语映射到披露项目,并根据相对频率分配权重 wi,这些权重决定了用于遍历的每个项目的预算 k*i。
3.2.2 项目内搜索与重排序 (Within-Item Search and Reranking)
在每个由全局导航选定的项目中,我们执行一个包含遍历、池化和重排序的精细化搜索流程。
* 双树遍历与候选项池化 (Dual-Tree Traversal and Candidate Pooling): 我们并行遍历拓扑结构相同的摘要树和问题树。
* 摘要检索(稀疏): 在摘要树中,节点根据其摘要与查询的 BM25 词袋模型评分进行匹配。
* 问题检索(密集): 在问题树中,节点根据查询嵌入与节点上存储的子问题之间的余弦相似度进行匹配。
* 两棵树被独立遍历。在每个内部节点,我们仅扩展得分最高的 b 个子节点(实验中 b=3),并持续向下直到达到叶节点。所有在两棵树中访问到的叶节点(即原始文本块)被收集起来,形成该项目的统一候选项池。
* 两阶段重排序与选择 (Two-Stage Reranking and Selection):
* 第一阶段(跨树重排序): 对单个项目内的候选项池应用交叉编码器进行重排序,以整合来自摘要树(稀疏信号)和问题树(密集信号)的证据。
* 项目内选择: 从第一阶段重排序后的列表中,选取得分最高的 k*i 个文本块作为该项目的最终候选集。
* 第二阶段(跨项目重排序): 将所有已处理项目选出的顶级候选项(每个项目最多 k*i 个)汇集起来,再次使用交叉编码器进行全局重排序。此步骤旨在优先选择全局信息量最大、最连贯的答案,并生成最终的 Top-k 结果列表以供下游的问答任务使用。
这一精细的流程确保了在保留广泛覆盖范围的同时,能够有效提升最终检索结果的精度。
4. 数据集与评估 (Dataset and Evaluation)
本节将详细介绍用于评估 FinGEAR 性能的数据集来源、处理方法以及评估框架和指标,为后续的实验结果提供依据。
4.1 数据集 (Datasets)
* 核心数据集: 我们使用专为金融问答设计的基准数据集 FinQA。该数据集包含 8,281 个源自 10-K 文件的问答对,分为训练集(6,251)、验证集(883)和测试集(1,147)。
* 语料库构建: 尽管 FinQA 提供了问答对,但它只包含预先提取的上下文段落。为了进行端到端的全文档检索评估,我们通过 SEC EDGAR 记录恢复了与 FinQA 实例对应的 720 份完整的 10-K 文件。这些文件涵盖了多个行业、公司和年份,具有高度多样性。所有文件均被转换为结构化的 Markdown 格式,以保留原始的 SEC 项目结构,从而确保 FinGEAR 在真实、未经筛选的文档上进行检索。
4.2 评估框架 (Evaluation Framework)
我们使用 RAGAS 框架来评估 FinGEAR 的检索性能,并报告以下四个核心指标:
* 精确率 (Precision): 检索到的段落中与查询相关的比例。
* 召回率 (Recall): 所有相关段落中被成功检索到的比例。
* F1 分数 (F1 Score): 精确率和召回率的调和平均值。这是我们主要的检索评估指标,因为它能最好地隔离检索质量,而不受下游生成性能的影响。
* 相关性 (Relevancy): 基于 LLM 评估的语义对齐分数,衡量检索到的段落是否支持查询的意图。
所有检索指标都在 Top-5、Top-10 和 Top-15 的检索深度下进行评估。此外,我们还报告最终答案准确率 (final answer accuracy),以衡量系统对下游问答任务的实际效用。
5. 实验与结果 (Experiments and Results)
本节将展示 FinGEAR 与多个基线模型的性能对比、下游问答任务的评估、消融研究以及对不同检索深度的分析,旨在全面验证 FinGEAR 框架的有效性。
5.1 实验设置 (Experimental Setup)
* 基线模型: 我们将 FinGEAR 与五个基线模型进行比较:General RAG、Self-RAG、LightRAG、GraphRAG 和 RAPTOR。
* Reader 模型: 所有实验均使用固定的 GPT-4o-mini 作为 reader,以确保对比的公平性,将重点放在检索性能上。
* 模型与索引设置: 稀疏匹配使用 BM25;密集嵌入模型为 BAAI/bge-base-en-v1.5;重排序器为 BAAI/bge-reranker-large。UMAP+GMM 参数和分块大小(约 2000 词元)均经过优化。
* 检索设置: 检索性能在 k = 5, 10, 15 三个深度下报告。
* 消融研究设置: 我们通过禁用摘要树、问题树和 FLAM 等单个组件来评估其贡献。此外,我们还评估了 FLAM 内部不同的权重策略(如相对频率、指数缩放、Softmax)的影响。
5.2 结果分析 (Results)
本小节将从多个维度呈现和分析实验结果。
5.2.1 与基线模型的检索性能对比
表 1 对比了 FinGEAR 与五个基线模型在不同检索深度下的性能。
表 1: 与基线模型的检索性能对比 最佳分数以粗体显示,次佳分数以下划线显示。
模型 精确率 (k=5/10/15) 召回率 (k=5/10/15) F1 分数 (k=5/10/15) 相关性 (k=5/10/15)
General RAG 0.37 / 0.37 / 0.30 0.24 / 0.26 / 0.28 0.29 / 0.30 / 0.29 0.40 / 0.43 / 0.47
Self-RAG 0.74 / 0.60 / 0.55 0.27 / 0.28 / 0.31 0.39 / 0.38 / 0.40 0.30 / 0.31 / 0.33
LightRAG 0.88 / 0.85 / 0.85 0.39 / 0.42 / 0.47 0.54 / 0.56 / 0.60 0.38 / 0.37 / 0.39
GraphRAG 0.88 / 0.89 / 0.87 0.56 / 0.55 / 0.55 0.67 / 0.66 / 0.66 0.17 / 0.16 / 0.17
RAPTOR 0.69 / 0.65 / 0.62 0.11 / 0.14 / 0.22 0.19 / 0.23 / 0.32 0.38 / 0.41 / 0.45
FinGEAR 0.79 / 0.76 / 0.72 0.61 / 0.62 / 0.65 0.69 / 0.68 / 0.68 0.50 / 0.64 / 0.62
从表中可以看出,FinGEAR 在召回率、F1 分数和相关性方面均在所有深度上取得了领先地位。虽然 LightRAG 和 GraphRAG 在精确率上表现突出,但 LightRAG 较低的召回率和 F1 分数表明其候选集范围较窄。GraphRAG 的 F1 值虽然具有竞争力,但其相关性得分在所有模型中最低,这严重影响了其下游任务的准确性。FinGEAR 则在各项指标间取得了最佳平衡。
5.2.2 下游问答任务评估:答案准确率
为了评估检索质量对下游任务的实际效用,我们测量了最终的答案准确率。
表 2: 各模型在不同检索深度下的最终答案准确率
系统 k=5 k=10 k=15
General RAG 29.8% 30.3% 30.5%
Self-RAG 28.7% 29.8% 27.4%
LightRAG 35.7% 58.8% 36.5%
GraphRAG 28.4% 29.1% 29.4%
RAPTOR 34.0% 20.9% 37.3%
FinGEAR (Ours) 49.1% 49.7% 50.0%
结果显示,FinGEAR 在 k=5 和 k=15 时的准确率最高,并且整体表现稳定且呈上升趋势。这与其他基线模型(如 LightRAG 和 RAPTOR)在不同深度下表现不稳定的情况形成了鲜明对比,证明了 FinGEAR 能够为下游任务提供持续高质量的上下文。
5.2.3 检索深度分析
FinGEAR 在不同的检索深度下表现出卓越的稳定性。随着 k 值的增加,其召回率稳步提升,而精确率和 F1 值始终保持在高位,相关性也同样稳定。这表明 FinGEAR 能够有效地扩大检索范围,而不会牺牲语义准确性或上下文匹配度。相比之下,基线模型(如 LightRAG)则显示出更明显的权衡取舍,难以在深度和精度之间取得平衡。
5.2.4 消融研究
为了验证 FinGEAR 各核心组件的贡献,我们进行了一系列消融研究。
表 3: FinGEAR 单组件消融研究
消融设置 精确率 (k=5/10/15) 召回率 (k=5/10/15) F1 分数 (k=5/10/15) 相关性 (k=5/10/15)
Full FinGEAR 0.79 / 0.76 / 0.72 0.61 / 0.62 / 0.65 0.69 / 0.68 / 0.68 0.50 / 0.64 / 0.62
No Summary Tree 0.41 / 0.61 / 0.58 0.33 / 0.36 / 0.40 0.37 / 0.46 / 0.47 0.29 / 0.57 / 0.63
No Question Tree 0.43 / 0.62 / 0.57 0.35 / 0.37 / 0.40 0.39 / 0.47 / 0.47 0.29 / 0.56 / 0.63
No FLAM Module 0.42 / 0.61 / 0.58 0.34 / 0.35 / 0.42 0.38 / 0.44 / 0.49 0.29 / 0.58 / 0.63
No Reranker 0.51 / 0.44 / 0.36 0.37 / 0.30 / 0.31 0.43 / 0.36 / 0.34 0.45 / 0.55 / 0.58
如表 3 所示,移除任何一个核心组件(摘要树、问题树、FLAM 或重排序器)都会导致性能显著下降,这证明了 FinGEAR 的卓越性能源于各组件之间的协同作用,而非任何单一模块的孤立贡献。
我们还比较了 FLAM 模块中三种不同的词典权重策略。
表 4: FLAM 词典权重策略消融研究
权重策略 精确率 (k=5/10/15) 召回率 (k=5/10/15) F1 分数 (k=5/10/15) 相关性 (k=5/10/15)
Relative Frequency 0.79 / 0.76 / 0.72 0.61 / 0.62 / 0.65 0.69 / 0.68 / 0.68 0.50 / 0.64 / 0.62
Logarithmic Weighting 0.70 / 0.66 / 0.63 0.47 / 0.45 / 0.45 0.56 / 0.53 / 0.52 0.50 / 0.60 / 0.60
Softmax Weighting 0.70 / 0.68 / 0.66 0.47 / 0.44 / 0.44 0.56 / 0.53 / 0.53 0.48 / 0.59 / 0.63
实验证明,相对频率 (Relative Frequency) 是其中最稳健和有效的策略。此外,多组件消融研究(见附录 I)表明,同时移除两个模块会导致性能的复合型下降,进一步强化了 FinGEAR 设计的协同性。对不同问题类型(数值型 vs. 类别型、简单 vs. 复杂)的分析(见附录 J)也表明,该框架的性能提升是普适性的,不局限于某一特定问题类型。
6. 结论 (结论)
我们提出了 FinGEAR,一个专为 10-K 文件设计的“检索优先”框架。它集成了用于项目级映射的金融词典(FLAM)和用于项目内索引的双树结构。通过在与 FinQA 查询对齐的完整 10-K 文件上进行评估,FinGEAR 在所有检索深度上均表现出比扁平化、图和先前树形 RAG 基线更优的检索质量,并带来了更高的下游问答准确率。消融研究表明,其每个模块对于整体性能都是不可或缺的。该设计的模块化特性——FLAM 用于全局导航,双树用于局部索引——使其具备了通过增强领域词典来适应其他半结构化文档的潜力,为未来的研究和应用提供了坚实的基础。
7. 局限性 (Limitations)
本节将坦诚地讨论 FinGEAR 框架的潜在局限性,以提供一个平衡的视角。
* 领域特异性 (Domain specificity): FinGEAR 主要在美国标准的 10-K 报告上进行开发和评估,这些报告具有标准化的监管结构。其对于非结构化金融文档(如财报电话会议)或其他司法管辖区报告的普适性有待检验。
* 词典依赖性 (Lexicon dependence): 该系统依赖于稳定的金融术语。新兴的金融词汇或特定行业的术语可能会削弱关键词映射和聚类的质量,从而影响检索性能。
* 解析敏感性 (Parsing sensitivity): FinGEAR 的性能假设文档解析准确且结构一致。严重的格式不一致或错误(如 OCR 错误)可能会影响树的构建质量和检索效果。
* 有限的推理能力 (Limited reasoning): FinGEAR 专注于语义检索,不执行显式的金融计算或推理(如比率计算、时间序列预测)。
* 评估覆盖范围 (Evaluation coverage): 评估仅在 FinQA 数据集上进行,该数据集对每个查询只标注一个相关的黄金标准段落,这可能低估了系统的检索性能。需要更广泛的评估来全面了解其效用。
* 来源偏见 (Source bias): FinGEAR 继承了源金融文件和词典中固有的偏见。如果公司在披露中省略、淡化或以特定方式陈述信息,检索到的内容将反映这些报告偏见。
尽管存在这些局限性,FinGEAR 仍为金融分析中的结构感知检索提供了一个模块化、可解释的基础。未来的工作应探索其向更多样化语料库的泛化能力,并增强其对解析噪声的鲁棒性。
--------------------------------------------------------------------------------
[^1]: 注意:源论文在其摘要(56.7%, 12.5%, 217.6%)和引言(138%, 28%, 263%)中呈现了不同的性能数据。本文档根据指令,采用了引言中的数据,这些数据代表了观察到的最大增益。
参考文献 (References)
本文内容完全基于以下研究论文:
* Li, Y., Wang, M., de Carvalho, M., Sabanis, S., & Ma, T. (2024). FinGEAR: Financial Mapping-Guided Enhanced Answer Retrieval. arXiv preprint arXiv:2509.12042v1.
附录 (Appendix)
本附录旨在提供更多关于 FinGEAR 实现和配置的补充细节。
A. 实施细节与基线配置 (Implementation Details and Baseline Configurations)
所有基线模型均基于公开可用的实现。例如,LightRAG 在其“mix”模式下运行,GraphRAG 使用官方的社区遍历设置。为确保公平对比,所有系统(包括 FinGEAR 和基线)均使用相同的 reader 模型 (gpt-4o-mini) 和相同的原始 10-K 文件语料库。
B. 嵌入微调 (Embedding Fine-Tuning)
FinGEAR 使用了在 FinRAD 和 FinQA 两个数据集上微调的句子嵌入模型。微调旨在优化嵌入与金融词典的对齐以及在层级树中的语义聚类和导航能力。如下表所示,微调显著提升了模型在特定任务上的性能。
表 5: 嵌入模型在微调前后的性能对比
数据集 指标 基线模型 微调后
FinRAD Pearson Cosine 0.1082 0.4063
Spearman Cosine 0.0904 0.3655
FinQA NDCG@10 (Cosine) 0.0282 0.2902
C. 术语与符号表 (Glossary of Terms and Notation)
下表解释了 FinGEAR 框架中的关键术语和符号。
表 6: FinGEAR 关键术语与符号表
术语 / 符号 定义
UMAP 一种降维技术,用于聚类前处理,保留局部邻域结构以构建树。
GMM 高斯混合模型,用于对 UMAP 嵌入进行软聚类,形成树的内部节点。
FLAM 金融词典感知映射。在语料库层面聚类金融术语,并计算项目权重以指导全局预算分配。
摘要树 (Summary Tree) 项目内部的内容层级。内部节点是聚类块的摘要;叶节点是原始文本块。
问题树 (Question Tree) 拓扑结构与摘要树相同;节点存储 LLM 生成的子问题,嵌入在与用户查询相同的空间中。
k 每个查询的总检索预算(即 Top-k 评估中的 k)。
k* 经过 FLAM 加权后分配给每个项目的预算;所有项目的 k* 之和等于 k。
混合评分 (Hybrid scoring) 项目内节点评分机制,结合了基于摘要的 BM25(稀疏)和基于嵌入的余弦相似度(密集)。
重排序 (阶段 1) 跨树重排序,使用交叉编码器联合评分来自摘要树和问题树的候选项。
重排序 (阶段 2) 跨项目重排序,对所有项目的顶级候选项进行池化和排序,以优先选择全局信息量最大的答案。


