LLM即先知:利用Prophet Arena理解预测智能

LLM即先知:利用Prophet Arena理解预测智能

摘要

预测不仅是一项基本的智力活动,也对金融、经济等社会系统具有重要意义。随着在互联网规模数据上训练的大型语言模型(LLM)的飞速发展,利用LLM来预测真实世界未来事件的前景日益显现,我们称之为“LLM即先知”(LLM-as-a-Prophet)的新兴范式。本文旨在系统性地研究LLM的预测智能。为此,我们构建了Prophet Arena——一个通用的评估基准,它通过持续收集实时预测任务并将其分解为不同的流水线阶段,来支持我们进行受控的大规模实验。我们的综合评估揭示,许多LLM已经展现出令人印象深刻的预测能力,这体现在其较小的校准误差和一致的预测置信度上。然而,我们也发现了在通过“LLM即先知”范式实现卓越预测智能道路上的一些关键瓶颈,例如LLM不准确的事件回忆、对数据源的误解,以及在事件临近结束时信息整合速度慢于市场等问题。

1. 引言

预测是一项塑造了人类进步的基本智力活动,从最早的科学探索到现代经济学与金融学,其重要性贯穿始终。在机器学习领域,预测同样是一个核心主题。然而,开放域预测——在不依赖特定领域调整或专门数据集的情况下,对广泛主题做出准确预测——这一挑战在很大程度上仍未被充分探索。实现这种可靠的预见能力将代表人工智能在能力上的质的飞跃。

从本质上讲,预测是连接现有知识以预见未来结果的过程。大型语言模型(LLM)似乎是扮演这一角色的天然候选者。通过在海量人类知识语料库上进行看似狭隘的“下一个词预测”训练,LLM涌现出了远超其训练目标的能力。这激发了一个假设:预测下一个词的能力或许也能催生预测下一个事件的能力。如果这一假设得到证实,LLM将不仅是人类知识的存储库,更是实现可靠预见的工具,从而引出了“LLM即先知”的核心问题:人工智能系统能否通过整合现实世界信息来可靠地预测未来?

本文旨在系统性地审视构建通用目的、开放域预测系统的前景与挑战。一方面,鉴于人工智能的飞速发展,预测是其自然的下一站,因为它依赖于信息检索、复杂推理和数据分析等当前模型刚开始展现的综合高级能力。另一方面,当前的LLM在可靠预见所必需的关键能力上仍存在不足,例如在面对嘈杂或不完整证据时,其不确定性估计的校准和推理的鲁棒性都有待提高。

为此,我们引入了Prophet Arena——一个用于在受控且可扩展的环境中,评估LLM在真实世界实时预测任务中表现的通用框架。随着许多既有基准测试趋于饱和且日益受到训练数据污染的影响,开放域预测提供了一个前瞻性且无污染的评估环境,其结果可被客观衡量,因而成为评估高级模型智能的严谨试验场。我们的目标不仅是评估当前LLM的性能,更是以预测为视角,深入研究智能的核心组成部分,包括推理、校准和证据整合。通过这种方式,我们旨在识别哪些能力正在涌现,哪些仍然受限,并探索如何通过预测评估来指导更可靠预测智能的发展。接下来的章节将详细介绍Prophet Arena的设计理念与框架。

2. Prophet Arena:一个用于评估预测智能的实时基准

本章将详细介绍Prophet Arena这一评估框架的设计理念、核心组件和工作流程,为后续的性能分析提供坚实的方法论基础。该框架通过模块化的设计,支持对LLM预测能力进行受控且全面的研究。

2.1 关键定义与符号

为了清晰地阐述,我们借鉴了预测市场的术语来定义以下核心概念:

* 事件 (Event): 对未来真实世界发生的总体性问题,它为后续一个或多个可交易的市场设定了背景、范围和结果判定标准。
* 示例: “谁将赢得2025-26赛季NBA总冠军?”
* 市场 (Market): 事件下一个具体的、可交易的、最终结果为“是”(True)或“否”(False)的二元命题。
* 示例: “波士顿凯尔特人队将赢得2025年NBA总冠军。”
* 事件结果 (Event Resolution): 指一个事件下的所有市场的结果都被最终确定的时刻。
* 合约 (Contract): 代表市场结果的二元随机变量。一个“是”合约,如果市场结果为“是”,则支付1,否则支付0。“否”合约则相反。

2.2 Prophet Arena完整流程

Prophet Arena作为一个实时的、持续更新的流水线,其工作流程如图1所示,主要包括三个阶段:

图1:Prophet Arena流水线概览。事件结果在提取时是未知的。LLM的预测在预定的预测时间点生成,评估则在事件结束后进行,将模型预测与已实现的真实结果进行比较。

1. 事件与市场提取 (Event and Market Extraction): 我们从活跃的预测市场中持续收集涵盖政治、经济、体育、娱乐和科学等多个领域的预测事件。每天系统会新增20个事件。在本文的评估中,我们使用了在2025年10月11日之前结束的1,367个事件,共包含72,136个市场。利用真实市场确保了所有问题都与真实的未来结果相关,从而杜绝了训练数据污染的可能性。
2. 预测上下文构建 (Prediction Context Construction): 对于每个事件,系统会在其结束前的多个时间点进行预测。在每个预测点,Prophet Arena都会构建一个统一的预测上下文,并将其提供给所有模型。该上下文包含:
* 由一个基于LLM的搜索代理检索到的相关信息源(如新闻、报告的标题、摘要和URL)。
* 包含最新合约价格和交易量的市场快照。 提供完全相同的上下文是为了隔离并专注于评估模型的推理和校准能力,而非其信息检索能力。
3. 概率预测与评估 (Probabilistic Forecasting and Evaluation): 接收到上下文后,每个模型需要为事件中的每个市场生成一个概率预测(pij ∈ [0, 1]),并附上一段自然语言解释。预测的概率值用于量化评估,而解释则用于后续的定性分析。待事件结束后,Prophet Arena会根据真实结果,从多个维度对模型的预测进行评估。

市场基准 (Market Baseline)

为了建立一个公平且可解释的参照标准,我们构建了一个合成预测器——“市场基准”。该基准的预测值直接采用市场的共识概率,该概率通常由合约的标准化价格推断得出。例如,如果一个市场的“是”合约价格为0.8,“否”为0.2,则市场基准的预测概率为80%。这个基准对于评估预测任务的难度和理解模型相对于人类群体共识的表现至关重要。

2.3 Prophet Arena的设计选择及与其他基准的差异

与近期其他主要关注模型排名的预测基准不同,Prophet Arena的设计旨在深入理解影响LLM预测智能的各项能力。为此,我们做出了以下四个关键设计选择:

1. 概率性预测 (Probabilistic forecasts): 未来事件本质上是随机的,因此我们要求模型输出概率,而非单一的确定性结果,这与真实世界预测平台的标准实践一致。
2. 多时间跨度协议 (Multi-horizon protocol): 通过在事件结束前的多个时间点进行预测,我们可以分析模型如何随时间推移吸收新信息,并调整其预测。
3. 模块化预测流程 (Modularized forecasting pipeline): 我们将预测过程分解为信息收集、概率生成等独立模块,这使得对LLM的不同能力(如推理、校准)进行受控研究成为可能。
4. 市场回报率指标 (Market return metrics): 该指标通过模拟交易来评估模型预测相对于市场共识的经济价值,衡量其是否能带来超越市场的优势。

为直观对比Prophet Arena与其他近期预测基准在几个关键维度上的差异,我们总结如表1。

基准测试 实时事件 概率性 多时间跨度 模块化 回报率指标
MIRAI – – ✓ – –
FORECASTBENCH ✓ ✓ ✓ – –
FUTUREBENCH ✓ – – – –
FUTUREX ✓ – – – –
Prophet Arena ✓ ✓ ✓ ✓ ✓
表1:Prophet Arena与其他相关预测基准的比较。

这些设计共同构成了一个强大的框架,为下一章节深入探讨预测评估的具体指标奠定了基础。

3. 预测评估:注意事项、指标与结果

评估概率性预测比评估确定性分类任务要复杂得多。传统的准确率(accuracy)指标在衡量概率预测质量时存在明显局限。

注意事项1:准确率无法全面衡量概率性预测的质量。 考虑一个真实发生概率为60%的二元随机事件。预测者爱丽丝给出了完美的概率预测0.6,而鲍勃则给出了极端的预测1.0。若要求他们做出确定性预测,两者都会选择“发生”,因此他们的准确率期望值都是60%。然而,准确率指标完全忽略了预测的置信度,无法区分爱丽丝精确的预测和鲍勃过于自信的预测。正确衡量预测置信度对于风险控制等下游决策至关重要。

3.1 三个维度的预测评估

为了全面理解LLM的预测能力,我们从以下三个互补的维度进行评估,并为每个维度选择了最标准的衡量指标。

3.1.1 使用评分规则衡量预测损失 (Scoring Rules to Measure Forecasting Loss)

评估概率性预测的标准方法是使用严格的评分规则,它量化了预测概率与真实结果之间的差异。我们采用最流行的布里尔分数 (Brier score),其定义为预测概率与结果(0或1)之间差值的平方。对于一个包含mi个市场的事件Ei,其布里尔分数为: BSi := 1/mi * Σ(pij − oij)² 分数越低,表示预测越好。一个纯粹的随机猜测,其期望布里尔分数为0.25。

3.1.2 使用校准误差衡量可信度 (Calibration Errors to Measure Trustworthiness)

一个好的预测不仅要准确,还应该值得信赖。这意味着,当模型预测某事件有p的概率发生时,这类事件在现实中也应该以接近p的频率发生。我们使用期望校准误差 (Expected Calibration Error, ECE) 来衡量这种一致性。ECE越低,意味着模型的预测概率越可信。

3.1.3 使用市场回报率衡量经济价值 (Market Return to Measure Economic Values)

由于Prophet Arena的事件来源于真实世界的预测市场,我们可以评估预测的经济价值。我们定义了平均回报率 (Average Return) 指标,它通过一个自然的、风险中性的投注策略来衡量利用LLM预测进行交易的盈利能力。该策略是:如果模型的预测概率高于市场价格,则买入“是”合约;反之,则买入“否”合约。平均回报率是一个相对指标,它衡量的是模型的预测相对于市场共识(即市场价格)的优势。

3.2 评估结果与跨维度分析

3.2.1 预测结果的时间序列分析注意事项

为分析预测准确性随时间的变化,我们首先考察了布里尔分数与事件结束时间的函数关系。如图2所示,随着事件结束时间的临近,所有模型和市场基准的布里尔分数都在降低(即准确性提高),因为更多信息变得可用。有趣的是,在长周期预测中(例如,提前4天以上),一些顶尖LLM的表现优于市场基准。然而,在临近结束时(例如,3小时内),市场能够更快地整合突发信息,从而超越LLM。

图2:布里尔分数随距离事件结束时间的变化。

这一观察引出了两个重要的评估方法论要点:

注意事项2:原始布里尔分数可能具有误导性,市场基准是理解预测智能的关键。 原始布里尔分数不足以全面评估模型,因为它将模型的预测技能与事件在特定时间点的内在难度混为一谈。市场基准作为一个动态的难度参考,使我们能够评估模型相对于人类聚合共识的表现,从而分离出其独特的预测智能。

注意事项3:应排除过于临近结束时间的预测。 临近结束时的预测更多地反映了模型获取实时信息的能力,而非其核心的推理能力。因此,在后续评估中,我们排除了所有在事件结束前三小时内做出的预测。

3.2.2 评估结果与讨论

为了量化模型在不同维度上的性能,我们对五个代表性LLM和市场基准进行了比较分析(表2)。

LLM ↓ 预测损失 - Brier (95% CI) 排名 校准误差 - ECE 排名 市场回报率 - Average (95% CI) 排名
GPT-5R △ 0.184 (± 0.006) ① 0.042 ② 0.943 (± 0.042) ①
Grok-4R △ 0.189 (± 0.005) ② 0.043 ③ 0.864 (± 0.052) ④
Claude Sonnet 4R △ 0.194 (± 0.006) ③ 0.041 ① 0.909 (± 0.101) ②
Gemini 2.5 FlashR △ 0.197 (± 0.007) ④ 0.067 ⑤ 0.883 (± 0.053) ③
Llama-4-Scout△ 0.219 (± 0.008) ⑤ 0.060 ④ 0.805 (± 0.040) ⑤
Market Baseline 0.187 (± 0.006) N/A 0.069 N/A 0.899 (± 0.043) N/A

表2:五个代表性LLM的评估结果。上标R用于表示推理模型。△表示在正文中重点展示的模型。

数据显示,模型的相对排名因评估指标而异,这凸显了多维度评估的必要性。总体而言,前沿模型在布里尔分数上与市场基准相当,但在校准误差上表现更优。在市场回报率方面,虽然部分模型相对高于市场基准,但值得注意的是,即便是排名第一的GPT-5R,其平均回报率也未能达到1.0的盈亏平衡点,这表明在所采用的投注策略下,所有模型均表现为净亏损。

为了深入探究模型间的差异,我们分析了其可靠性图(图3)。图中展示了表现最好和最差模型在校准误差上的具体情况。我们可以看到,表现更强的模型(左图)在极端概率区间(如0-0.1和0.9-1.0)的校准表现远优于表现较差的模型(右图),其预测概率与实际发生频率几乎完美贴合。这种在高置信度预测(p > 0.9 或 p < 0.1)下的卓越校准能力,是其能够获得更高相对市场回报率的主要驱动力,因为它允许模型在识别出与市场共识的显著差异时采取更具盈利潜力的投注策略。

图3:表现最好(左)与最差(右)模型按校准误差排名的可靠性图。

接下来,我们将利用Prophet Arena框架,对LLM的预测机制进行更深层次的剖析。

4. “LLM即先知”范式深度剖析

本章节利用Prophet Arena框架,基于一个包含100个事件的子集,对“LLM即先知”范式进行系统性的机制分析和细粒度评估,旨在揭示影响模型预测性能的关键因素。

4.1 鲁棒性与一致性检验

我们首先进行了一系列基础能力检验,包括模型在不同提示词下的概率提取鲁棒性,以及处理互斥市场等情况下的逻辑一致性。结果显示,大多数前沿模型在这些基础能力上已表现得相当可靠和成熟。

4.2 “LLM即先知”的机制分析

本节通过一系列受控实验,从模型的内部知识、外部信息源的质量与可及性,到其整合信息的能力,逐一剖析影响预测性能的关键因素。

4.2.1 内部知识能否转化为预见能力?

预测始于模型已有的内部知识。我们评估了模型回忆和解读历史事件的能力。如图4所示,模型在不同事件类别上的回忆率存在显著差异。

图4:按事件类别和模型的事件回忆率,使用知识内化回忆提示(§E.3.1)。阴影部分代表LLM声称认识但回忆错误的事件百分比。

* 事件回忆因主题和模型而异: 模型在“娱乐”类别上的回忆最为可靠,而在“气候与天气”和“政治”类别上,不仅回忆率低,错误率也很高。这可能是因为天气类事件需要精确到日期的细节,而政治类事件则可能因数据稀疏而难以被模型有效记忆。
* 事件回忆的近似性: 以“2023年7月13日公告牌百强单曲榜冠军”事件为例,一个模型正确回忆了歌曲的更替,但将日期记错为7月15日。这表明LLM的事件回忆表现出高层次的联想准确性,但在精确的时间细节上缺乏保真度。

4.2.2 上下文如何塑造预测?

我们分析了不同信息源对模型预测性能的影响。如图5左侧面板所示,同时提供市场数据和新闻源时,模型的性能最佳(布里尔分数最低),且多源信息能显著降低预测质量的方差,使预测更加稳定。

图5:不同上下文和事件类别下的预测质量。左图显示了在不同信息可用性下的平均布里尔分数。右图显示了不同事件类别下添加信息源带来的平均影响。

然而,信息并非越多越好。如图5右侧面板所示,添加信息源对不同事件类别的影响是异质性的。在政治等需要多角度解读的领域,多样化的信息源能提供有价值的背景。但在体育等领域,额外信息的边际价值似乎较小。这说明信息的有效性取决于其与预测任务的相关性。

4.2.3 模型如何与信息源互动?

我们研究了模型在接收到外部信息后如何调整其预测。为探究此问题,我们将LLM的预测概率与市场基准的概率进行了对比(图6)。

图6:LLM预测概率与市场基准概率的对比(针对最终结果为“是”的市场)。对角线表示两者预测完全一致。

核心发现是,LLM在接收到外部信息源后,其预测普遍比市场更为保守。即使市场给出了接近确定性(接近0或1)的概率,LLM也倾向于输出更温和、不那么极端的预测。例如,Llama 4 Scout(右下图)在市场概率接近1时,其预测值仍然犹豫不前。虽然保守是普遍特征,但其程度因模型而异,顶尖模型(如GPT-5R)能更紧密地跟随市场趋势。这种系统性的保守主义可能是顶尖模型获得强校准分数的一个促进因素;通过避免极端的、过于自信的预测,模型降低了遭受巨大布里尔分数惩罚和显著校准错误的风险。

4.3 “LLM即先知”的细粒度分析

为了超越概率数字,我们评估了其背后的推理过程。我们采用“LLM即评委”(LLM-as-a-judge)框架,从五个维度评估了模型推理的健全性。

LLM 来源选择 证据提取 推理综合 推理与预测对齐 不确定性认知 平均分
GPT-5R 3.69 3.66 4.14 3.97 3.94 3.88
Gemini 2.5 FlashR 3.57 3.66 3.19 3.67 3.74 3.57
Grok 4 3.40 3.51 3.33 3.48 3.66 3.48
Claude Sonnet 4R 3.53 3.47 2.93 3.39 3.75 3.41
Llama 4 Scout 2.97 2.88 2.29 2.37 2.87 2.68

表3:LLM在五个推理维度上的表现评估(5分制)。

如表3所示,模型在来源使用和证据提取等维度上表现相当,但在**“推理综合”(如何将不同证据整合成连贯的论证)和“推理与预测对齐”**(如何将推理过程转化为最终的概率)这两个维度上差异悬殊。这表明,一旦模型具备了基础的信息处理能力,决定其最终预测表现的关键差异点就在于这些高阶推理能力。

5. 结论

本文系统性地评估了利用大型语言模型预测未来事件的“LLM即先知”范式的前景与挑战。通过构建Prophet Arena这一模块化、可扩展的基准测试框架,我们从预测损失、校准误差和经济价值等多个维度,对前沿LLM在真实世界预测任务中的表现进行了深入剖析。

我们的研究揭示了“LLM即先知”范式的潜力,前沿模型已展现出较小的预测损失和良好的校准误差。然而,我们也识别出当前存在的关键瓶颈,包括上下文来源的有效筛选、知识的精确内化,以及在事件临近结束时信息整合速度慢于市场的问题。这些发现为未来的研究指明了清晰的方向。例如,我们在推理分析中发现“推理综合”是当前模型的一个核心弱点。这表明,未来的进步不仅取决于信息检索能力的增量提升,更依赖于能够将矛盾证据综合成连贯概率预测的高阶推理能力的根本性突破。推动LLM从知识的存储库向可靠的预见工具迈进,需要学术界和工业界在这些核心能力上持续投入研究。