使用混合专家模型学习基于推文的可解释性股票预测
摘要
当前,股票价格预测领域面临着核心挑战。传统模型难以捕捉复杂的市场动态,而现有的大型语言模型(LLM)在处理金融时序数据时,则受限于输入长度和高昂的计算成本。为应对这些挑战,本文提出了一种名为 FTS-Text-MoE 的新模型。该模型的核心思想是通过点嵌入(point embeddings)技术,将历史价格等数值数据与从新闻和社交媒体(如X,前身为Twitter)推文中提取的关键摘要进行有效结合,从而提升预测的准确性。
FTS-Text-MoE 模型的架构具有两大关键特性:首先,它采用混合专家(Mixture of Experts, MoE)Transformer解码器,通过仅激活部分模型参数来显著降低计算成本;其次,模型配备了多分辨率预测头,能够灵活地对不同时间尺度的金融时间序列进行预测。
实验结果表明,与现有的基线方法相比,FTS-Text-MoE 模型在投资回报率和夏普比率(Sharpe Ratio)方面均表现出显著优势。这充分证明了该模型在整合多源信息以预测未来市场趋势方面的卓越能力和实用价值。
--------------------------------------------------------------------------------
1. 引言
股票价格预测本质上是金融领域一个核心的时间序列问题。长期以来,金融估值一直依赖于诸如线性回归、ARIMA 和 GARCH 等传统计量经济学模型。然而,这些方法通常建立在市场长期稳定的假设之上,难以捕捉复杂的市场依赖关系,也无法有效应对突发的市场事件(Malkiel, 1999)。近年来,机器学习技术,特别是深度学习模型,因其在建模长期依赖性和检测市场波动方面的出色能力而备受关注,成功克服了传统方法对先验假设的依赖。
与仅依赖数值数据的传统模型不同,深度学习模型能够整合多维度的异构信息以提高预测精度。现代投资组合理论强调了市场相关性的重要性(Konstantinov et al., 2020),而相关研究也证实,新闻、博客和社交媒体中的情绪与股市趋势存在正相关性(Hsu et al., 2021)。然而,仅仅依赖情感分数会忽略文本内容中的关键细节,无法充分挖掘其潜力。因此,将更丰富、更全面的文本数据融入股票预测模型已成为一个日益重要的研究方向。
近期,基于大型语言模型(LLM)的跨模态时序预测方法(如SocioDojo, SEP)展现了优越的性能,它们利用与知识对齐的文本提示来辅助LLM做出更准确的决策。但这些方法也存在局限性:它们受限于输入上下文的长度,只能处理有限的文本量,且预测范围较短。此外,它们通常执行二元分类任务(预测股价涨跌趋势),而不是精确预测时间序列的下一个数值。更重要的是,调用LLM的计算成本非常高昂。与这些基于提示的方法不同,我们提出的 FTS-Text-MoE 模型 将新闻和推文数据按时间排序,在每个时间点提取关键摘要,并通过点嵌入与数值时间序列对齐,从而预测实际的股价数值。
大多数时序预测模型依赖于密集的计算层,即每个输入令牌都需要计算所有模型参数,这消耗了大量计算资源。为了解决这一问题,混合专家(Mixture of Experts, MoE)等稀疏技术应运而生,它在固定的推理成本下,能够有效提升计算效率和模型性能。FTS-Text-MoE 正是基于此思想,采用了一种专为股价预测设计的仅解码器(decoder-only)Transformer架构。通过在运行时仅激活1.13亿总参数中的5000万,该模型能够在不相应增加推理成本的情况下扩展其知识容量,这对于实时或高频金融分析至关重要。该模型通过稀疏激活的Transformer解码器,显著降低了计算开销,并设计了多分辨率预测头,以实现对不同长度时间序列的灵活预测。
本文的主要贡献可总结如下:
* 我们解决了公开新闻数据爬取中的技术难题,并更新扩展了 FNSPID 项目中的纳斯达克新闻数据集,将其数据覆盖范围延伸至2025年1月19日。
* 我们提出了专为股价预测设计的 FTS-Text-MoE 模型,该模型能有效对齐时序数据与文本数据,从而提升预测的准确性。
* 我们通过一系列实验证明,FTS-Text-MoE 在预测金融时序趋势方面优于传统基准方法,并在投资回报率和夏普比率上取得了显著的改进。
接下来,我们将回顾相关领域的研究工作,为我们提出的模型提供理论和技术背景。
2. 相关工作
本节旨在回顾文本分析在股票预测中的应用演变,以及稀疏深度学习在时间序列任务中的发展,从而为 FTS-Text-MoE 模型的创新性提供背景支撑。
基于文本分析的股票预测
早期利用文本分析进行股票预测的研究主要采用支持向量机(SVM)等浅层学习方法,从文本中提取词袋、名词短语和命名实体等基础特征(Schumaker and Chen, 2009)。随后,随着深度神经网络的发展,研究者开始提取更为复杂的结构化元组(如主语-动作-宾语)和隐式文本向量(Ding et al., 2015; Xu and Cohen, 2018)。例如,有研究将股价预测建模为一个二元分类问题,并利用变分自编码器(VAE)从预训练的文本嵌入中提取更丰富的隐含信息。近年来,最新的研究(如 Wang et al., 2025; Liu et al., 2025)开始将文本作为提示(prompts)来增强大型语言模型在时序预测任务中的准确性。与这些方法不同,本文的研究在每个时间点将文本语句与相应的时间序列数据耦合,以预测下一个时间序列值,从而为分析文本对股价波动的具体影响提供了更清晰的路径。
用于时间序列的稀疏深度学习
深度学习模型通常规模庞大且参数密集,需要大量的内存和计算资源(Hoefler et al., 2021)。为了解决这一问题,混合专家(MoE)等稀疏网络应运而生。MoE 通过动态路由机制将输入分配给专门的“专家”网络,从而在保持甚至超越模型泛化性能的同时,显著提升了计算效率(Fedus et al., 2022)。传统的时序模型,如 DLinear 和 SparseTSF,通常规模较小,较少关注稀疏方法。近期,一些研究(如 MoLE, IME)开始探索稀疏性,但它们并非完全稀疏,因为输入在聚合前仍需路由到所有注意力头。Time-MoE 模型(Shi et al., 2024)虽然使用了稀疏基础模型进行通用时序预测,但并未考虑真实世界文本信息对数值特征的影响。本文在此基础上进一步探索,复杂的文本信息是否能够增强数值预测的可解释性和准确性。
在回顾了现有工作之后,下一节将详细阐述我们提出的 FTS-Text-MoE 模型的方法论。
3. 方法论
本节将详细阐述 FTS-Text-MoE 模型的架构和工作原理。该模型是一个基于混合专家(MoE)框架的仅解码器(decoder-only)Transformer 架构,由三个核心部分组成:输入令牌嵌入、MoE Transformer 模块和多分辨率预测。
3.1 问题定义
给定过去 M 天的历史数值观测值 X1:M = (x1, x2, ..., xM) ∈ R^M 以及相应的文本数据 T1:M = (t1, t2, ..., tM),其中每个 ti 是指第 i 天的文本文件(摘要)集合,我们的目标是预测未来 N 天的股价序列:X̂M+1:M+N = fθ(X1:M, T1:M) ∈ R^N,其中 fθ 代表我们提出的模型。与传统的固定预测范围模型不同,FTS-Text-MoE 在推理过程中支持灵活的上下文长度(M)和预测范围(N)。
3.2 模型整体架构
如图1所示,FTS-Text-MoE 模型首先将时间序列数值数据和文本数据分别进行令牌化和嵌入。这两种嵌入经过聚合后,被送入一个核心的 MoE Transformer 模块进行处理。最后,通过一个多分辨率预测头生成最终的预测结果,并通过贪心调度算法实现任意长度的输出。
图1: FTS-Text-MoE 架构图,展示了模型如何整合文本和时间序列数据以进行预测。
3.3 输入令牌嵌入
文本令牌嵌入 我们设计了一个高效的流程将原始文本(新闻和X评论)转换为高质量的嵌入。每日,模型会首先从新闻和X评论中筛选出 k 篇最相关的文章(top-k selection)。这些原始文本接着通过预训练的 DistilBART-12-6-cnn 模型生成摘要。然后,这些摘要利用 MiniLM L3 v2 分词器进行分词,并最终通过 SBertEncoder 转换为语义表示向量。
时间令牌嵌入 金融时间序列中的每个时间点数值通过 SwiGLU 激活函数嵌入到高维空间中,其计算方式如下:
h_t^0 = \text{SwiGLU}(x_t) = \text{Swish}(Wx_t) \otimes (Vx_t) \quad (1)
其中 W 和 V 是可学习的参数矩阵。文本和数值嵌入在进入 MoE Transformer 模块之前,会先经过平均池化进行聚合。
3.4 FTS-Text-MoE Transformer
模型采用了仅解码器 Transformer 架构,并借鉴了大型语言模型(LLM)的先进技术以提升性能。这些技术包括:使用 RMSNorm 增强训练稳定性;采用旋转位置嵌入 (Rotary Positional Embeddings) 提高序列处理的灵活性和外推能力;以及为改善外推性能而保留QKV层中的偏置项。模型层的计算流程定义如下:
\begin{aligned}
a_t^l &= \text{MA}(\text{RMSNorm}(x_t^{l-1})) + x_t^{l-1}, \\
\bar{a}_t^l &= \text{RMSNorm}(a_t^l), \\
x_t^l &= \text{Mixture}(\bar{a}_t^l) + a_t^l.
\end{aligned}
\quad (2)
为了引入稀疏性,我们将标准的 前馈网络(FFN)替换为 MoE 层。每个 MoE 层包含多个专家网络和一个所有输入共享的专家网络,后者用于捕捉通用知识。Mixture 函数定义如下:
\text{Mixture}(\bar{a}_t^l) = g_{N+1,t} \text{FFN}_{N+1}(\bar{a}_t^l) + \sum_{i=1}^{N} g_{i,t} \text{FFN}_i(\bar{a}_t^l) \quad (3)
g_{i,t} = \begin{cases} s_{i,t}, & \text{if } s_{i,t} \in \text{TopK}(\{s_{j,t} | 1 \leq j \leq N\}, K), \\ 0, & \text{otherwise.} \end{cases} \quad (4)
g_{N+1,t} = \text{Sigmoid}(W_{N+1}^l \bar{a}_t^l) \quad (5)
s_{i,t} = \text{Softmax}_i(W_i^l \bar{a}_t^l) \quad (6)
其中,N 是非共享专家的数量,K 是每个 MoE 层激活的非共享专家数量。得益于这种稀疏激活机制,FTS-Text-MoE 的总参数量为1.13亿,但在运行时仅激活其中的5000万,从而显著提升了计算效率。
3.5 多分辨率预测
与输出固定预测范围的模型不同,本模型集成了一个多分辨率预测头。该预测头包含 P=4 个输出投影,每个投影对应一个特定的预测范围 pj ∈ {1, 8, 32, 64},分别用于预测未来 pj 个时间步。在推理过程中,我们利用一个贪心调度算法来拼接这些不同长度的预测结果,从而实现任意长度的灵活预测,增强了模型的适应性。
3.6 损失函数
模型的最终损失函数由自回归损失和辅助平衡损失两部分构成: L = \frac{1}{P} \sum_{j=1}^{P} L_{ar}(A_{t+1:t+p_j}, \hat{A}{t+1:t+p_j}) + \alpha L{aux} \quad (7)
其中,Lar(自回归损失)采用Huber损失来量化预测值与真实值之间的差异。选择Huber损失旨在增强模型对数据中异常值的鲁棒性,从而提升训练稳定性。Laux(辅助损失)则用于平衡各个专家的利用率,确保负载分布更均匀,从而提高训练效率和模型性能。
通过上述方法论的设计,我们构建了一个高效且灵活的预测模型。下一节将通过实验来验证其有效性。
4. 实验
本节旨在通过一系列定量和定性实验,评估 FTS-Text-MoE 模型相较于当前最先进基线模型的性能。
4.1 数据集与评估指标
我们使用了涵盖时间序列、推文和新闻的多源数据集,具体信息总结如下表所示:
数据源 描述 关键统计
时间序列数据 来自雅虎财经的55只股票,涵盖11个行业,使用调整后收盘价。 20年数据,共191,512个样本点。
推文数据 关于11个行业中前5名股票的推文,使用BERTopic进行聚类。 覆盖2020-2022年,共637,395条推文。
新闻数据 来自FNSPID数据集(原数据截至2023年),并进行了更新和扩展,将数据覆盖范围延伸至2025年1月19日。 覆盖55只标普500股票,共216,308条记录。
我们采用以下指标对模型性能进行评估:
* 均方误差 (MSE): 衡量预测值与真实值之间差异的平方的平均值。
* 平均绝对误差 (MAE): 衡量预测值与真实值之间绝对差异的平均值。
* 总回报率 (Overall): 投资组合在评估期内的累计日回报率。
* 标准差 (Std. Dev.): 回报率的标准差,用于衡量风险或波动性。
* 夏普比率 (Sharpe Ratio): 衡量经风险调整后的回报率。
4.2 基线模型
我们选择了两个先进的时间序列预测模型作为比较基准:
* Chronos: 该模型通过缩放和量化将时间序列数据离散化为区间,从而能够将语言模型应用于“时间序列语言”的训练。
* Moirai: 该模型将多变量时间序列拼接成一个单一序列,并使用多粒度分块(patching)来处理不同频率的数据。
4.3 性能分析
文本来源对预测精度的影响 如表1所示,我们的分析表明,在模型中加入文本信息(无论是新闻还是X评论)能显著提高股票动态预测的准确性,表现为MSE和MAE指标的降低。特别地,使用经过总结的X评论作为输入时,模型的预测误差始终低于仅使用新闻或其他输入的模型,这表明提炼后的情绪信号能有效减少噪声。从行业层面看,医疗保健、非必需消费品和通信服务等行业的预测误差较低,暗示这些行业对文本信号的依赖性更强。
时序模型预测性能对比 与基线模型相比,FTS-Text-MoE 采用了一种更“积极”的预测策略。如图3和图7所示,Chronos 和 Moirai 倾向于生成更平滑的预测曲线,采取“保守”策略以降低在市场高波动时的预测误差。相反,FTS-Text-MoE 旨在捕捉短期波动,这使其在市场快速变化时更具优势。尽管加入文本输入后FTS-Text-MoE的性能有所提升,但必须指出,在某些行业和场景下,其预测精度仍未能超越 Chronos 和 Moirai(见表1)。
图3: 不同模型在TTE股票上的预测结果(预测范围80,上下文长度320)。
图7: 不同模型在VALE股票上的预测结果(预测范围80,上下文长度320)。
投资组合优化评估 在投资组合表现对比中(见表2),FTS-Text-MoE 的表现远超基线模型。其总回报率达到 0.1347,夏普比率高达 1.0818,显示出卓越的累计回报和风险调整后性能。与此同时,其较高的标准差(5.290e-3)也反映了其投资策略带来了更高的回报波动性。这与其在预测性能分析中观察到的“积极”预测策略是一致的:模型对短期时序波动的敏感性使其能够捕捉到更多盈利机会(从而获得更高的总回报),但这种策略本身也带来了更高的回报波动性,构成了与基线模型“保守”策略之间的一种权衡。
表2: 不同投资组合策略的性能对比
策略 总回报率 (↑) 标准差 (↓) 夏普比率 (↑)
1/N Portfolio 0.0570 5.132e-3 0.1725
S&P500 Index -0.0082 5.459e-3 -0.3002
Moirai 0.0079 1.741e-3 0.3320
Chronos -0.0077 1.288e-3 0.1223
FTS-Text-MoE (Our) 0.1347 5.290e-3 1.0818
回报与损失分布比较 如图4所示,通过对比三种方法的Top 5盈亏贡献股票,可以直观地看到 FTS-Text-MoE 的回报分布更为集中和不均匀。这进一步证实,与仅依赖历史数据的 Chronos 和 Moirai 的被动策略相比,整合了真实世界文本信息的 FTS-Text-MoE 采取了更为积极和集中的投资策略。
图4: 三种方法下收益和亏损贡献最大的五只股票。
实验结果有力地证明了 FTS-Text-MoE 模型在整合多源数据进行金融预测方面的有效性和优越性。
5. 结论
本文提出并验证了一种用于金融时序预测的新颖架构——FTS-Text-MoE 模型。该模型通过有效整合时间序列和文本数据,成功克服了现有大型金融预测模型在处理多源数据和进行长序列预测时面临的输入输出长度限制。
该模型的核心优势在于其创新设计:
* 它有效整合了时间序列和文本数据,为预测提供了更全面的信息视角。
* 通过采用稀疏 Transformer 解码器和混合专家(MoE)机制,模型在保持高性能的同时,显著提升了计算效率。
* 利用多分辨率预测头,模型实现了对不同时间尺度的灵活预测。
实验结果清晰地表明,FTS-Text-MoE 在预测准确性和投资组合性能方面均超越了现有的基线模型,特别是在总回报率和夏普比率上取得了显著优势。这为综合利用量化数据和市场情绪数据进行更全面的市场分析开辟了新的可能性。
6. 局限性与未来工作
尽管 FTS-Text-MoE 模型在实验中表现出色,但我们客观地承认其仍存在一定的局限性。
* 信息时滞问题: 模型假设文本信息和时序数据在时间上是同步的。然而在现实世界中,新闻和社交媒体上的信息对股价的影响通常存在一定的延迟。市场需要时间来消化和传播信息,这种滞后性可能会影响模型的预测精度。
* 信息真实性问题: 模型依赖于公开的新闻和社交媒体数据,而这些来源可能包含虚假或误导性信息。这类噪声数据可能会对模型的预测结果产生负面影响。
基于以上局限性,未来的研究将聚焦于以下两个方向:开发能够处理信息滞后性的机制,例如引入时间感知注意力模块;以及改进文本真实性的验证方法,以增强模型的鲁棒性和准确性。
参考文献
Abdul Fatir Ansari, Lorenzo Stella, Ali Caner Turkmen, Xiyuan Zhang, Pedro Mercado, Huibin Shen, Oleksandr Shchur, Syama Sundar Rangapuram, Sebastian Pineda Arango, Shubham Kapoor, and 1 others. Chronos: Learning the language of time series. Transactions on Machine Learning Research.
Adebiyi A Ariyo, Adewumi O Adewumi, and Charles K Ayo. 2014. Stock price prediction using the arima model. In 2014 UKSim-AMSS 16th international conference on computer modelling and simulation, pages 106–112. IEEE.
Jiayu Chen, Bhargav Ganguly, Yang Xu, Yongsheng Mei, Tian Lan, and Vaneet Aggarwal. 2024. Deep generative models for offline policy learning: Tutorial, survey, and perspectives on future directions. Transactions on Machine Learning Research.
Junyan Cheng and Peter Chin. Sociodojo: Building lifelong analytical agents with real-world text and time series. In The Twelfth International Conference on Learning Representations.
Aakanksha Chowdhery, Sharan Narang, Jacob Devlin, Maarten Bosma, Gaurav Mishra, Adam Roberts, Paul Barham, Hyung Won Chung, Charles Sutton, Sebastian Gehrmann, and 1 others. 2023. Palm: Scaling language modeling with pathways. Journal of Machine Learning Research, 24(240):1–113.
Damai Dai, Chengqi Deng, Chenggang Zhao, RX Xu, Huazuo Gao, Deli Chen, Jiashi Li, Wangding Zeng, Xingkai Yu, and 1 others. 2024. Deepseek-moe: Towards ultimate expert specialization in mixture-of-experts language models. arXiv preprint arXiv:2401.06066.
Shumin Deng, Ningyu Zhang, Wen Zhang, Jiaoyan Chen, Jeff Z Pan, and Huajun Chen. 2019. Knowledge-driven stock trend prediction and explanation via temporal convolutional network. In Companion proceedings of the 2019 world wide web conference, pages 678–685.
Xiao Ding, Yue Zhang, Ting Liu, and Junwen Duan. 2015. Deep learning for event-driven stock prediction. In Proceedings of the 24th International Conference on Artificial Intelligence, pages 2327–2333.
William Fedus, Barret Zoph, and Noam Shazeer. 2022. Switch transformers: Scaling to trillion parameter models with simple and efficient sparsity. Journal of Machine Learning Research, 23(120):1–39.
Christian Francq and Jean-Michel Zakoian. 2019. GARCH models: structure, statistical inference and financial applications. John Wiley & Sons.
Torsten Hoefler, Dan Alistarh, Tal Ben-Nun, Nikoli Dryden, and Alexandra Peste. 2021. Sparsity in deep learning: Pruning and growth for efficient inference and training in neural networks. Journal of Machine Learning Research, 22(241):1–124.
Yen-Ju Hsu, Yang-Cheng Lu, and J Jimmy Yang. 2021. News sentiment and stock market volatility. Review of Quantitative Finance and Accounting, 57(3):1093–1122.
Aya Abdelsalam Ismail, Sercan O Arik, Jinsung Yoon, Ankur Taly, Soheil Feizi, and Tomas Pfister. Interpretable mixture of experts. Transactions on Machine Learning Research.
Robert A Jacobs, Michael I Jordan, Steven J Nowlan, and Geoffrey E Hinton. 1991. Adaptive mixtures of local experts. Neural computation, 3(1):79–87.
Kelvin JL Koa, Yunshan Ma, Ritchie Ng, and Tat-Seng Chua. 2023. Diffusion variational autoencoder for tackling stochasticity in multi-step regression stock price prediction. In Proceedings of the 32nd ACM International Conference on Information and Knowledge Management, pages 1087–1096.
Kelvin JL Koa, Yunshan Ma, Ritchie Ng, and Tat-Seng Chua. 2024. Learning to generate explainable stock predictions using self-reflective large language models. In Proceedings of the ACM Web Conference 2024, pages 4304–4315.
Gueorgui Konstantinov, Andreas Chorus, and Jonas Rebmann. 2020. A network and machine learning approach to factor, asset, and blended allocation. Journal of Portfolio Management, 46(6):54–71.
Pulikandala Nithish Kumar, Nneka Umeorah, and Alex Alochukwu. 2024. Dynamic graph neural networks for enhanced volatility prediction in financial markets. arXiv preprint arXiv:2410.16858.
Dmitry Lepikhin, HyoukJoong Lee, Yuanzhong Xu, Dehao Chen, Orhan Firat, Yanping Huang, Maxim Krikun, Noam Shazeer, and Zhifeng Chen. Gshard: Scaling giant models with conditional computation and automatic sharding. In International Conference on Learning Representations.
Shengsheng Lin, Weiwei Lin, Wentai Wu, Haojun Chen, and Junjie Yang. 2024. Sparsetsf: Modeling long-term time series forecasting with* 1k* parameters. In International Conference on Machine Learning, pages 30211–30226. PMLR.
Chenxi Liu, Qianxiong Xu, Hao Miao, Sun Yang, Lingzheng Zhang, Cheng Long, Ziyue Li, and Rui Zhao. 2025. Timecma: Towards llm-empowered multivariate time series forecasting via cross-modality alignment. In Proceedings of the AAAI Conference on Artificial Intelligence, volume 39, pages 18780–18788.
Andrew W Lo. 2002. The statistics of sharpe ratios. Financial analysts journal, 58(4):36–52.
Douglas C Montgomery, Elizabeth A Peck, and G Geoffrey Vining. 2021. 引言 to linear regression analysis. John Wiley & Sons.
Ronghao Ni, Zinan Lin, Shuaiqi Wang, and Giulia Fanti. 2024. Mixture-of-linear-experts for long-term time series forecasting. In International Conference on Artificial Intelligence and Statistics, pages 4672–4680. PMLR.
Yuqi Nie, Nam H Nguyen, Phanwadee Sinthong, and Jayant Kalagnanam. A time series is worth 64 words: Long-term forecasting with transformers. In The Eleventh International Conference on Learning Representations.
Robert P Schumaker and Hsinchun Chen. 2009. Textual analysis of stock market prediction using breaking financial news: The azfin text system. ACM Transactions on Information Systems (TOIS), 27(2):1–19.
Noam Shazeer. 2020. Glu variants improve transformer. arXiv e-prints, pages arXiv–2002.
Xiaoming Shi, Shiyu Wang, Yuqi Nie, Dianqi Li, Zhou Ye, Qingsong Wen, and Ming Jin. 2024. Time-moe: Billion-scale time series foundation models with mixture of experts. arXiv preprint arXiv:2409.16040.
Jianlin Su, Murtadha Ahmed, Yu Lu, Shengfeng Pan, Wen Bo, and Yunfeng Liu. 2024. Roformer: Enhanced transformer with rotary position embedding. Neurocomputing, 568:127063.
Hugo Touvron, Thibaut Lavril, Gautier Izacard, Xavier Martinet, Marie-Anne Lachaux, Timothée Lacroix, Baptiste Rozière, Naman Goyal, Eric Hambro, Faisal Azhar, and 1 others. 2023. Llama: Open and efficient foundation language models. arXiv preprint arXiv:2302.13971.
Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Łukasz Kaiser, and Illia Polosukhin. 2017. Attention is all you need. Advances in neural information processing systems, 30.
Chengsen Wang, Qi Qi, Jingyu Wang, Haifeng Sun, Zirui Zhuang, Jinming Wu, Lei Zhang, and Jianxin Liao. 2025. Chattime: A unified multimodal time series foundation model bridging numerical and textual data. In Proceedings of the AAAI Conference on Artificial Intelligence, volume 39, pages 12694–12702.
Gerald Woo, Chenghao Liu, Akshat Kumar, Caiming Xiong, Silvio Savarese, and Doyen Sahoo. 2024. Unified training of universal time series forecasting transformers. In Proceedings of the 41st International Conference on Machine Learning, pages 53140–53164.
Yumo Xu and Shay B Cohen. 2018. Stock movement prediction from tweets and historical prices. In Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages 1970–1979.
Linyi Yang, Tin Lok James Ng, Barry Smyth, and Riuhai Dong. 2020. Html: Hierarchical transformer-based multi-task learning for volatility prediction. In Proceedings of The Web Conference 2020, pages 441–451.
Ailing Zeng, Muxi Chen, Lei Zhang, and Qiang Xu. 2023. Are transformers effective for time series forecasting? In Proceedings of the AAAI conference on artificial intelligence, volume 37, pages 11121–11128.
Biao Zhang and Rico Sennrich. 2019. Root mean square layer normalization. Advances in Neural Information Processing Systems, 32.


