当前位置: 首页 > news >正文

从新闻到预测:基于大语言模型时序预测中的迭代事件推理 - 实践

从新闻到预测:基于大语言模型时序预测中的迭代事件推理 - 实践

图片

论文标题:From News to Forecast: Iterative Event Reasoning in LLM-Based Time Series Forecasting

论文链接:https://arxiv.org/abs/2409.17515

研究背景

这篇论文很有意思,在时间序列预测任务中引入了外部的知识,即文章中说的新闻数据。我们知道传统时间序列预测任务一直以来的思路都是改模型架构,然后卷指标。但这篇文章相当于另辟蹊径,利用爬取新闻数据,作为模型额外输入,以此来增强时间序列预测效果。

这种方案在业界,特定是金融量化领域已经很普遍,例如一套鲁棒性比较强的系统,至少要包含量价因子、基本面因子等。这里的基本面因子,我们可以认为是论文外部新闻数据。原因也容易理解,像政策转变、突发事件、情绪变化对股价的影响很难直接从量价上找到合理解释,但从新闻事件中却容易推断发掘出事件因果。这也是这篇文章首要的出发点。

研究思路

这篇文章利用大型语言模型(LLM)对文本和时间序列资料进行推理来增强时间序列预测,将社会事件整合到预测模型中,使新闻内容与时间序列波动相匹配。

图片

LLM在文中充当了核心角色。一方面,作者利用LLM agent来迭代过滤不相关的新闻,并采用类似人类的推理来评估预测;另一方面,借助将选定的新闻事件与时间序列数据相结合,对预训练大模型进行了微调,来预测时序变化。

此外本文开源了代码,从结果来看,预测准确性是确实有显著的提高,这表明合理利用非结构化新闻数据确实是有助于提升预测效果的。

本文模型

图片

时间序列预测中整合文本信息的流程:(A) 检索相关的原始新闻和补充信息。(B) 基于大语言模型(LLM)的代理对不同预测时间范围的相关新闻进行分析和筛选。(C&D) 将筛选出的新闻和上下文信息与时间序列内容结合,用于微调LLM预测模型。(E) 预测结果与真实值之间的差异会触发对历史新闻和数据的回顾,以重新处理遗漏信息并优化推理逻辑。

01 难题定义

如何把时间序列预测任务转换为LLM能处理的任务?

与大语言模型(LLMs)一致,时间序列预测也可被视为序列条件生成困难。以 LLaMa 语言模型为例,假设存在一个数字序列 {123,456},LLaMa 的分词器会将该数字视为数字标记的序列。

图片

在此基础上,我们把新闻事件E加入到条件概率,如下面红框所示,这样就整合了新闻数据和时序数据。

图片

02 微调大语言模型进行时序预测

尽管大模型具备一定生成时间序列预测的能力,直接给出时序数据、新闻数据就进行少样本预测仍然很难。开始,时间序列的输出控制较为困难,由于输出数字token并不常见。其次,新闻与时间序列之间的联系通常需从历史数据中推导,这超出了应用大语言模型进行少样本时间序列预测的常规范围。

作者采用监督指令调优办法,将配对的时序数据、新闻数据训练大语言模型,格式化为文本输入 - 输出对,用低秩适应(LoRA)方法。

02 基于大语言模型进行新闻筛选、聚合和推理分析

图片

首先基于预测任务的时间频率、地域范围等信息检索匹配新闻及补充信息,如针对 2019 - 2021 年澳大利亚州级电力需求收集相关新闻并初步筛选;然后利用 LLM 的类人推理能力设计新闻筛选推理代理,通过少样本提示和思维链方法生成初始筛选逻辑,按影响时长和相关性分类新闻并输出含摘要、地域等的 JSON 结果,再基于预测误差分析迭代优化筛选策略;最终通过对比预测结果与真实值识别因新闻遗漏导致的误差,经预测评估、遗漏识别和逻辑更新的三阶段提示设计及 “预测 - 评估 - 更新” 闭环流程,逐步完善新闻筛选逻辑,以提升模型对时间序列预测的准确性。

03 整体pipeline

图片

上图是文章整体的pipeline,新闻推理agent和评估agent与LLM预测模型的微调相结合以提高训练资料质量,流程为:

  • 首次迭代中,LLM依时间序列任务领域和时间建新闻筛选逻辑,推理agent据此过滤新闻并与时间序列数据对齐后输入模型初调;

  • 每次迭代用从训练数据随机提取的验证集验证模型预测,评估agent检查影响预测的遗漏新闻,反馈给推理代理优化后续筛选逻辑;

  • 循环至结果一次迭代,推理agent整合更新生成最终新闻过滤器。

实验与结论

图片

图片

从实验结果来看,本文提出的将外部新闻添加到时序预测任务的技巧是有效的。通过将基于大语言模型(LLM)把新闻整合到时间序列预测中,在电力需求、汇率、比特币市场等多个领域显著提升了预测准确性,且在处理突发和复杂事件时表现出色。

本文的局限性

适用领域有限:在气象等人类活动影响较小的领域适用性较差。

模型输入限制:受预训练 LLM 最大 token 长度约束,处理大量时间序列或多序列时可能出现资料截断,影响长期预测准确性。

未来的研究方向

新闻内容归因分析:确定影响预测准确性的关键因素,优化新闻整合流程。


大家可以关注我【科学最top】,第一时间follow时序高水平论文解读!!!

http://www.jsqmd.com/news/134187/

相关文章:

  • 探秘国内网红景区,解锁灵龙谷的独特魅力 - myqiye
  • 2025年热门遮白发染发剂品牌选购指南:温和安全易操作,植萃滋养款实测 - 资讯焦点
  • 汽车电动助力转向系统(EPS)功能介绍 - 实践
  • 基于微信小程序的个性化新闻推荐系统的设计与实现开题报告1每页格式不得改动
  • [css特性]HTML Learn Data Day 3
  • 计算机毕业设计springboot基于Java的智慧小区快递配送系统 SpringBoot+Java 的社区智能快递末端配送平台 基于 Java 技术的智慧住宅区快件集散管理系统
  • 2025年上海真空烘箱采购指南:十大高口碑生产厂家全解析,非标干燥设备/高温电热鼓风干燥箱/泳池专用臭氧发生器真空烘箱企业口碑排行 - 品牌推荐师
  • 2025年衬氟三合一过滤洗涤干燥机品牌排名:实验型过滤洗涤干燥机哪家强? - 工业推荐榜
  • 2025-2026年摆锤冲击试验机哪些品牌好哪家性价比高?国内国产VS国际制造生产供应商对比 - 品牌推荐大师1
  • 2025年热门小型喇叭厂家推荐:实力强的小型喇叭哪里买? - 工业品牌热点
  • 2025年微机一体测硫仪源头厂家推荐:电脑全自动测硫仪靠谱企业有哪些? - 工业品牌热点
  • 气相色谱品牌有哪些?GC哪些品牌性价比高? - 品牌推荐大师1
  • GPT-SoVITS语音降噪能力分析:对原始数据要求有多高?
  • 2025成都财税公司排名揭晓!狼途腾9.99分断层夺冠,成中小企业合规定心丸 - 品牌智鉴榜
  • 盘点25年哪个品牌的RoHS2.0分析仪好/质量好?乔邦仪器为何成为行业标杆? - 品牌推荐大师
  • GPT-SoVITS语音风格迁移实战:模仿明星声线全记录
  • 2025年实验型/洁净型过滤洗涤一体机厂家排行榜,专业测评精选推荐 - mypinpai
  • 天硕U.2 NVMe SSD通过中子与低能质子试验,在严苛环境中彰显坚韧品质 - 资讯焦点
  • 2025年航空运输专业公司推荐:航空运输品牌机构有哪些? - mypinpai
  • 数据体系的“双核引擎”:论数据中台与数据仓库的定位与协作
  • 2025年质量好的变风量阀/不锈钢变风量阀TOP实力厂家推荐榜 - 品牌宣传支持者
  • 选择困难?2025年优质清障车生产厂家推荐榜单,蓝牌重载清障车/高空作业车/救援清障车/重载清障车/清障车直销厂家推荐排行榜单 - 品牌推荐师
  • 2025年最新盘点:口碑最佳的现浇楼板公司TOP10,现浇阳台/楼板现浇/别墅现浇/现浇搭建/现浇钢筋混凝土/现浇夹层现浇楼板报价排行榜单 - 品牌推荐师
  • 23、Elasticsearch高级功能:从渗透查询到地理搜索
  • 基于微信小程序的个性化新闻推荐系统的设计与实现申报审批表
  • 2025北京不错的私人定制旅游公司TOP5权威推荐:深耕资源与服务 - mypinpai
  • 2025年度化工级过滤洗涤干燥设备TOP5推荐:喷涂过滤洗涤干燥三合一哪家强? - 工业推荐榜
  • 2025年知名的导热油炉十大品牌厂家推荐及采购参考 - 品牌宣传支持者
  • 22、Elasticsearch 中的分面搜索与建议器使用指南
  • 【AI自动化新引擎】:Open-AutoGLM在智能客服中的应用突破