当前位置: 首页 > news >正文

NFM阅读笔记

img
img

img

img

1、背景

(1)传统时域建模的局限:传统神经时间序列分析主要在时域中建模,即使部分方法会引入频域表示(如作为辅助特征),但频域并未成为建模的核心.
(2)频域建模的潜力:①频域操作灵活:通过频域中的补零、插零等操作,可以实现重采样、时间跨度扩展等任务,这些操作在时域中对应着信号长度的变化。②傅里叶域中的表示,有助于学习分辨率不变性

1.1 动机

Neural Fourier Modelling (NFM):一个完全在傅里叶域中建模时间序列的轻量级、通用型模型。

  • 频域中的数据操作(如插值、外推)重新解释为可学习的频率预测任务
  • 通过两个创新模块(LFT 和 INFF)实现紧凑、表达力强、分辨率不变的频域建模
  • 适用于多种任务:预测、异常检测、分类,并在不同采样率下具有鲁棒性。

(i)提出了一种复值可学习频率标记--LFT来捕获有效的频谱先验,并为频率插值和外推提供灵活的频率扩展。
(ii)隐式神经傅里叶滤波器(INFF)作为主要处理算子,旨在实现表达性连续全局卷积,用于学习傅里叶域中的插值或外推

2、整体架构

img

FIFS存在缺陷:
FITS 模型本质上是一个极简的线性频域模型,而 NFM 则是它的非线性、更通用的改进版本。
img

这样FIFS存在缺陷

  • 无法处理多变量时间序列:FITS 本质上是为单变量设计的,处理多变量数据时,它无法有效地建模不同变量之间的复杂相关性。
  • 表达能力有限:它是一个线性模型,学习能力有限。对于复杂的数据模式(尤其是大规模数据集),线性变换往往不够用。
  • 依赖于低通滤波:为了保持模型轻量,FITS 必须丢弃高频信息。这就像看一张模糊的图片,虽然数据量小了,但也丢失了细节。如果遇到那些重要信息分布在高频区域的数据(比如一些噪音较大的传感器数据、金融市场的高频波动),FITS 的性能就会大打折扣。

以此为基础,作者提出NFM:
输入 x → (通过 M) → 中间表示 z → (通过 P) → 最终预测 y
①假设输入 x 已经被初步投影成了 x̄(一个更丰富的特征表示)
②用 LFT 模块,创建初始的时间嵌入 z₀
③用 Mixer 模块(含 INFF ),迭代精炼 z₀

3、输入投影与准备

原始输入 (x):模型接收一个原始的多变量时间序列 x,其形状为 R^{N×c}。

  • N:时间序列的长度(采样点数)。
  • c:变量(通道)的数量。

输入投影:原始数据 x 首先通过一个投影层(详见附录 D.2),被映射到隐藏特征空间,得到 x̄,形状为 R^{N×d}

  • d:隐藏维度。
  • 这一步使用了一个结合线性变换和非线性激活(SIREN)的投影方法,目的是缓解时间序列点独立输入的信息稀疏性问题。

目的是将特征从c维映射为N维,模型学习每个时间点的更加丰富的表征

4、NFM 核心模型处理

4.1 LFT (Learnable Frequency Tokens) 模块 - 频率扩展与初始嵌入生成

目标:将输入序列的频谱 X̄(长度 N)扩展成目标频谱 Z₀(长度 L),并在此过程中注入可学习的、富有表现力的频域先验知识。

img
img

(1)频率扩展:Frequency Extension

从输入 x̄ 到初始扩展频谱 Z̄₀。

  • 输入:经过投影后的时域序列 x̄ ∈ R^{N×d}。
  • 频域转换:通过 FFT 将 x̄ 转换到频域,得到其频谱表示 X̄ ∈ C^{K_N×d}。这里 K_N = floor(N/2) + 1,是奈奎斯特频率对应的频点数量
  • 核心操作补零 / 插零】:创建一个新的、空的频谱 Z̄₀,其尺寸为 C^{K_L×d},其中 K_L = floor(L/2) + 1,对应目标长度 L。然后,将原始频谱 X̄ 的信息 “放置” 到 Z̄₀ 中。
  • img
  • img
  • img
  • img
  • 结果:我们得到了一个长度匹配目标 L 的初始频谱 Z̄₀。但是,这个频谱中,只有对应于原始信息的频点有值,其他新扩展出来的频点都是0。

(2) 注入可学习的频域先验 (Learnable Frequency Tokens - LFT)

模型不再被动地接受 0,而是主动地学习应该填入什么。

  1. 生成时域先验
    1. 首先,定义一个隐式神经表示 (INR) 函数 φ: R → R^d。它是一个小型MLP,以时间位置 τ 为输入,输出对应位置的抽象先验向量。
    2. 为整个目标时间跨度为 [0, T_y) 生成L个等间距的时间位置 τ_n =
    3. 将这些位置输入 φ,得到一组时域的先验序列 v[n] = φ(τ_n),其形状为 R^{L×d}。
  2. 应用实例归一化
    1. InstanceNorm(v[n]):对先验序列 v 进行实例归一化。论文指出,这一步非常重要,可以移除每个通道的直流分量(DC),防止先验知识的能量过度集中在 0 频率上,从而迫使模型学习到更有意义的、分布在整个频谱上的先验。
  3. 转换到频域,得到频域先验标记 (Frequency Tokens):
    1. V[k] = F(InstanceNorm(v[n])):将归一化后的时域先验序列通过 FFT 转换到频域。
    2. V[k] (形状 C^{K_L×d}) 就是我们最终得到的、可以直接加到频谱上的 “可学习频率标记 (Learnable Frequency Tokens)”。这些标记编码了模型期望在扩展出来的频点上 “看到” 的信息.
  4. 融合信息
    1. Z₀[k] = (Z̄₀[k] + V[k]):将原始的扩展频谱 Z̄₀(包含输入的真实信息)和可学习的频率标记 V[k](包含模型学到的先验知识)逐点相加。
    2. 这个加法操作,让模型在处理新频点时,既有从原始信号插值来的 “骨架”,又有从数据中学习到的 “血肉”,比简单地填 0 要强大得多。这就是 LFT 模块的核心创新。

(3) 逆变换回时域,生成初始嵌入

  • z₀[n] = F⁻¹(Z₀[k]):将融合了真实信息和先验知识的最终频谱 Z₀ 通过逆傅里叶变换 (IFFT) 转换回时域。
  • 输出:我们得到了最终的 初始时域嵌入 z₀ ∈ R^{L×d}。这个 z₀ 就是后续 Mixer Block 将要处理的输入。

4.2 Mixer Blocks (含 INFF) - 迭代精炼

img

img

目标:对 LFT 生成的初始嵌入 z₀ 进行迭代精炼,通过全局卷积和通道混合,提取出高质量的潜在表示 z。

步骤
一个 Mixer Block 接收输入 z_{i-1}(对于第一个 Block 就是 z₀),并输出 z_i。其内部流程为:

  1. 通道混合 (Channel Mixing):通过一个普通的 MLP,在不同变量(通道)之间混合信息。
  2. INFF (隐式神经傅里叶滤波器):通过一个动态生成的、连续的自适应滤波器,在时间维度上进行高效的全局卷积。
  3. 残差连接与层归一化:将处理后的结果与原始输入相加,并进行归一化,以稳定训练并防止梯度消失。

INFF (Implicit Neural Fourier Filter)

NFF 的设计初衷是创建一个既紧凑、又具备实例自适应性和模式自适应性的全局卷积算子。

  1. 全局卷积的频域实现
    1. 根据卷积定理,时域的卷积等价于频域的逐点相乘。因此,INFF 选择在频域进行操作,以实现高效的全局卷积:
    2. img
    3. 关键点:滤波器 R 不是固定的,而是根据每个输入实例的 z₀ 动态生成的。这使得 INFF 具备了实例自适应能力。
  2. 动态生成滤波器 R(z₀):实现紧凑与模式自适应
    1. img
    2. 步骤:
      1. 融合时域信息
        1. φ(τ_n):LFT 中使用的同一个隐式神经表示 (INR)。它根据时间位置 τ_n 生成一个抽象的先验序列
        2. φ(τ_n) + z₀:将这个先验序列与初始嵌入 z₀ 在时域逐点相加。这步操作将 z₀ 中包含的输入信息注入到滤波器生成过程中,使滤波器能够根据输入实例进行自适应调整。
      2. 转换到频域
        1. F(InstanceNorm( ... )):对融合后的时域信息进行实例归一化(同样是为了避免 DC 分量过强),然后通过 FFT 转换到频域。得到的结果是一个与输入频谱形状相同的中间表示,其每个频点 k 都包含了对应位置的融合信息。
      3. 学习映射关系 (模式自适应):
        1. W: C^d → C^d:这是一个复数域上的 MLP。它对上一步得到的频域表示进行逐点处理。也就是说,对于每一个频点 k,W 会学习如何将该频点上 d 维特征,映射成一个新的 d 维滤波器系数
        2. 因为 W 的参数对于所有频点是共享的,但它又对每个频点独立地应用(通过逐点 MLP),这使得 INFF 能够为每个频点学习到不同的、合适的滤波系数。这就是论文所称的模式自适应能力。
      4. 输出滤波器系数
        1. W(...) 的输出就是最终的频域滤波器 R(z₀),其形状为 C^

5、 最终预测与输出

img

生成潜在表示 (z):所有 Mixer Blocks 处理完毕后,得到最终精炼后的潜在表示 z。
最终预测 (y):模型根据具体任务,使用一个任务特定的线性预测器 P,将 z 映射到最终的输出 y 上。

6、实验效果

img

img

http://www.jsqmd.com/news/703914/

相关文章:

  • 上海装修哪家施工队比较好 - GrowthUME
  • Agent 的可测试性设计:可注入依赖、模拟工具与确定性运行
  • 2026年,西安这家专业照顾老人的企业,靠谱程度超乎你想象! - GrowthUME
  • 2026 安徽二手手机回收厂商综合实力 TOP10 榜单 - 安徽工业
  • 2026年宁波AI搜索优化技术推荐,哪些品牌价格实惠又靠谱 - 工业设备
  • 科技公司 ISO9001 质量管理体系认证代办 - GrowthUME
  • 中文医疗对话数据集深度解析:79万条真实医患对话的实战指南
  • 2026 口播直播间灯光搭建全指南:知识分享 / 情感连麦主播补光灯推荐 - 速递信息
  • PAT题库宝藏用法:不止为考试,用这些算法题巩固你的数据结构与算法基础
  • Tcl脚本数据处理:用regexp和regsub搞定字符串匹配与替换(附实战代码)
  • 国内定制游旅行社推荐 - GrowthUME
  • 开发者快速掌握R语言:从Python/Java到高效数据分析
  • 告别手写SQL!用mybatis-plus-join搞定SpringBoot项目里的多表联查(附完整代码)
  • 聊聊2026年靠谱的技术自研GEO机构,哪家性价比高 - 工业推荐榜
  • 京东e卡回收注意这三点,轻松避坑高效变现 - 京顺回收
  • 3步破解Cursor Pro试用限制:开源工具实现AI编程完整功能解锁
  • FSearch:基于GTK3的毫秒级Linux文件搜索引擎技术解析与性能优化
  • Winhance中文版:Windows系统优化的终极解决方案
  • 别再手动转PDF了!用Vue2+Element UI集成OnlyOffice,5分钟搞定Word/Excel/PPT在线预览
  • ITK-SNAP医学图像分割:从入门到精通的完整实战指南
  • 现代化项目脚手架设计:从原理到实践,提升开发效率
  • 聊聊技术自研GEO企业,推荐口碑好且价格合理的 - myqiye
  • 终极指南:OpenFace面部行为分析工具从入门到精通
  • WASM容器化部署实战手册(Docker 24.0+原生支持深度解析)
  • Docker AI Toolkit 2026源码仓库最后3次PR合并细节曝光:TensorRT-LLM集成失败原因竟藏在runtime/v2/shim.go第417行!
  • LTX-Video 2.3 实战:用图片生成视频,消费级显卡也能跑的开源 I2V 模型(GPT Image 2)
  • 2026年4月卡地亚官方售后网点核验报告(含迁址/新开):亲测避坑指南老司机分享 - 亨得利官方服务中心
  • RE-UE4SS:5分钟快速上手虚幻引擎脚本系统终极指南
  • 避坑指南:解决Python调用OpenNI连接奥比中光摄像头时的5个典型错误(附解决方案)
  • 企业级AI智能体平台Astron Agent:从架构设计到生产部署实战