



1、背景
(1)传统时域建模的局限:传统神经时间序列分析主要在时域中建模,即使部分方法会引入频域表示(如作为辅助特征),但频域并未成为建模的核心.
(2)频域建模的潜力:①频域操作灵活:通过频域中的补零、插零等操作,可以实现重采样、时间跨度扩展等任务,这些操作在时域中对应着信号长度的变化。②傅里叶域中的表示,有助于学习分辨率不变性
1.1 动机
Neural Fourier Modelling (NFM):一个完全在傅里叶域中建模时间序列的轻量级、通用型模型。
- 将频域中的数据操作(如插值、外推)重新解释为可学习的频率预测任务;
- 通过两个创新模块(LFT 和 INFF)实现紧凑、表达力强、分辨率不变的频域建模;
- 适用于多种任务:预测、异常检测、分类,并在不同采样率下具有鲁棒性。
(i)提出了一种复值可学习频率标记--LFT来捕获有效的频谱先验,并为频率插值和外推提供灵活的频率扩展。
(ii)隐式神经傅里叶滤波器(INFF)作为主要处理算子,旨在实现表达性连续全局卷积,用于学习傅里叶域中的插值或外推
2、整体架构

FIFS存在缺陷:
FITS 模型本质上是一个极简的线性频域模型,而 NFM 则是它的非线性、更通用的改进版本。

这样FIFS存在缺陷:
- 无法处理多变量时间序列:FITS 本质上是为单变量设计的,处理多变量数据时,它无法有效地建模不同变量之间的复杂相关性。
- 表达能力有限:它是一个线性模型,学习能力有限。对于复杂的数据模式(尤其是大规模数据集),线性变换往往不够用。
- 依赖于低通滤波:为了保持模型轻量,FITS 必须丢弃高频信息。这就像看一张模糊的图片,虽然数据量小了,但也丢失了细节。如果遇到那些重要信息分布在高频区域的数据(比如一些噪音较大的传感器数据、金融市场的高频波动),FITS 的性能就会大打折扣。
以此为基础,作者提出NFM:
输入 x → (通过 M) → 中间表示 z → (通过 P) → 最终预测 y
①假设输入 x 已经被初步投影成了 x̄(一个更丰富的特征表示)
②用 LFT 模块,创建初始的时间嵌入 z₀
③用 Mixer 模块(含 INFF ),迭代精炼 z₀
3、输入投影与准备
原始输入 (x):模型接收一个原始的多变量时间序列 x,其形状为 R^{N×c}。
- N:时间序列的长度(采样点数)。
- c:变量(通道)的数量。
输入投影:原始数据 x 首先通过一个投影层(详见附录 D.2),被映射到隐藏特征空间,得到 x̄,形状为 R^{N×d}
- d:隐藏维度。
- 这一步使用了一个结合线性变换和非线性激活(SIREN)的投影方法,目的是缓解时间序列点独立输入的信息稀疏性问题。
目的是将特征从c维映射为N维,模型学习每个时间点的更加丰富的表征
4、NFM 核心模型处理
4.1 LFT (Learnable Frequency Tokens) 模块 - 频率扩展与初始嵌入生成
目标:将输入序列的频谱 X̄(长度 N)扩展成目标频谱 Z₀(长度 L),并在此过程中注入可学习的、富有表现力的频域先验知识。


(1)频率扩展:Frequency Extension
从输入 x̄ 到初始扩展频谱 Z̄₀。
- 输入:经过投影后的时域序列 x̄ ∈ R^{N×d}。
- 频域转换:通过 FFT 将 x̄ 转换到频域,得到其频谱表示 X̄ ∈ C^{K_N×d}。这里 K_N = floor(N/2) + 1,是奈奎斯特频率对应的频点数量
- 核心操作【补零 / 插零】:创建一个新的、空的频谱 Z̄₀,其尺寸为 C^{K_L×d},其中 K_L = floor(L/2) + 1,对应目标长度 L。然后,将原始频谱 X̄ 的信息 “放置” 到 Z̄₀ 中。




- 结果:我们得到了一个长度匹配目标 L 的初始频谱 Z̄₀。但是,这个频谱中,只有对应于原始信息的频点有值,其他新扩展出来的频点都是0。
(2) 注入可学习的频域先验 (Learnable Frequency Tokens - LFT)
模型不再被动地接受 0,而是主动地学习应该填入什么。
- 生成时域先验:
- 首先,定义一个隐式神经表示 (INR) 函数 φ: R → R^d。它是一个小型MLP,以时间位置 τ 为输入,输出对应位置的抽象先验向量。
- 为整个目标时间跨度为 [0, T_y) 生成L个等间距的时间位置 τ_n =
- 将这些位置输入 φ,得到一组时域的先验序列 v[n] = φ(τ_n),其形状为 R^{L×d}。
- 应用实例归一化:
- InstanceNorm(v[n]):对先验序列 v 进行实例归一化。论文指出,这一步非常重要,可以移除每个通道的直流分量(DC),防止先验知识的能量过度集中在 0 频率上,从而迫使模型学习到更有意义的、分布在整个频谱上的先验。
- 转换到频域,得到频域先验标记 (Frequency Tokens):
- V[k] = F(InstanceNorm(v[n])):将归一化后的时域先验序列通过 FFT 转换到频域。
- V[k] (形状 C^{K_L×d}) 就是我们最终得到的、可以直接加到频谱上的 “可学习频率标记 (Learnable Frequency Tokens)”。这些标记编码了模型期望在扩展出来的频点上 “看到” 的信息.
- 融合信息
- Z₀[k] = (Z̄₀[k] + V[k]):将原始的扩展频谱 Z̄₀(包含输入的真实信息)和可学习的频率标记 V[k](包含模型学到的先验知识)逐点相加。
- 这个加法操作,让模型在处理新频点时,既有从原始信号插值来的 “骨架”,又有从数据中学习到的 “血肉”,比简单地填 0 要强大得多。这就是 LFT 模块的核心创新。
(3) 逆变换回时域,生成初始嵌入
- z₀[n] = F⁻¹(Z₀[k]):将融合了真实信息和先验知识的最终频谱 Z₀ 通过逆傅里叶变换 (IFFT) 转换回时域。
- 输出:我们得到了最终的 初始时域嵌入 z₀ ∈ R^{L×d}。这个 z₀ 就是后续 Mixer Block 将要处理的输入。
4.2 Mixer Blocks (含 INFF) - 迭代精炼


目标:对 LFT 生成的初始嵌入 z₀ 进行迭代精炼,通过全局卷积和通道混合,提取出高质量的潜在表示 z。
步骤:
一个 Mixer Block 接收输入 z_{i-1}(对于第一个 Block 就是 z₀),并输出 z_i。其内部流程为:
- 通道混合 (Channel Mixing):通过一个普通的 MLP,在不同变量(通道)之间混合信息。
- INFF (隐式神经傅里叶滤波器):通过一个动态生成的、连续的自适应滤波器,在时间维度上进行高效的全局卷积。
- 残差连接与层归一化:将处理后的结果与原始输入相加,并进行归一化,以稳定训练并防止梯度消失。
INFF (Implicit Neural Fourier Filter)
NFF 的设计初衷是创建一个既紧凑、又具备实例自适应性和模式自适应性的全局卷积算子。
- 全局卷积的频域实现
- 根据卷积定理,时域的卷积等价于频域的逐点相乘。因此,INFF 选择在频域进行操作,以实现高效的全局卷积:

- 关键点:滤波器 R 不是固定的,而是根据每个输入实例的 z₀ 动态生成的。这使得 INFF 具备了实例自适应能力。
- 动态生成滤波器 R(z₀):实现紧凑与模式自适应

- 步骤:
- 融合时域信息:
- φ(τ_n):LFT 中使用的同一个隐式神经表示 (INR)。它根据时间位置 τ_n 生成一个抽象的先验序列。
- φ(τ_n) + z₀:将这个先验序列与初始嵌入 z₀ 在时域逐点相加。这步操作将 z₀ 中包含的输入信息注入到滤波器生成过程中,使滤波器能够根据输入实例进行自适应调整。
- 转换到频域:
- F(InstanceNorm( ... )):对融合后的时域信息进行实例归一化(同样是为了避免 DC 分量过强),然后通过 FFT 转换到频域。得到的结果是一个与输入频谱形状相同的中间表示,其每个频点 k 都包含了对应位置的融合信息。
- 学习映射关系 (模式自适应):
- W: C^d → C^d:这是一个复数域上的 MLP。它对上一步得到的频域表示进行逐点处理。也就是说,对于每一个频点 k,W 会学习如何将该频点上 d 维特征,映射成一个新的 d 维滤波器系数。
- 因为 W 的参数对于所有频点是共享的,但它又对每个频点独立地应用(通过逐点 MLP),这使得 INFF 能够为每个频点学习到不同的、合适的滤波系数。这就是论文所称的模式自适应能力。
- 输出滤波器系数:
- W(...) 的输出就是最终的频域滤波器 R(z₀),其形状为 C^
- 融合时域信息:
5、 最终预测与输出

生成潜在表示 (z):所有 Mixer Blocks 处理完毕后,得到最终精炼后的潜在表示 z。
最终预测 (y):模型根据具体任务,使用一个任务特定的线性预测器 P,将 z 映射到最终的输出 y 上。
6、实验效果


