当前位置：首页 > news >正文

NFM阅读笔记

news 2026/4/26 15:36:16

1、背景

(1)传统时域建模的局限:传统神经时间序列分析主要在时域中建模，即使部分方法会引入频域表示（如作为辅助特征），但频域并未成为建模的核心.
(2)频域建模的潜力:①频域操作灵活：通过频域中的补零、插零等操作，可以实现重采样、时间跨度扩展等任务，这些操作在时域中对应着信号长度的变化。②傅里叶域中的表示，有助于学习分辨率不变性

1.1 动机

Neural Fourier Modelling (NFM)：一个完全在傅里叶域中建模时间序列的轻量级、通用型模型。

将频域中的数据操作（如插值、外推）重新解释为可学习的频率预测任务；
通过两个创新模块（LFT 和 INFF）实现紧凑、表达力强、分辨率不变的频域建模；
适用于多种任务：预测、异常检测、分类，并在不同采样率下具有鲁棒性。

(i)提出了一种复值可学习频率标记--LFT来捕获有效的频谱先验，并为频率插值和外推提供灵活的频率扩展。
(ii)隐式神经傅里叶滤波器（INFF）作为主要处理算子，旨在实现表达性连续全局卷积，用于学习傅里叶域中的插值或外推

2、整体架构

FIFS存在缺陷:
FITS 模型本质上是一个极简的线性频域模型，而 NFM 则是它的非线性、更通用的改进版本。

这样FIFS存在缺陷：

无法处理多变量时间序列：FITS 本质上是为单变量设计的，处理多变量数据时，它无法有效地建模不同变量之间的复杂相关性。
表达能力有限：它是一个线性模型，学习能力有限。对于复杂的数据模式（尤其是大规模数据集），线性变换往往不够用。
依赖于低通滤波：为了保持模型轻量，FITS 必须丢弃高频信息。这就像看一张模糊的图片，虽然数据量小了，但也丢失了细节。如果遇到那些重要信息分布在高频区域的数据（比如一些噪音较大的传感器数据、金融市场的高频波动），FITS 的性能就会大打折扣。

以此为基础，作者提出NFM:
输入 x → (通过 M) → 中间表示 z → (通过 P) → 最终预测 y
①假设输入 x 已经被初步投影成了 x̄（一个更丰富的特征表示）
②用 LFT 模块，创建初始的时间嵌入 z₀
③用 Mixer 模块（含 INFF ），迭代精炼 z₀

3、输入投影与准备

原始输入 (x)：模型接收一个原始的多变量时间序列 x，其形状为 R^{N×c}。

N：时间序列的长度（采样点数）。
c：变量（通道）的数量。

输入投影：原始数据 x 首先通过一个投影层（详见附录 D.2），被映射到隐藏特征空间，得到 x̄，形状为 R^{N×d}

d：隐藏维度。
这一步使用了一个结合线性变换和非线性激活（SIREN）的投影方法，目的是缓解时间序列点独立输入的信息稀疏性问题。

目的是将特征从c维映射为N维，模型学习每个时间点的更加丰富的表征

4、NFM 核心模型处理

4.1 LFT (Learnable Frequency Tokens) 模块 - 频率扩展与初始嵌入生成

目标：将输入序列的频谱 X̄（长度 N）扩展成目标频谱 Z₀（长度 L），并在此过程中注入可学习的、富有表现力的频域先验知识。

(1)频率扩展：Frequency Extension

从输入 x̄ 到初始扩展频谱 Z̄₀。

输入：经过投影后的时域序列 x̄ ∈ R^{N×d}。
频域转换：通过 FFT 将 x̄ 转换到频域，得到其频谱表示 X̄ ∈ C^{K_N×d}。这里 K_N = floor(N/2) + 1，是奈奎斯特频率对应的频点数量
核心操作【补零 / 插零】：创建一个新的、空的频谱 Z̄₀，其尺寸为 C^{K_L×d}，其中 K_L = floor(L/2) + 1，对应目标长度 L。然后，将原始频谱 X̄ 的信息 “放置” 到 Z̄₀ 中。
结果：我们得到了一个长度匹配目标 L 的初始频谱 Z̄₀。但是，这个频谱中，只有对应于原始信息的频点有值，其他新扩展出来的频点都是0。

(2) 注入可学习的频域先验 (Learnable Frequency Tokens - LFT)

模型不再被动地接受 0，而是主动地学习应该填入什么。

生成时域先验：
1. 首先，定义一个隐式神经表示 (INR) 函数 φ: R → R^d。它是一个小型MLP，以时间位置 τ 为输入，输出对应位置的抽象先验向量。
2. 为整个目标时间跨度为 [0, T_y) 生成L个等间距的时间位置 τ_n =
3. 将这些位置输入 φ，得到一组时域的先验序列 v[n] = φ(τ_n)，其形状为 R^{L×d}。
应用实例归一化：
1. InstanceNorm(v[n])：对先验序列 v 进行实例归一化。论文指出，这一步非常重要，可以移除每个通道的直流分量（DC），防止先验知识的能量过度集中在 0 频率上，从而迫使模型学习到更有意义的、分布在整个频谱上的先验。
转换到频域，得到频域先验标记 (Frequency Tokens)：
1. V[k] = F(InstanceNorm(v[n]))：将归一化后的时域先验序列通过 FFT 转换到频域。
2. V[k] (形状 C^{K_L×d}) 就是我们最终得到的、可以直接加到频谱上的 “可学习频率标记 (Learnable Frequency Tokens)”。这些标记编码了模型期望在扩展出来的频点上 “看到” 的信息.
融合信息
1. Z₀[k] = (Z̄₀[k] + V[k])：将原始的扩展频谱 Z̄₀（包含输入的真实信息）和可学习的频率标记 V[k]（包含模型学到的先验知识）逐点相加。
2. 这个加法操作，让模型在处理新频点时，既有从原始信号插值来的 “骨架”，又有从数据中学习到的 “血肉”，比简单地填 0 要强大得多。这就是 LFT 模块的核心创新。

(3) 逆变换回时域，生成初始嵌入

z₀[n] = F⁻¹(Z₀[k])：将融合了真实信息和先验知识的最终频谱 Z₀ 通过逆傅里叶变换 (IFFT) 转换回时域。
输出：我们得到了最终的初始时域嵌入 z₀ ∈ R^{L×d}。这个 z₀ 就是后续 Mixer Block 将要处理的输入。

4.2 Mixer Blocks (含 INFF) - 迭代精炼

目标：对 LFT 生成的初始嵌入 z₀ 进行迭代精炼，通过全局卷积和通道混合，提取出高质量的潜在表示 z。

步骤：
一个 Mixer Block 接收输入 z_{i-1}（对于第一个 Block 就是 z₀），并输出 z_i。其内部流程为：

通道混合 (Channel Mixing)：通过一个普通的 MLP，在不同变量（通道）之间混合信息。
INFF (隐式神经傅里叶滤波器)：通过一个动态生成的、连续的自适应滤波器，在时间维度上进行高效的全局卷积。
残差连接与层归一化：将处理后的结果与原始输入相加，并进行归一化，以稳定训练并防止梯度消失。

INFF (Implicit Neural Fourier Filter)

NFF 的设计初衷是创建一个既紧凑、又具备实例自适应性和模式自适应性的全局卷积算子。

全局卷积的频域实现
1. 根据卷积定理，时域的卷积等价于频域的逐点相乘。因此，INFF 选择在频域进行操作，以实现高效的全局卷积：
3. 关键点：滤波器 R 不是固定的，而是根据每个输入实例的 z₀ 动态生成的。这使得 INFF 具备了实例自适应能力。
动态生成滤波器 R(z₀)：实现紧凑与模式自适应
2. 步骤：
  1. 融合时域信息：
    1. φ(τ_n)：LFT 中使用的同一个隐式神经表示 (INR)。它根据时间位置 τ_n 生成一个抽象的先验序列。
    2. φ(τ_n) + z₀：将这个先验序列与初始嵌入 z₀ 在时域逐点相加。这步操作将 z₀ 中包含的输入信息注入到滤波器生成过程中，使滤波器能够根据输入实例进行自适应调整。
  2. 转换到频域：
    1. F(InstanceNorm( ... ))：对融合后的时域信息进行实例归一化（同样是为了避免 DC 分量过强），然后通过 FFT 转换到频域。得到的结果是一个与输入频谱形状相同的中间表示，其每个频点 k 都包含了对应位置的融合信息。
  3. 学习映射关系 (模式自适应)：
    1. W: C^d → C^d：这是一个复数域上的 MLP。它对上一步得到的频域表示进行逐点处理。也就是说，对于每一个频点 k，W 会学习如何将该频点上 d 维特征，映射成一个新的 d 维滤波器系数。
    2. 因为 W 的参数对于所有频点是共享的，但它又对每个频点独立地应用（通过逐点 MLP），这使得 INFF 能够为每个频点学习到不同的、合适的滤波系数。这就是论文所称的模式自适应能力。
  4. 输出滤波器系数：
    1. W(...) 的输出就是最终的频域滤波器 R(z₀)，其形状为 C^