当前位置：首页 > news >正文

矩阵乘积状态（MPS）在时间序列插值与分类中的应用实践

news 2026/5/24 5:05:20

1. 项目概述：当张量网络遇见时间序列

在数据分析的日常工作中，我们常常会面对一个令人头疼的问题：拿到的时间序列数据缺胳膊少腿。传感器故障、传输丢包、记录遗漏，都会导致数据点缺失。传统上，我们可能会用线性插值、前向填充，或者更复杂一些的K近邻、基于RNN或Transformer的模型来“猜”出这些缺失值。但今天，我想和你聊一个从量子物理领域“跨界”而来的思路——矩阵乘积状态，以及它如何以一种优雅且高效的方式，同时解决时间序列的插值和分类问题。

你可能听说过张量网络（Tensor Networks），它在量子多体物理中是描述复杂量子态的神兵利器。简单来说，它通过将一个大张量（想象一个超高维的数据方块）分解成一系列小张量并按特定方式连接，来高效表示海量信息。矩阵乘积状态（Matrix Product State, MPS）是其中最基本、也最常用的一种形式。几年前，有研究者脑洞大开：既然MPS能高效表示量子态的概率幅，那能不能用它来表示经典数据的概率分布呢？答案是肯定的。这就是量子启发张量网络在机器学习领域的落地。

我最近深入实践了基于MPS的时间序列处理方法，特别是这篇文献中提到的MPSTime框架。它的核心思想非常巧妙：把一个长度为T的时间序列，看作一个T维的随机变量。这个高维变量的联合概率分布，理论上复杂到无法直接处理。但MPS告诉我们，不用怕，我们可以用一串低秩矩阵（或者说三阶张量）的乘积来近似它。这就像用乐高积木搭建一个复杂模型，每一块积木（一个站点张量）只负责描述时间序列中某一个时间点与其邻居的局部关联，所有积木拼起来，就得到了整个序列的全局概率图景。

这种方法带来的好处是实实在在的：

参数高效：相比于需要百万甚至上亿参数的深度学习模型，MPS的参数数量通常只是序列长度的多项式级别，训练起来快得多，也不那么容易过拟合。
概率解释清晰：模型直接输出的是概率分布，而不是一个黑箱的点估计。这意味着我们不仅能得到插值结果，还能知道这个结果的不确定性（比如计算一个加权中位数绝对偏差）。
天然处理条件概率：插值的本质，就是在已知部分数据点的条件下，推测未知点的概率分布。MPS的结构非常适合做这种“投影测量”和条件概率计算，过程在数学上很漂亮，在工程上也可行。

在接下来的内容里，我不会只复述论文公式，而是会结合我自己的调试和实验经验，带你拆解MPSTime从理论到实践的每一个关键环节：我们如何把连续的时间点“编码”成MPS能理解的离散状态？为什么在点估计时，中位数往往比均值或众数更靠谱？面对物理维度（d）、键维度（χ）这些听起来有点玄的超参数，我们该怎么科学地调优？以及最终，这套方法在真实的心电图（ECG）、电力需求数据上，和DTW、InceptionTime这些老牌算法同台竞技时，表现究竟如何？

无论你是机器学习工程师想寻找轻量级且可解释性强的时序模型，还是数据科学家在处理大量缺失数据时苦于现有方法的不确定性，亦或是单纯对张量网络这个交叉领域感兴趣，我相信这次从量子物理启发的理论，到一行行代码的工程实践之旅，都会给你带来新的启发和可以直接上手的工具。

2. 核心原理拆解：MPS如何表示与操作时间序列

要玩转MPS做时间序列分析，第一步是建立直观理解。别被“张量”、“量子”这些词吓到，我们把它拆解成工程师熟悉的语言。

2.1 从时间序列到概率张量：编码的艺术

想象一个长度为T的心电图片段，每个时间点t对应一个电压值x_t。我们的目标是用MPS来建模所有可能心电图片段的联合概率分布P(x_1, x_2, ..., x_T)。直接建模连续值太难，所以需要一个编码步骤。

MPSTime采用的方法是特征映射。它把每一个连续的观测值x_t，映射到一个d维的离散向量φ(x_t)。这个d，就是MPS的物理维度。你可以把它理解为，我们用d个“基函数”来展开描述这个时间点。文献中常用的是勒让德多项式基。为什么是它？因为勒让德多项式在区间[-1,1]上正交且完备，非常适合用来近似定义在有界区间内的函数。实际操作中，我们会先把原始时间序列数据归一化到[-1, 1]区间。

那么，一个时间点x_t=0.3，经过φ映射后，就变成了一个d维的量子态似的向量。整个时间序列就变成了T个这样的向量。MPS模型要学习的，就是这些向量序列的联合概率振幅。最终，序列出现的概率，与这些向量对应的MPS收缩结果的模平方成正比。

这里有一个非常关键的工程细节：有限基表示带来的分布展宽。因为我们只用d个基函数，无法完美表示任意连续分布。这会导致一个本应很尖锐的条件分布（比如已知某个点，推测下一个点），在实际计算中变得“模糊”或“展宽”。如下图所示，即使真实值是一个点，模型给出的条件分布也是一个有一定宽度的峰。这个展宽是误差的主要来源之一，后续选择中位数作为点估计，就是为了对抗这个效应。

注意：编码步骤的归一化区间和基函数选择直接影响模型性能。如果你的数据动态范围很大，或者有异常值，简单的min-max归一化到[-1,1]可能不够鲁棒。实践中，我遇到过采用稳健缩放（例如基于中位数和四分位距）效果更好的情况，尤其是对于存在脉冲噪声的工业传感器数据。

2.2 MPS模型结构：一张捕获时序关联的网

现在，我们有了T个d维向量。MPS模型就是由T个三阶张量{A^(1), A^(2), ..., A^(T)}构成。第t个张量A^(t)有一个物理指标（维度为d，对应输入φ(x_t)），和两个虚拟指标（或称键指标），分别连接左右邻居（维度为χ_{t-1}和χ_t）。

你可以把MPS想象成一条链：

[物理指标 d]--(张量A^(1))--[键χ_1]--(张量A^(2))--[键χ_2]-- ... --[键χ_{T-1}]--(张量A^(T))--[物理指标 d]

整个链的收缩（把所有相邻的键指标求和掉）结果是一个标量，这个标量的大小与序列的概率相关。

键维度χ是这个模型表达能力的核心。χ越大，相邻站点间能传递和保存的信息就越多，模型就越能捕获长时间程的依赖关系。但同时，计算复杂度和参数数量也会以O(T * d * χ^2)增长。因此，χ_max（最大允许的键维度）是一个至关重要的超参数，需要在表达能力和计算成本间做权衡。

在训练时，我们通过最大化训练数据集的似然（或最小化负对数似然）来优化所有这些张量A^(t)中的元素。这通常通过交替最小化这样的迭代算法完成，每次优化一个张量，保持其他张量固定。

2.3 条件概率与插值：在已知中求解未知

这是MPS最亮眼的应用之一，也是工程实现上最需要细心处理的部分。假设我们有一个训练好的MPS，它学到了健康心电图的联合概率分布。现在给你一个有心跳缺失的心电图片段，比如已知第2、4、6秒的数据，缺失第1、3、5秒的数据。如何补全？

MPSTime的算法分为两步，思想非常清晰：

投影测量：将已知数据点x_2, x_4, x_6通过特征映射变成量子态φ(x_2), φ(x_4), φ(x_6)。然后，将这些态“投影”到MPS对应的位置上。在张量网络图中，这相当��将已知站点对应的张量A^(2), A^(4), A^(6)的物理指标，与已知的态向量进行收缩。这个过程在数学上等价于用已知值对联合概率分布进行条件化，得到一个条件概率分布P(x_1, x_3, x_5 | x_2, x_4, x_6)。
顺序采样与估计：得到了关于缺失变量的条件概率分布后，我们需要从中获取具体的估计值。一种方法是顺序采样：先计算第一个缺失位置（x_1）的单站点约化密度矩阵ρ_1（通过对其他所有缺失站点求和得到）。从这个密度矩阵，我们可以得到x_1的条件概率密度函数pdf(x_1)。然后，我们不是简单采样，而是计算这个分布的一个最佳点估计——论文中通过大量实验发现，中位数在这里比均值或众数更稳健。得到x_1的估计值后，我们将其视为“已知”，投影回MPS，再继续计算x_3的约化密度矩阵，如此往复，直到所有缺失值被估算出来。

实操心得：这个顺序过程听起来是串行的，似乎不能并行。但在实现时，对于缺失模式固定的情况（比如总是每隔一个点缺失），我们可以通过预先规划计算路径，将部分张量收缩提前计算并缓存，从而显著加速。此外，计算中位数涉及数值积分，需要在对数域操作以避免下溢，这是实现中的一个精度关键点。

3. 关键工程决策：为什么是中位数？如何调参？

理论很优美，但落地到代码，每一步都充满了工程抉择。MPSTime论文中两个最重要的实践结论，都源于对细节的深刻洞察和大量实验。

3.1 中位数估计：对抗分布展宽的利器

在插值时，我们需要从条件概率分布pdf(x)中选出一个值作为最终输出。最直观的选择可能是均值（期望值）或众数（概率密度最大的点）。但论文中的实验（见其附录B的图11）给出了令人信服的反对理由。

均值的问题：对异常值极其敏感。由于有限基表示造成的分布“展宽”，概率密度会在真实值两侧形成拖尾。计算均值时，这些拖尾会显著地将平均值拉离真实峰值位置，导致较大的系统误差，尤其在物理维度d较小时，误差非常明显。
众数的问题：在分布边界附近表现不稳定。当真实值接近编码区间的边界（如-1或1）时，由于展宽是不对称的，众数可能会出现在一个不合理的位置，甚至产生边界外的伪影，导致插值结果严重失真。
中位的优势：中位数定义为累积分布函数（CDF）等于0.5的点。它对拖尾的敏感性远低于均值，同时又比众数更稳定。实验表明，在d取不同值时，中位数估计的误差在整个编码域内都最稳定、平均误差最小。它有效地抵抗了有限基近似带来的分布畸变，提供了最具代表性的单点估计。

因此，在MPSTime的插值算法中，计算单站点约化密度矩阵ρ后，并非直接输出其期望值，而是通过数值积分求解其CDF，找到中位数点。为了量化估计的不确定性，论文还引入了加权中位数绝对偏差（WMAD），它基于中位数计算，比标准差更能反映非高斯分布的离散程度。

注意事项：计算中位数需要数值求解方程F(x)=0.5，其中F(x)是CDF。在实践中，我推荐使用布伦特法等混合求根算法，它在大多数情况下比简单的二分法更快、更鲁棒。同时，务必确保你的数值积分例程在分布非常尖锐（d很大时）的情况下也能保持精度。

3.2 超参数优化：在效率与精度间走钢丝

MPS模型的性能极度依赖于几个超参数。盲目设置只会得到糟糕的结果。论文中采用了拉丁超立方采样结合5折交叉验证来进行系统性的搜索。

物理维度：决定了我们对每个时间点的“分辨率”。d太小，编码能力不足，信息损失严重；d太大，计算量急剧增加，且可能引入过拟合。论文在插值任务中搜索范围是[5, 15]，在分类任务中是[2, 15]。我的经验是，对于平滑变化的时间序列（如传感器温度），d=5~8可能就够了；对于高频、细节丰富的信号（如ECG），可能需要d=10~15。
最大键维度：控制了模型捕获依赖关系的能力。这是影响模型复杂度的主要因素。χ_max太小，模型无法学习长期关联；χ_max太大，模型会变得笨重且容易过拟合。论文对不同数据集设置了不同的范围（如[20, 80]）。一个重要的技巧是：并非所有键都需要达到χ_max。我们可以采用动态键维度，在训练过程中通过截断奇异值来调整每个键的实际维度，这能有效平衡表达能力和效率。
学习率与训练轮数：张量网络的训练通常使用交替最小化，学习率需要仔细调整。论文在[0.001, 0.5]的对数空间中进行搜索。训练轮数（sweeps）固定为10，这意味着对整个MPS链中的每个张量进行10轮优化。在实际操作中，我建议监控训练集和验证集的损失曲线，早期停止是防止过拟合的有效手段。

下表总结了论文在不同任务上使用的超参数搜索范围，这是一个很好的起点：

表：MPSTime超参数调优搜索范围参考

超参数	插值任务 (NTS1-4)	插值任务 (NTS5)	分类任务 (ECG等)	说明
物理维度	[5, 15]	[5, 15]	[2, 15]	分类任务对局部特征更敏感，有时更小的d反而有利。
学习率	[0.001, 0.5]	[0.001, 0.5]	[0.001, 0.5]	在对数空间中采样。建议从0.01开始尝试。
最大键维度	[20, 80]*	[20, 160]	[20, 40]	*对于某些简单数据集，会固定χ_max为较低值以观察趋势。分类任务通常需要更小的χ。
训练轮数	10	10	10	固定值。可根据损失曲线调整。

实操心得：超参数优化非常耗时，因为每个配置都需要训练一个完整的MPS模型。我的策略是分两步走：首先，在小规模数据子集或缩短的时间序列上进行粗搜索，确定d和χ的大致范围。然后，在最佳范围附近进行更精细的搜索。此外，使用验证集上的WMAD（对于插值）或错误率（对于分类）作为优化目标，比单纯看损失函数更有指导意义。

4. 实战演练：从数据准备到模型评估

光说不练假把式。让我们沿着一个典型的MPSTime工作流走一遍，我会穿插我在实现过程中踩过的坑和总结的技巧。

4.1 数据预处理与特征映射

假设我们处理的是UCR存档中的ECG200数据集。每个样本是一条长度为96的心电图。

归一化：这是至关重要的一步。由于使用勒让德基，我们需要将数据映射到[-1, 1]区间。对于分类任务，论文采用了稳健缩放：基于中位数和四分位距进行缩放，以减少异常值的影响。对于插值任务，则使用了简单的min-max归一化。我的建议是，如果你的数据没有明显的异常值，用min-max；反之，用稳健缩放。
```
# 示例：Min-Max归一化到[-1, 1] def min_max_scale_to_negative_one_one(data): min_vals = np.min(data, axis=1, keepdims=True) max_vals = np.max(data, axis=1, keepdims=True) # 防止除零 range_vals = max_vals - min_vals range_vals[range_vals == 0] = 1 scaled = 2 * (data - min_vals) / range_vals - 1 return scaled
```

特征映射：实现勒让德多项式基。对于物理维度d，我们需要计算前d阶勒让德多项式在值x处的函数值，构成一个d维向量。可以使用SciPy的scipy.special.eval_legendre函数高效实现。

import numpy as np from scipy.special import eval_legendre def legendre_feature_map(x, d): """ 将标量x映射为d维勒让德特征向量。 x: 归一化到[-1,1]的标量。 d: 物理维度。 返回: 形状为(d,)的numpy数组。 """ # 生成阶数数组 [0, 1, ..., d-1] orders = np.arange(d) # 计算各阶勒让德多项式在x处的值 phi = eval_legendre(orders, x) # 可选：进行归一化，使得不同基函数在区间内积分正交归一 # phi /= np.sqrt(2/(2*orders + 1)) # 这是L2归一化因子 return phi

注意：eval_legendre的阶数参数n可以是数组，这能实现向量化计算，显著提升编码大批量数据的速度。

4.2 MPS模型构建与训练

这里我们以分类任务为例。MPSTime分类器可以看作一个特殊的MPS，其末端连接一个分类权重向量。

模型初始化：随机初始化所有站点张量A^(t)。每个张量的形状为(χ_left, d, χ_right)，其中χ_left和χ_right是其左右键的维度。初始键维度通常设为1，在训练过程中通过截断SVD动态增长，但不超过χ_max。初始化时建议使用小的随机数（如从正态分布N(0, 0.01)采样），以避免梯度爆炸。
训练循环：采用交替最小化。在一轮训练中，我们从左到右或从右到左依次优化每个张量。
- 局部问题：当优化第k个张量A^(k)时，将其他所有张量固定，构造一个局部损失函数（通常是负对数似然加上L2正则项）。这个问题通常可以转化为一个最小二乘问题。
- 求解与更新：通过求解这个局部最小二乘问题（例如使用SVD或QR分解）来更新A^(k)。在更新后，通常需要对张量进行规范化（例如，使其Frobenius范数为1），以保持数值稳定性。
- 键维度调整：在更新并合并相邻张量后，进行SVD分解，并仅保留前χ_max个最大的奇异值及其对应的向量，以此来实现截断，控制模型复杂度。
正则化：为了防止过拟合，尤其是在数据量较少时，加入L2正则化项（权重衰减）非常有效。正则化系数λ也是一个需要调节的超参数，通常可以在[1e-6, 1e-3]范围内搜索。

4.3 插值算法实现细节

这是整个工程中最核心也最精巧的部分。我们详细拆解附录D描述的算法。

输入：训练好的MPS模型，一个部分缺失的时间序列（已知索引集合K，未知索引集合U）。输出：填补后的完整时间序列。

步骤A：条件化（投影测量）

将已知值{x_t for t in K}通过特征映射转换为量子态{φ_t(x_t)}。
按任意顺序（通常按时间顺序）遍历已知索引。对于每个已知索引t： a. 将MPS中对应站点张量A^(t)的物理指标与φ_t(x_t)进行收缩（点积）。这相当于进行了一次投影测量。 b. 计算该测量的概率幅P(x_t)（通过对整个MPS收缩求模平方得到，但可以通过局部收缩高效计算）。 c. 将张量A^(t)除以sqrt(P(x_t))进行归一化。 d. 将归一化后的张量A^(t)与其相邻的一个张量（比如右边的A^(t+1)）进行收缩，从而从链中“消除”这个已知站点，得到一个更新后的、长度减1的MPS。这个新MPS表示的条件概率分布P({x_u for u in U} | {x_k for k in K and k <= t})。
重复步骤2，直到所有已知站点都被处理。最终我们得到一个仅包含未知站点索引的MPS，它编码了条件概率分布P({x_u for u in U} | 所有已知数据)。

步骤B：顺序点估计

对未知索引集合U，按时间顺序（或根据依赖关系确定的顺序）处理。
对于当前要估计的第一个未知索引u： a.计算约化密度矩阵ρ_u：对当前MPS中除站点u外的所有其他站点进行求和（收缩）。在张量网络图中，这相当于将除了第u个张量外的所有张量及其共轭进行收缩。这是一个核心计算步骤，可以通过有效的张量网络收缩顺序来优化。 b.从ρ_u得到概率密度：对于任意候选值x，其概率密度为 pdf(x) = φ(x)^† ρ_u φ(x)。这是一个标量函数。 c.计算中位数估计值x̂_u：找到x̂_u使得累积分布函数CDF(x̂_u) = ∫_{-1}^{x̂_u} pdf(x) dx = 0.5。这需要数值积分和求根。 d.计算不确定性WMAD：根据公式(D4)计算加权中位数绝对偏差，作为估计可信度的度量。 e.将估计值“固化”：将x̂_u视为新的“已知值”，重复步骤A中的投影测量过程，将其投影到当前MPS的站点u上，更新MPS（现在MPS表示的条件分布是给定所有已知值和已估算值）。
重复步骤2，直到所有未知值被估算完毕。

踩坑实录：在实现“投影测量”后的归一化时，如果P(x_t)非常小（接近0），除以sqrt(P(x_t))会导致数值不稳定（除零或极大值）。务必添加一个极小值ε（如1e-12）进行平滑。此外，顺序估计中，前一个点的估计误差会传播到后一个点。为了缓解此问题，可以考虑在得到所有中位数估计后，用它们一次性重新条件化MPS，再进行一轮平滑迭代，但这会显著增加计算量。

4.4 分类任务实现

对于分类任务，MPSTime采用了一种判别式模型结构。假设有C个类别。

模型结构：构建C个不同的MPS，每个MPS对应一个类别c，记为W_c。每个W_c都在训练数据中属于类别c的样本上训练，以建模该类数据的联合概率分布P(X|Y=c)。
预测：对于一个新样本X，计算它在每个类别MPS下的“概率”（更准确地说，是未归一化的似然分数）score_c = |contract(W_c, Φ(X))|^2，其中Φ(X)是整个序列的特征映射张量积。然后，选择score_c最大的类别作为预测结果。这本质上是一种基于生成模型的判别式分类。
训练技巧：由于我们分别训练每个类别的MPS，可以很容易地处理类别不平衡问题。此外，可以对score_c取对数，并在分母加上所有类别的分数和以实现归一化，得到近似的后验概率P(Y=c|X)，这比直接使用原始分数更稳定。

5. 实验对比与结果分析

理论再美，也要用实验说话。MPSTime论文在多个数据集上进行了系统评测，我将结合这些结果和我复现实验的观察，为你分析其优劣。

5.1 插值性能对比

论文在合成数据集（NTS1-5）和真实世界数据集（ECG， Power Demand， Astronomy）上测试了插值性能。对比方法包括：

1-NNI：1-最近邻插值，经典基线。
BRITS-I：基于双向RNN的深度学习方法。
CDRec：基于矩阵分解（中心分解）的方法。
CSDI：基于条件评分扩散模型的先进生成式方法。

关键发现：

精度与效率的平衡：MPSTime在大多数数据集上的平均绝对误差（MAE）与CSDI、BRITS-I等深度学习方法相当，有时甚至更优，但训练速度快了几个数量级。这是因为MPS的参数效率极高。
对缺失模式的鲁棒性：随着缺失率从5%增加到95%，MPSTime的性能下降相对平缓，表明其条件概率建模是有效的。而1-NNI在缺失率高时性能急剧下降。
不确定性量化：MPSTime天然能提供WMAD作为不确定性估计，这对于许多实际应用（如医疗诊断、金融预测）至关重要。这是很多黑箱深度学习方法难以提供的。

在我的复现中，一个深刻的体会是：对于具有强长期依赖和周期性结构的数据（如ECG、天文光变曲线），MPSTime的优势尤其明显。它能很好地捕捉到心跳的周期形态，即使大段缺失，也能根据已知的周期片段合理地“延续”模式。而对于看起来像随机游走或噪声较多的数据，其优势会减弱。

5.2 分��性能对比

在ECG200、ItalyPowerDemand和KeplerLightCurves（天文）数据集上，MPSTime与以下先进分类器对比：

1-NN-DTW：动态时间规整的最近邻，时间序列分类的经典强基线。
InceptionTime：基于CNN的state-of-the-art深度学习方法。
HIVE-COTE 2.0：一个强大的异构集成模型，在UCR存档上长期领先。

结果分析：

并非全面碾压，但亮点突出：MPSTime的分类准确率通常介于1-NN-DTW和InceptionTime/HIVE-COTE之间。它很少能达到最先进的水平，但考虑到其模型复杂度极低，这个表现已经非常具有竞争力。
惊人的训练速度：这是MPSTime最大的亮点。如下表所示，在ECG数据集上，MPSTime在CPU上的训练时间约为19秒，而InceptionTime在强大的GPU上需要约1720秒。MPSTime比InceptionTime快了近100倍。1-NN-DTW虽然更快，但其准确率显著更低。

表：ECG200数据集分类器训练时间对比（论文数据）

分类器	平均训练时间 (秒)	硬件设备
1-NN-DTW	9.90 × 10⁻³	CPU (单核)
MPSTime	1.90 × 10¹	CPU (单核)
InceptionTime	1.72 × 10³	GPU (NVIDIA L40S)
HIVE-COTE 2.0	未比较	-

可解释性：作为生成模型，我们可以可视化每个类别的MPS所建模的“典型”时间序列模式（通过采样），这为理解分类决策提供了一定洞见，是黑箱神经网络难以比拟的。

个人体会：不要指望MPSTime在所有分类任务上打败精心调优的深度学习集成模型。它的定位应该是：在资源受限（计算力、时间、数据量）的场景下，提供一个快速、轻量、具有一定可解释性且精度尚可的优质选择。特别是在边缘计算或需要快速原型验证的场景中，它的价值巨大。

6. 常见陷阱、调试技巧与扩展方向

即使理解了原理，实现和调试MPS模型也绝非易事。下面是我从多次失败中总结出的经验。

6.1 数值不稳定与下溢/上溢

张量网络涉及大量连续矩阵乘法，数值范围很容易失控。

问题：收缩过程中张量元素变得极大或极小，导致NaN或Inf。
解决：规范化是生命线。在交替最小化的每一步之后，都对当前优化的张量进行规范化（例如，除以其Frobenius范数）。在计算概率时，始终在对数空间中进行操作。计算概率密度pdf(x) = φ† ρ φ时，先计算对数，再用log-sum-exp技巧进行归一化。

6.2 超参数选择困难

d和χ的选择没有银弹，但有一些启发式方法：

从小开始：从较小的d（如4）和χ（如10）开始，观察训练损失是否能下降。如果损失下降很快但验证集损失早早上扬，可能是过拟合，应减小χ或增加正则化。如果训练损失都降不下去，可能是模型能力不足，需要增加d或χ。
利用数据特性：时间序列的长度T和内在复杂度决定了所需的χ。你可以先计算数据的近似纠缠熵（通过PCA或延迟嵌入分析），作为所需χ的粗略上界。d则与数据的“平滑度”有关，可以通过观察傅里叶变换的高频成分来估计。
学习率调度：使用学习率衰减（如每5轮减半）通常比固定学习率效果更好。

6.3 处理长序列与计算复杂度

MPS的收缩计算复杂度与T和χ^3相关。对于超长序列（T>1000），直接应用会非常慢。

分块与分层：将长序列分割成重叠或不重叠的块，对每块分别建立MPS模型。或者，构建一个分层MPS（树状张量网络），虽然表达能力略有不同，但能极大降低计算成本。
利用对称性：如果你的时间序列具有平移不变性（近似平稳），可以考虑使用均匀MPS，即所有站点共享同一个张量A。这能将参数量从O(T * d * χ^2)减少到O(d * χ^2)，并加速训练。

6.4 扩展到多元时间序列与在线学习

当前MPSTime主要处理单变量序列。现实世界的数据往往是多变量的。

多元扩展：最直接的方法是将每个时间点的多个变量拼接成一个大的物理维度向量。但这会使d急剧增大。更优雅的方式是使用PEPS或树状张量网络等更高维度的张量网络结构来显式建模变量间的空间关联。
在线学习/适应：对于流式数据，完全重新训练MPS不现实。可以考虑增量更新算法，当新数据到来时，仅对受影响的部分张量进行微调，或者使用滑动窗口的方式更新局部模型。

6.5 软件生态与工具

目前还没有一个像PyTorch之于深度学习那样统治性的张量网络机器学习库。但有一些不错的起点：

Python：tensornetwork(Google),quimb,itensor(C++库的Python接口)。这些库提供了张量操作和基本MPS算法。
自定义实现：对于研究和深入理解，我强烈建议你至少自己实现一次核心的MPS训练和插值算法。这能让你彻底弄懂每一个细节。可以从一个非常小的合成数据集（T=5, d=2）开始，用NumPy手动推导和验证每一步。

基于矩阵乘积状态的时间序列分析，是一座连接了量子物理思想与经典机器学习实践的坚实桥梁。它可能不会在所有任务上都夺得榜首，但其独特的概率解释性、参数高效性、以及从条件分布中自然生成的能力，使其在数据插补、生成建模和资源受限的分类任务中，成为一个极具吸引力的选择。

查看全文

http://www.jsqmd.com/news/875262/