重庆平台网站推广手机百度浏览器
没错,就是看电影
文章目录
- 前言
- 1. 问题描述
- 2. 创新之处
- 3. 贡献
- 一、时间序列在legende - fourier域的表示
- 1. 勒让德投影
- 2. 傅里叶变换
- 二、 模型结构
- 1. LPU: Legendre Projection Unit
- 2. FEL: Frequency Enhanced Layer
- 3. 多尺度专家机制的混合
- 二、实验结果
- 长时预测
- 总结
- 参考
文章信息
- 模型: FiLM(Frequency improved Legendre Memory Mode)
- 关键词:勒让德投影 Legendre Projection;频率增强;
- 作者:Tian Zhou, Ziqing Ma, Xue wang, Qingsong Wen, Liang Sun, Tao Yao, Wotao Yin, Rong Jin
- 机构: 阿里
- 发表情况:NeurIPS 2022
- 网址:FiLM: Frequency improved Legendre Memory Model for Long-term Time Series Forecasting
前言
1. 问题描述
现有(2022年)预测模型增加模型的复杂性,希望他们能够捕获关键和复杂的历史信息,但结果不尽如人意,下图将真实世界 ETTm1 数据集的真实时间序列与普通Transformer方法和LSTM的预测进行了比较,可以观察到,预测完全偏离了真实情况的分布。
作者认为,这些错误来自于这些模型在试图保留真实信号的同时错误地捕获了噪声。
准确预测的两个关键是:1) 如何尽可能完整地捕获关键的历史信息;2) 如何有效去除噪声。因此,为了避免预报不准确,我们不能通过简单地使模型更复杂来改进它。相反,我们将考虑一种鲁棒的时间序列表征方式,它可以捕获时间序列不带噪声的重要模式。
2. 创新之处
提出更加准确和稳健的时间序列数据表示方法(representations),用于未来预测,特别是长期预测。该方法通过将这些表示与强大的预测模型相结合,在多基准数据集上显著优于现有的长期预测方法。
第一步,作者直接利用Legendre投影(使用到了LUM
: Legendre Memory Units)来动态更新时间序列(固定大小的向量)的表征。然后,该投影层将与不同的深度学习模块相结合,以提高预测性能。直接使用这种表示的主要挑战是信息保存和数据过拟合之间的困境,即:勒让德投影的数量越大,历史数据保存得越多,但越有可能产生噪声数据过拟合。
因此,作为第二步,为了减少噪声信号对勒让德投影的影响,我们通过傅立叶分析和低秩矩阵近似的结合引入了一层降维。具体地说,我们保留了勒让德投影的大维度表示,以确保保留历史数据的所有重要细节。然后,我们将傅里叶分析和低秩近似相结合,以保留与低频傅里叶分量和高维特征空间相关的部分,进而消除噪声的影响。
这样,我们不仅可以捕捉到长期的时间依赖,还能有效降低长时预测中的噪声。
3. 贡献
-
我们提出了一种
Frequency improved Legendre Memory model
(FiLM)架构,并混合了专家机制(用于鲁棒的多尺度时间序列特征提取)。 -
我们重新设计了
Legendre Projection Unit
(LPU),使其成为一种通用的数据表示工具,任何时间序列预测模型都可以利用它来解决历史信息保存问题。LPU可以在FEL、MLP、LSTM、CNN、Attention等多种骨干网中作为插件块使用。用相当大小的线性层替换LPU总是会导致性能下降
-
我们提出Frequency Enhanced Layers(FEL),通过结合傅里叶分析和低秩矩阵逼近来降低维数,以最大限度地减少来自时间序列的噪声信号的影响,并缓解过拟合问题。还从理论和经验两方面验证了该方法的有效性。
一、时间序列在legende - fourier域的表示
1. 勒让德投影
函数逼近问题旨在得到每次 t t t 时刻的累积历史近似表示。使用勒让德多项式投影,我们可以将一个很长的数据序列投影到有界维度的子空间上,从而对不断发展的历史数据进行压缩或特征表示。
2. 傅里叶变换
略
二、 模型结构
FiLM的整体结构如图3所示。FiLM映射一个序列 X ↦ Y X \mapsto Y X↦Y,其中 X , Y ∈ R T × D X, Y \in \mathbb{R}^{T \times D} X,Y∈RT×D,主要利用两个子层:Legendre Projection Unit (LPU) 层和 Fourier Enhanced layer (FEL)。此外,为了捕获不同尺度的历史信息,在LPU层实现了不同尺度专家的混合。同时,引入了可选的数据归一化层RevIN
,以进一步增强模型的鲁棒性。值得一提的是,FiLM是一个简单的模型,只有一层LPU和一层FEL。
注意:输入 X X X 长度是预测长度 T T T 的整数( n n n)倍, n n n代表不同的尺度, n n n越大,LPU记忆 C C C 也就越大。
1. LPU: Legendre Projection Unit
LPU是一种状态空间模型: C t = A C t − 1 + B x t C_{t}=A C_{t-1}+B x_{t} Ct=ACt−1+Bxt ,其中 x t ∈ R x_{t} \in \mathbb{R} xt∈R, C t ∈ R N C_{t} \in \mathbb{R}^{N} Ct∈RN是记忆单元,N代表勒让德多项式的个数。
LPU包含两个固定的前缀矩阵A和B,公式如下:
值得注意的是 C t C_{t} Ct 是输入序列从开始到 t t t 时刻的压缩信息,利用 C t C_{t} Ct 即可重建原始输入(对应figure 6
里的take a slice
)。
2. FEL: Frequency Enhanced Layer
如下图所示,过程类似于FEDformer。
FEL具有单个可学习的权重矩阵( W ∈ R M ′ × N × N W \in \mathbb{R}^{M' ×N×N} W∈RM′×N×N ),是我们需要从数据中学习的内容。然而,这个矩阵可能很大。因此,我们可以将W分解为三个矩阵(如图),将勒让德多项式数设置为 N N N = 256,分解矩阵中 N ′ N^′ N′= 4。
3. 多尺度专家机制的混合
多尺度现象是时间序列预测中一种独特的关键数据偏差。由于我们以统一的重要性对待历史序列点,我们的模型可能缺乏对多尺度的关注。这里,我们的模型实现了一个简单的专家混合策略,该策略利用具有不同时间范围的输入序列 { T , 2 T , … n T } \{T, 2T,…nT\} {T,2T,…nT}预测 T T T个时间步,并将各专家预测结果通过线性层合并。
二、实验结果
长时预测
总结
参考
【序列推荐、勒让德记忆模型】FiLM: Frequency improved Legendre Memory Model for Long-term Time Series Forec