Processing math: 45%

数据拟合(Fitting)问题

输入:一些观察的数据点
输出:反映这些数据规律的函数y=f(x)

🔎 [55:12]

1. 到哪找?

选择一个函数空间,通过函数空间来构造线性函数空间:

A=span(B0(x),,Bn(x))

可以选择的函数空间有:

  • 多项式函数 span(1,x,x2,,xn)
  • RBF函数
  • 三角函数

✅ 选定一组基函数。
如果目标是周期函数,选择三角函数会比较合适

于是函数表达为

f(x)=nk=0akBk(x)

f(x)为表达基函数 × 系数,那么一组系数能确定一个f(x)

n+1个系数(a0,,an)

✅ 把待定系数(a0,,an)求解出来,这个函数就算是找到了。

2. 找哪个? && 怎么找? 目标1

目标

目标: 函数经过每个数据点(插值

yi=f(xi),i=0,1,,n

联立方程组

[57:18]把xiyi代入公式。联立, 可得线性方程组

nk=0akBk(xi)=yi,i=0,1,,n

简化写法为:

Aa=b

其中,AxiBk(xi)abyi 组成的向量。

Langrange方法求解

求解(n+1)×(n+1)线性方程组,可使用n次Langrange插值多项式方法。

插值n+1个点、次数不超过n的多项式是存在而且是唯一的

pk(x)=iBkxxixkxi

✅ 插值函数的自由度 = 未知量个数 - 已知量个数
条件数描述了解的稳定性,它与解的个数、自由度无关

问题

病态问题: 系数矩阵条件数高时, 求解不稳定

系数矩阵即上面的 A。
条件数指矩阵的奇异值中最大的与最小的之间的比例。

3 找哪个?&&怎么找?目标2

目标

目标:函数尽量靠近数据点(逼近

✅ 由于设备误差、存储误差,导致数据不精确。
因此曲线不必要一定经过点,而是靠近就可以。
逼近是指,不要求yif(xi)严格相等,但希望误差尽量。

min

(\cdot )^2是度量距离的一种方式。可替换。
除了考虑距离是否合理,还要考虑是否好优化。
因此(\cdot )^2最常用。  

目标函数

把目标函数看作是以系数为参数的函数 G

G (a_o, a_1,\dots, a_n) = {\textstyle \sum_{i=0}^{n}} (y_i-f(x_i))^2

求 G 的极小值,即求它的拐点。

最小二乘法求解

对各系数求导,得法方程(Normal Equation)
\frac{\partial G}{\partial a_1} = 0 \\ \frac{\partial G}{\partial a_2} = 0 \\ \cdots \\ \frac{\partial G}{\partial a_n} = 0 \\

此方法称为最小二乘法

问题

  • 点多,系数少?

✅ 表达能力不够,欠拟合

  • 点少, 系数多?

✅ 过拟合

Recap:插值 VS. 逼近

✅ 通常使用逼近而不插值

Overfitting(过拟合)

欠拟合 & 过拟合

过拟合可以达到误差为0,但是拟合的函数并无使用价值!

问:如何选择合适的基函数
答:需要根据不同的应用与需求,不断尝试(不断“调参”)

避免过拟合的常用方法

🔎 [1:08:47]

• 数据去噪:剔除训练样本中噪声
• 数据增广:增加样本数,或者增加样本的代表性和多样性
• 模型简化:预测模型过于复杂,拟合了训练样本中的噪声。可选用更简单的模型,或者对模型进行裁剪
• 正则约束:适当的正则项,比如方差正则项、稀疏正则项

✅ 后面列举了常用正则项

正则项约束

选择一个函数空间,基函数的线性表达为:

W=\left(w_{0}, w_{1}, \ldots, w_{n}\right)

y=f(x)=\sum_{i=0}^{n} w_{i} B_{i}(x)

最小二乘拟合

\min _{W}||Y-X W||^{2}

Ridge regression岭回归

\min_{W}||Y -XW\left | \right | ^2+\mu|| W|| ^2_2

稀疏学习:稀疏正则化

已知冗余基函数(过完备),通过优化来选择合适的基函数,即让系数向量的 L_0 模( 非0元素个数)尽量小,以此挑选(“学习”)出合适的基函数

[1:10:14]过完备:基函数过冗余或线性相关。

\min_{a} \left | \right |Y -XW\left | \right | ^2+\mu|| W|| _0

\min_{a}\left | \right | Y -XW\left | \right | ^2,s.t|| W || _0\le \beta

||W||_0表示 W 中的非零元素个数
最小化||W||_0(优化问题)或把它限制在可接受范围内(约束问题)
公式一是优化问题、公式二是约束问题。

压缩感知

已知yΦ ,有无穷多解x
在一定条件下 (on Φ),对于稀疏信号x,可通过优化能完全重建x

🔎 [Candes and Tao 2005]

L_0 优化:

\min ||x||_0\\ s.t. Φx=y

🔎 [1:13:20]
✅ 已知信号 x 是高维稀疏的,通过采样矩阵\phi作用于x 可得到低维向 y,且根据y和\phi中恢复出x
压缩感知常用于信号采集。

思考:非函数型的曲线拟合?

🔎 [1:15:40]

✅ 一个 x 对应多个 y ,因此不是函数。


本文出自CaterpillarStudyGroup,转载请注明出处。 https://caterpillarstudygroup.github.io/GAMES102_mdbook/