对各系数求导，得法方程(Normal Equation)
$\frac{\partial G}{\partial a_1} = 0 \\ \frac{\partial G}{\partial a_2} = 0 \\ \cdots \\ \frac{\partial G}{\partial a_n} = 0 \\$

此方法称为最小二乘法

问题

点多，系数少？

✅ 表达能力不够，欠拟合

点少，系数多？

✅ 过拟合

Recap：插值 VS. 逼近

✅ 通常使用逼近而不插值

Overfitting（过拟合）

欠拟合 & 过拟合

过拟合可以达到误差为0，但是拟合的函数并无使用价值！

问：如何选择合适的基函数？
答：需要根据不同的应用与需求，不断尝试（不断“调参”）

避免过拟合的常用方法

🔎 [1：08：47]

• 数据去噪：剔除训练样本中噪声
• 数据增广：增加样本数，或者增加样本的代表性和多样性
• 模型简化：预测模型过于复杂，拟合了训练样本中的噪声。可选用更简单的模型，或者对模型进行裁剪
• 正则约束：适当的正则项，比如方差正则项、稀疏正则项

✅ 后面列举了常用正则项

正则项约束

选择一个函数空间，基函数的线性表达为：

$W=\left(w_{0}, w_{1}, \ldots, w_{n}\right)$

$y=f(x)=\sum_{i=0}^{n} w_{i} B_{i}(x)$

最小二乘拟合

$\min _{W}||Y-X W||^{2}$

Ridge regression（岭回归）

$\min_{W}||Y -XW\left | \right | ^2+\mu|| W|| ^2_2$

稀疏学习：稀疏正则化

已知冗余基函数（过完备），通过优化来选择合适的基函数，即让系数向量的 $L_0$ 模（ 非0元素个数）尽量小，以此挑选（“学习”）出合适的基函数

[1:10:14]过完备：基函数过冗余或线性相关。

$\min_{a} \left | \right |Y -XW\left | \right | ^2+\mu|| W|| _0$

$\min_{a}\left | \right | Y -XW\left | \right | ^2,s.t|| W || _0\le \beta$

✅ $||W||_0$ 表示 W 中的非零元素个数
最小化 $||W||_0$ （优化问题）或把它限制在可接受范围内（约束问题）
公式一是优化问题、公式二是约束问题。

压缩感知

已知 $y$ 和 $Φ$ ，有无穷多解 $x$
在一定条件下 (on Φ)，对于稀疏信号 $x$ ，可通过优化能完全重建 $x$

🔎 [Candes and Tao 2005]

$L_0$ 优化：

$\min ||x||_0\\ s.t. Φx=y$

🔎 [1：13：20]
✅ 已知信号 $x$ 是高维稀疏的,通过采样矩阵 $\phi$ 作用于 $x$ 可得到低维向 $y$ ,且根据y和 $\phi$ 中恢复出 $x$ 。
压缩感知常用于信号采集。

思考：非函数型的曲线拟合？

🔎 [1：15：40]

✅ 一个 $x$ 对应多个 $y$ ,因此不是函数。

本文出自CaterpillarStudyGroup，转载请注明出处。 https://caterpillarstudygroup.github.io/GAMES102_mdbook/