LASSO的原理与Ridge相同,只是在怎么表达theta方面选择了一个不同的指标。

LASSO: Least Absolute Shrinkage and Selection Operator Regression

LASSO的效果

使用与8-8相同的测试数据

LASSO回归,degree = 20

训练模型

from sklearn.pipeline import Pipeline
from sklearn.preprocessing import PolynomialFeatures
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import Lasso

def LassoRegression(degree, alpha):
    return Pipeline([
        ("poly", PolynomialFeatures(degree=degree)),
        ("std_scaler", StandardScaler()),
        ("lasso_reg", Lasso(alpha=alpha))
    ])

from sklearn.model_selection import train_test_split
np.random.seed(666)
X_train, X_test, y_train, y_test = train_test_split(X, y)

from sklearn.metrics import mean_squared_error

lasso1_reg = LassoRegression(degree=20, alpha=0.01)
lasso1_reg.fit(X_train, y_train)

y1_predict = lasso1_reg.predict(X_test)
mean_squared_error(y_test, y1_predict)

MSE = 1.149608084325997

绘制模型

def plot_model(model):
    X_plot = np.linspace(-3, 3, 100).reshape(100, 1)
    y_plot = model.predict(X_plot)

    plt.scatter(x, y)
    plt.plot(X_plot[:,0], y_plot, color='r')
    plt.axis([-3, 3, 0, 6])
    plt.show()

plot_model(lasso1_reg)

degree=20, 多项式回归、LASSO回归alpha取不同参数的结果对比

| MSE | 拟合曲线 --|---|-- 多项式回归,degree = 20 | 167.94010867772357 | LASSO,degree=20,alpha=0.01 | 1.149608084325997 |
LASSO,degree=20,alpha=0.1 | 1.1213911351818648 |
LASSO,degree=20,alpha=1 | 1.8408939659515595 |

Ridge VS. LASSO

在ridge算法中,随着a的增大,曲线越来越平缓,但它始终是一条曲线。
但在lasso算法中,a取0.1时模型已经接近是直线了。
使用lasso模型得到的更倾向于是一根直线。

直线与曲线的区别在于x的系数theta是否为0。使用lasso中会导致很多特征的系数为0。

lasso趋向于使得一部分theta值变为0,所以可作为特征选择用。
因为如果使用lasso后一部分特征的theta变为0,就代表lasso认为这部分特征是没有用的。

造成ridge和lasso这种区别的原因与它们的导数形式有关。

lasso算法可能会错误地将有用的特征也变为0,从计算准确度角度讲,ridge更准确。
但如果特征数量特别大,使用lasso可以让特征变少。