LASSO的原理与Ridge相同,只是在怎么表达theta方面选择了一个不同的指标。
LASSO: Least Absolute Shrinkage and Selection Operator Regression
LASSO的效果
使用与8-8相同的测试数据
LASSO回归,degree = 20
训练模型
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import PolynomialFeatures
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import Lasso
def LassoRegression(degree, alpha):
return Pipeline([
("poly", PolynomialFeatures(degree=degree)),
("std_scaler", StandardScaler()),
("lasso_reg", Lasso(alpha=alpha))
])
from sklearn.model_selection import train_test_split
np.random.seed(666)
X_train, X_test, y_train, y_test = train_test_split(X, y)
from sklearn.metrics import mean_squared_error
lasso1_reg = LassoRegression(degree=20, alpha=0.01)
lasso1_reg.fit(X_train, y_train)
y1_predict = lasso1_reg.predict(X_test)
mean_squared_error(y_test, y1_predict)
MSE = 1.149608084325997
绘制模型
def plot_model(model):
X_plot = np.linspace(-3, 3, 100).reshape(100, 1)
y_plot = model.predict(X_plot)
plt.scatter(x, y)
plt.plot(X_plot[:,0], y_plot, color='r')
plt.axis([-3, 3, 0, 6])
plt.show()
plot_model(lasso1_reg)
degree=20, 多项式回归、LASSO回归alpha取不同参数的结果对比
| MSE | 拟合曲线
--|---|--
多项式回归,degree = 20 | 167.94010867772357 |
LASSO,degree=20,alpha=0.01 | 1.149608084325997 |
LASSO,degree=20,alpha=0.1 | 1.1213911351818648 |
LASSO,degree=20,alpha=1 | 1.8408939659515595 |
Ridge VS. LASSO
在ridge算法中,随着a的增大,曲线越来越平缓,但它始终是一条曲线。
但在lasso算法中,a取0.1时模型已经接近是直线了。
使用lasso模型得到的更倾向于是一根直线。
直线与曲线的区别在于x的系数theta是否为0。使用lasso中会导致很多特征的系数为0。
lasso趋向于使得一部分theta值变为0,所以可作为特征选择用。
因为如果使用lasso后一部分特征的theta变为0,就代表lasso认为这部分特征是没有用的。
造成ridge和lasso这种区别的原因与它们的导数形式有关。
lasso算法可能会错误地将有用的特征也变为0,从计算准确度角度讲,ridge更准确。
但如果特征数量特别大,使用lasso可以让特征变少。