当前位置: 首页 > news >正文

岭回归(Ridge Regression)

岭回归(Ridge Regression)的理论知识推导

理论背景

岭回归是一种线性回归的变体,主要用于解决多重共线性问题,即当多个自变量高度相关时,传统的线性回归模型参数估计会变得不稳定,甚至无穷大。岭回归通过在最小二乘法的目标函数中加入一个惩罚项,使得参数估计变得更加稳定。

是一种线性回归的变体,它通过引入正则化项来减小回归系数的绝对值,防止模型过拟合。它在损失函数中加入了一个正则化项,使得回归系数的值尽量小,达到抑制模型复杂度的目的。

数学模型

目标函数

参数解读

实施步骤

  1. 数据准备

    • 收集数据。
    • 将数据分为训练集和测试集。
  2. 数据预处理

    • 处理缺失值。
    • 数据标准化或归一化(岭回归对数据的尺度敏感)。
  3. 建立模型

    • 使用训练数据拟合岭回归模型。
  4. 模型评估

    • 使用测试数据评估模型性能。
    • 计算 R^{2}、均方误差(MSE)等指标。
  5. 优化模型

    • 调整正则化参数α以找到最佳模型。
  6. 预测

    • 使用训练好的模型进行预测。

未优化模型实例

import numpy as np
import matplotlib.pyplot as plt
from sklearn.linear_model import Ridge
from sklearn.metrics import mean_squared_error, r2_score
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler# 生成示例数据
np.random.seed(0)
X = 2 * np.random.rand(100, 1)
y = 4 + 3 * X + np.random.randn(100, 1) * 0.5# 数据分割为训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)# 数据标准化
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)# 创建岭回归模型
ridge_reg = Ridge(alpha=1.0)
ridge_reg.fit(X_train_scaled, y_train)# 进行预测
y_pred = ridge_reg.predict(X_test_scaled)# 模型评估
mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)print(f"Mean Squared Error: {mse}")
print(f"R^2 Score: {r2}")
print(f"Intercept: {ridge_reg.intercept_}")
print(f"Coefficients: {ridge_reg.coef_}")# 可视化结果
plt.scatter(X_test, y_test, color='blue', label='Actual')
plt.plot(X_test, y_pred, color='red', label='Predicted')
plt.xlabel("X")
plt.ylabel("y")
plt.title("Ridge Regression")
plt.legend()
plt.show()

可视化展示

结果解释
  • MSE:表示预测值与实际值之间的平均平方误差。值越小,模型性能越好。
  • R^{2}:决定系数,度量模型的拟合优度。值越接近1,模型解释力越强。
  • Intercept:截距,表示回归方程在y轴上的截距。
  • Coefficients:回归系数,表示自变量对因变量的影响。

优化后的模型实例

from sklearn.linear_model import RidgeCV# 创建带交叉验证的岭回归模型
ridge_cv = RidgeCV(alphas=np.logspace(-6, 6, 13), scoring='neg_mean_squared_error', cv=5)
ridge_cv.fit(X_train_scaled, y_train)# 进行预测
y_pred_cv = ridge_cv.predict(X_test_scaled)# 模型评估
mse_cv = mean_squared_error(y_test, y_pred_cv)
r2_cv = r2_score(y_test, y_pred_cv)print(f"Best Alpha: {ridge_cv.alpha_}")
print(f"Mean Squared Error (CV): {mse_cv}")
print(f"R^2 Score (CV): {r2_cv}")
print(f"Intercept (CV): {ridge_cv.intercept_}")
print(f"Coefficients (CV): {ridge_cv.coef_}")# 可视化结果
plt.scatter(X_test, y_test, color='blue', label='Actual')
plt.plot(X_test, y_pred_cv, color='red', label='Predicted')
plt.xlabel("X")
plt.ylabel("y")
plt.title("Ridge Regression with Cross-Validation")
plt.legend()
plt.show()
结果解释
  • Best  Alpha:通过交叉验证选择的最佳正则化参数。
  • MSE (CV):交叉验证后的均方误差。
  • R^{2}(CV):交叉验证后的决定系数。
  • Intercept (CV):交叉验证后的截距。
  • Coefficients (CV):交叉验证后的回归系数。

总结

     通过两个实例可以看出,未优化的岭回归模型使用默认的正则化参数,而优化后的模型通过交叉验证选择了最佳的正则化参数,从而提高了模型的预测性能。通过这种方式,可以更好地解决多重共线性问题,提高模型的泛化能力。

相关文章:

  • 北京网站建设多少钱?
  • 辽宁网页制作哪家好_网站建设
  • 高端品牌网站建设_汉中网站制作
  • redis其他类型和配置文件
  • Mybatis 之批量处理
  • OpenResty使用Lua笔记
  • 题解|2023暑期杭电多校02
  • 关键路径-matlab
  • 【BUG】已解决:IndexError: list index out of range
  • 今日科技圈最新时事新闻(2024年7月12日
  • C++——类和对象(下)
  • k8s入门:从安装到实际应用
  • 【Linux杂货铺】期末总结篇3:用户账户管理命令 | 组账户管理命令
  • redis-缓存三剑客
  • FreeRTOS的中断管理、临界资源保护、任务调度
  • 2024CAIP省赛
  • 【吊打面试官系列-ZooKeeper面试题】简述 Zookeeper 文件系统?
  • 安全运营概述
  • “寒冬”下的金三银四跳槽季来了,帮你客观分析一下局面
  • 3.7、@ResponseBody 和 @RestController
  • CentOS7 安装JDK
  • CSS相对定位
  • docker容器内的网络抓包
  • Fundebug计费标准解释:事件数是如何定义的?
  • golang中接口赋值与方法集
  • IE报vuex requires a Promise polyfill in this browser问题解决
  • in typeof instanceof ===这些运算符有什么作用
  • Java 23种设计模式 之单例模式 7种实现方式
  • Java读取Properties文件的六种方法
  • linux安装openssl、swoole等扩展的具体步骤
  • python_bomb----数据类型总结
  • 大快搜索数据爬虫技术实例安装教学篇
  • 二维平面内的碰撞检测【一】
  • 工作中总结前端开发流程--vue项目
  • 基于Vue2全家桶的移动端AppDEMO实现
  • 猫头鹰的深夜翻译:Java 2D Graphics, 简单的仿射变换
  • 使用SAX解析XML
  • 适配iPhoneX、iPhoneXs、iPhoneXs Max、iPhoneXr 屏幕尺寸及安全区域
  • 原生JS动态加载JS、CSS文件及代码脚本
  • 数据库巡检项
  • ​学习笔记——动态路由——IS-IS中间系统到中间系统(报文/TLV)​
  • #周末课堂# 【Linux + JVM + Mysql高级性能优化班】(火热报名中~~~)
  • (16)Reactor的测试——响应式Spring的道法术器
  • (3) cmake编译多个cpp文件
  • (C)一些题4
  • (day18) leetcode 204.计数质数
  • (HAL库版)freeRTOS移植STMF103
  • (poj1.2.1)1970(筛选法模拟)
  • (二)丶RabbitMQ的六大核心
  • (函数)颠倒字符串顺序(C语言)
  • (机器学习的矩阵)(向量、矩阵与多元线性回归)
  • (算法二)滑动窗口
  • (图)IntelliTrace Tools 跟踪云端程序
  • (一) 初入MySQL 【认识和部署】
  • (最全解法)输入一个整数,输出该数二进制表示中1的个数。
  • ***php进行支付宝开发中return_url和notify_url的区别分析
  • *p=a是把a的值赋给p,p=a是把a的地址赋给p。
  • .cn根服务器被攻击之后