当前位置: 首页 > news >正文

回归拟合中的基本概念和公式汇编(SSE, MSE, RMSE, RMS, STD, 方差, SSR, SST, R-square, Adjusted_R-squ, 相关度)

1、概念

  1. SSE(和方差、残差平方和) :The sum of squares due to error,该统计参数计算的是拟合数据和原始数据对应点的误差的平方和。SSE越接近于0,说明模型选择和拟合更好,数据预测也越成功。
  2. MSE(均方误差):Mean squared error,该统计参数是预测数据和原始数据对应点误差的平方和的均值,也就是SSE/n,和SSE没有太大的区别。
  3. RMSE(均方根误差):Root mean squared error,该统计参数,也叫回归系统的拟合标准差,是MSE的平方根。
  4. SSR(回归平方和):Sum of squares of the regression,即预测数据与原始数据均值之差的平方和。
  5. SST(离差平方和):Total sum of squares,即原始数据和均值之差的平方和。
  6. R-square(确定系数):Coefficient of determination,通过数据的变化来表征一个拟合的好坏。“确定系数”的正常取值范围为[0 1],越接近1,表明方程的变量对 y 的解释能力越强,这个模型对数据拟合的也较好。
  7. 相关度:相关度又叫 皮尔逊相关系数 (Pearson Correlation Coefficient),衡量两个值线性相关强度的量 取值范围 [-1, 1]: 正向相关: >0, 负向相关:<0, 无相关性:=0
  8. 调整的R方:Adjusted R-Square,调整R方的解释与R方类似,不同的是:调整R方同时考虑了样本量(n)和回归中自变量的个数(k)的影响,这使得调整R方永远小于R方,而且调整R方的值不会由于回归中自变量个数的增加而越来越接近1。
  9. 方差:variance,统计中的方差(样本方差)是每个样本值与全体样本值的平均数之差的平方值的平均数。概率论中方差用来度量随机变量和其数学期望(即均值)之间的偏离程度。
  10. STD(标准差):Standard Deviation,方差的算数平方根。

因为在模型中,增加多个变量,即使事实上无关的变量,也会小幅度提高R平方的值,简单地说就是,用r_square的时候,不断添加变量能让模型的效果提升,而这种提升是虚假的。

如果模型中增加一个自变量,即使这个自变量在统计上并不显著,R方也会变大。因此,为避免增加自变量而高估R方,利用adjusted r square,能对添加的非显著变量给出惩罚,也就是说随意添加一个变量不一定能让模型拟合度上升。

注:这篇博文中涉及的,均方误差和方差是一样的,实际上它们两者是有区别的,具体可参看:

https://blog.csdn.net/Gou_Hailong/article/details/114896740


下面列个表格

简称中文名字计算公式
SSE和方差、残差平方和在这里插入图片描述
MSE均方误差、方差在这里插入图片描述
RMSE均方根误差、标准差在这里插入图片描述
SSR回归平方和在这里插入图片描述
SST离差平方和在这里插入图片描述
R-square确定系数在这里插入图片描述
Adjusted R-Square调整R方在这里插入图片描述
ρ \rho ρ相关度在这里插入图片描述

上述公式中w 是权重,一般都是1,调整R 方中的p 是number of predictors,

2、例子

下面整个简单例子,有这样两组变量:

XY
110
312
824
721
934

于是,n=5,w=1,p=1,,为啥是1,现在不太清楚。
Matlab代码:

X=[1;3;8;7;9];
Y=[10;12;24;21;34];
X_mean=mean(X);%5.6
Y_mean=mean(Y);%20.2
X_var=var(X,1);%9.44
Y_var=var(Y,1);%Y的方差,即Y_SST/n  75.36
XY_cov=cov(X,Y,1);%XY的协方差矩阵,对角线上是方差,其他是协方差 25.08
corrcoef(X,Y);%算相关系数,1, 0.9403

之后点
在这里插入图片描述
然后得出结果:
在这里插入图片描述
关于这个RMSE,不知道Matlab咋算的,其他数据还行。

excle 版本的:
在这里插入图片描述

XYY_hatSSESSRSSTR^2
1107.97884.08524944149.3577294104.04
31213.29241.6702977647.7149377667.24
82426.57646.6378369640.6584769614.44
72123.91968.5240641613.835424160.64MSE=8.728
93429.233222.7223822481.59870224190.44RMSE=2.9543
43.63983056333.1652706376.80.884196578

参考文章

https://jingyan.baidu.com/article/67508eb40d47b09cca1ce4ce.html
https://blog.csdn.net/l18930738887/article/details/50629409
https://blog.csdn.net/YEN_CSDN/article/details/79105846

相关文章:

  • 立方体相册
  • 中国行政单位划分
  • Matlab 画地图之 m_map
  • 火影手游饰品分解
  • 水准网平差
  • Matlab 双线性内插 缩放矩阵或图像 函数
  • Matlab 求不规则图形的 内切圆和外接圆 函数
  • Matlab 画地图时搞定经纬度注释 函数
  • Matlab 从全国 shp 中扣出某一省份的shp并画图 函数
  • Matlab 根据 shp 裁剪矩阵/图像 函数
  • 误差理论与平差基础学习笔记(Ⅱ)
  • Linux bash 编程笔记(基础篇)
  • 基于C语言 的实现数学上常用的功能
  • C++ 编程笔记【1】(基础篇)
  • 对各种单位的汇总
  • Angular6错误 Service: No provider for Renderer2
  • CNN 在图像分割中的简史:从 R-CNN 到 Mask R-CNN
  • css布局,左右固定中间自适应实现
  • CSS选择器——伪元素选择器之处理父元素高度及外边距溢出
  • egg(89)--egg之redis的发布和订阅
  • es6(二):字符串的扩展
  • IP路由与转发
  • Just for fun——迅速写完快速排序
  • React 快速上手 - 07 前端路由 react-router
  • 基于OpenResty的Lua Web框架lor0.0.2预览版发布
  • 开放才能进步!Angular和Wijmo一起走过的日子
  • 批量截取pdf文件
  • 深入浏览器事件循环的本质
  • 使用Gradle第一次构建Java程序
  • 限制Java线程池运行线程以及等待线程数量的策略
  • 新书推荐|Windows黑客编程技术详解
  • ​DB-Engines 11月数据库排名:PostgreSQL坐稳同期涨幅榜冠军宝座
  • # Python csv、xlsx、json、二进制(MP3) 文件读写基本使用
  • # 数论-逆元
  • #我与Java虚拟机的故事#连载05:Java虚拟机的修炼之道
  • $$$$GB2312-80区位编码表$$$$
  • (3)Dubbo启动时qos-server can not bind localhost22222错误解决
  • (C语言)共用体union的用法举例
  • (pytorch进阶之路)CLIP模型 实现图像多模态检索任务
  • (博弈 sg入门)kiki's game -- hdu -- 2147
  • (读书笔记)Javascript高级程序设计---ECMAScript基础
  • (转)LINQ之路
  • (转)关于pipe()的详细解析
  • .gitignore文件—git忽略文件
  • .Net Core 中间件验签
  • .NET CORE使用Redis分布式锁续命(续期)问题
  • .NET多线程执行函数
  • .net使用excel的cells对象没有value方法——学习.net的Excel工作表问题
  • .w文件怎么转成html文件,使用pandoc进行Word与Markdown文件转化
  • @Builder用法
  • @select 怎么写存储过程_你知道select语句和update语句分别是怎么执行的吗?
  • [ 蓝桥杯Web真题 ]-Markdown 文档解析
  • [Angularjs]asp.net mvc+angularjs+web api单页应用
  • [BJDCTF2020]The mystery of ip1
  • [C#]winform部署PaddleOCRV3推理模型