当前位置: 首页 > news >正文

Scikit-Learn随机森林回归

Scikit-Learn随机森林回归

    • 1、随机森林
      • 1.1、集成学习
      • 1.2、Bagging方法
      • 1.3、随机森林算法
      • 1.4、随机森林的优缺点
    • 2、Scikit-Learn随机森林回归
      • 2.1、Scikit-Learn随机森林回归API
      • 2.2、随机森林回归实践(加州房价预测)




1、随机森林


随机森林是一种由决策树构成的集成算法,它在大多情况下都能有不错的表现。随机森林既可用于回归也可用于分类。随机森林回归在机器学习知识结构中的位置如下:

1.1、集成学习


随机森林是一种由决策树构成的(并行)集成算法,属于Bagging类型,随机森林通过组合多个弱分类器,最终结果通过投票或取均值,使得整体模型的结果具有较高的精确度和泛化性能,同时也有很好的稳定性,因此广泛应用在各种业务场景中

随机森林有如此优良的表现,主要归功于随机和森林。顾名思义,随机森林是一个比喻,它由若干决策树构成,每棵决策树都是其基本单元。至于随机,只是一个数学抽样概念。随机使它具有抗过拟合能力,森林使它更加精准

关于决策树的介绍详见文章:回归树 和 决策树

随机森林的基本思想在于集思广益,集中群众的智慧,广泛吸收有益的意见。这往往可以得到更好的解决方案。集思广益在机器学习中对应一个关键概念——集成学习

集成学习(Ensemble Learning)通过训练学习多个个体学习器,当预测时通过结合策略将多个个体学习器的结果组合作为最终强学习器的结果输出

对于训练数据集,我们训练一系列个体学习器,再通过结合策略将它们集成起来,形成一个更强的学习器,这就是集成学习所做的事情

在这里插入图片描述
其中,个体学习器是相对于集成学习来说的,其实我们在之前了解到的很多模型,例如决策树算法、朴素贝叶斯算法等,都是个体学习器

而集成可以分为同质集成和异质集成:

  • 同质集成:只包含同种类型的个体学习器,个体学习器称作基学习器。例如随机森林中全是决策树集成
  • 异质集成:包含不同类型的个体学习器,个体学习器称作组件学习器。例如同时包含决策树和神经网络进行集成

个体学习器代表的是单个学习器,集成学习代表的是多个学习器的结合

集成学习的核心问题有两个:

  • 使用什么样的个体学习器?
    • 准确性:个体学习器不能太弱,需要有一定的准确性
    • 多样性:个体学习器之间要存在差异性,即具有多样性
  • 如何选择合适的结合策略构建强学习器?
    • 并行组合方式:例如随机森林
    • 传统组合方式:例如Boosting树模型

1.2、Bagging方法


这里我们只讲随机森林的并行集成模型,而Bagging是并行式集成学习方法最著名的代表

Bagging方法全称为自助聚集(Bootstrap Aggregating),顾名思义,Bagging由Bootstrap与Aggregating两部分组成

要理解Bagging,首先要了解自助采样法(Bootstrap Sampling)

在这里插入图片描述
自助采样的过程为

  • 给定包含m个样本的数据集,先随机取出一个样本放入采样集中,再把该样本放回初始数据集,使得下次采样时该样本仍有可能被选中
  • 重复上述过程m轮,得到包含m个样本的采样集,初始数据集中有的样本在采样集中多次出现,有的则从未出现
  • 假设约63.2%的样本出现在采样集中,而未出现的约36.8%的样本可用作验证集来对后续的泛化性能进行包外/袋外估计

Bagging方法是在自助采样基础上构建的,上述的采样过程我们可以重复T次,采样出T个包含m个样本的采样集,然后基于每个采样集训练出一个基学习器,然后将这些基学习器进行结合

在对预测输出进行结合时,Bagging通常对分类任务使用简单投票法,对回归任务使用简单平均法,这就是Bagging方法的基本流程

在这里插入图片描述
从偏差-方差分解的角度看,Bagging主要关注降低方差,因此它在不剪枝的决策树、神经网络等易受到样本扰动的学习器上效用更明显

1.3、随机森林算法


随机森林(Random Forest,RF)是一种基于树模型的Bagging的优化版本。核心思想依旧是Bagging,但是做了一些独特的改进——RF使用了CART决策树作为基学习器。具体过程如下:

  • 输入样本集 D D D= { ( x 1 , y 1 ) , ( x 2 , y 2 ) , . . . , ( x m , y m ) } \{{ (x_1,y_1),(x_2,y_2),...,(x_m,y_m) \}} {(x1,</

相关文章:

  • Java设计模式:享元模式实现高效对象共享与内存优化(十一)
  • 音乐传奇告别之作:《杰作》未解之谜❗❗
  • YOLOv7添加注意力机制和各种改进模块
  • 微信聊天内容怎么监控? | 三款可以监控电脑微信聊天记录的软件大盘点
  • 每日两题 / 131. 分割回文串 42. 接雨水(LeetCode热题100)
  • HCIP的学习(24)
  • 数字化学校渠道的建造内容
  • EM算法最通俗理解
  • 【2024最新华为OD-C卷试题汇总】披萨大作战 (100分) - 支持在线评测+三语言AC题解(Python/Java/Cpp)
  • mysql仿照find_in_set写了一个replace_in_set函数,英文逗号拼接字符串指定替换
  • 《广告数据定量分析》读书笔记之理论/概论
  • [面经] 西山居非正式面试(C++)
  • 深入解析力扣166题:分数到小数(模拟长除法与字符串操作详解及模拟面试问答)
  • Nginx网页服务
  • Compose 中的 touch 事件
  • [译]如何构建服务器端web组件,为何要构建?
  • 0x05 Python数据分析,Anaconda八斩刀
  • angular2开源库收集
  • CSS 专业技巧
  • Flannel解读
  • Java 23种设计模式 之单例模式 7种实现方式
  • JDK9: 集成 Jshell 和 Maven 项目.
  • js面向对象
  • Map集合、散列表、红黑树介绍
  • nodejs:开发并发布一个nodejs包
  • thinkphp5.1 easywechat4 微信第三方开放平台
  • webpack入门学习手记(二)
  • 模仿 Go Sort 排序接口实现的自定义排序
  • 强力优化Rancher k8s中国区的使用体验
  • 为什么要用IPython/Jupyter?
  • 再谈express与koa的对比
  • 你对linux中grep命令知道多少?
  • AI算硅基生命吗,为什么?
  • scrapy中间件源码分析及常用中间件大全
  • 好程序员大数据教程Hadoop全分布安装(非HA)
  • ​七周四次课(5月9日)iptables filter表案例、iptables nat表应用
  • ### Cause: com.mysql.jdbc.exceptions.jdbc4.MySQLTr
  • #stm32驱动外设模块总结w5500模块
  • $(function(){})与(function($){....})(jQuery)的区别
  • (10)工业界推荐系统-小红书推荐场景及内部实践【排序模型的特征】
  • (SpringBoot)第七章:SpringBoot日志文件
  • (附源码)springboot优课在线教学系统 毕业设计 081251
  • (附源码)ssm捐赠救助系统 毕业设计 060945
  • (剑指Offer)面试题34:丑数
  • (教学思路 C#之类三)方法参数类型(ref、out、parmas)
  • (四)图像的%2线性拉伸
  • (转)linux 命令大全
  • .apk文件,IIS不支持下载解决
  • .NET 中各种混淆(Obfuscation)的含义、原理、实际效果和不同级别的差异(使用 SmartAssembly)
  • .NET8.0 AOT 经验分享 FreeSql/FreeRedis/FreeScheduler 均已通过测试
  • .NET程序员迈向卓越的必由之路
  • .net访问oracle数据库性能问题
  • @angular/cli项目构建--http(2)
  • @JSONField或@JsonProperty注解使用
  • @select 怎么写存储过程_你知道select语句和update语句分别是怎么执行的吗?