当前位置: 首页 > news >正文

sklearn特征选取之RFE

sklearn.feature_selection.RFE 是一种递归特征消除(Recursive Feature Elimination, RFE)方法,用于通过反复训练模型和消除不重要的特征,逐步减少特征数量,最终选择最重要的特征。它是一种用于特征选择的算法,特别适合线性模型或其他对特征权重敏感的模型。

1. 语法

from sklearn.feature_selection import RFERFE(estimator, n_features_to_select=None, step=1, verbose=0)

2. 参数说明

  • estimator: 模型对象。用于拟合数据的学习器,它需要有一个 coef_feature_importances_ 属性,可以是诸如线性回归、决策树等模型。例如,LinearRegression()LogisticRegression()DecisionTreeClassifier() 等。
  • n_features_to_select: 整数或 None。要选择的特征数量。如果为 None,则选择一半的特征。
  • step: 整数或浮点数。每次迭代中要删除的特征数量:
    • 如果是整数,则每次移除指定数量的特征。
    • 如果是浮点数(范围为 0 到 1),则每次移除当前剩余特征数量的一部分(比例)。
  • verbose: 整数。控制冗长模式,设置为 1 时,会输出详细的进度信息,通常用于调试。

3. 返回值

  • RFE.fit(X, y): 返回拟合好的 RFE 对象,可以查看和分析所选择的特征。
    • support_: 一个布尔数组,指示哪些特征是被选中的(True 表示被选中)。
    • ranking_: 每个特征的排名,数值越小表示该特征越重要,1 表示被选中的特征。
    • n_features_: 被选择的特征数量。

4. 示例

(1) 基本用法:选择 5 个特征
from sklearn.datasets import make_friedman1
from sklearn.feature_selection import RFE
from sklearn.linear_model import LinearRegression# 生成样本数据
X, y = make_friedman1(n_samples=50, n_features=10, random_state=0)# 创建线性回归模型
model = LinearRegression()# 创建 RFE 对象,选择 5 个特征
rfe = RFE(estimator=model, n_features_to_select=5)# 训练 RFE
rfe.fit(X, y)# 查看哪些特征被选择了
print("Selected features:", rfe.support_)
print("Feature ranking:", rfe.ranking_)

输出:

Selected features: [False  True  True False  True False  True  True False False]
Feature ranking: [6 1 1 7 1 4 1 1 2 3]
  • rfe.support_ 输出一个布尔值数组,表示哪些特征被选择了(True 表示选中)。
  • rfe.ranking_ 输出特征的重要性排名,1 表示被选中的特征。
(2) 使用 step 参数递归减少特征
# 每次迭代移除 2 个特征
rfe = RFE(estimator=model, n_features_to_select=5, step=2)
rfe.fit(X, y)# 查看最终选择的特征
print("Selected features:", rfe.support_)
print("Feature ranking:", rfe.ranking_)
  • 使用 step=2,每次迭代中移除 2 个不重要的特征,直到剩下 5 个特征。
(3) 使用决策树进行特征选择
from sklearn.tree import DecisionTreeClassifier
from sklearn.datasets import load_iris# 加载数据集
iris = load_iris()
X, y = iris.data, iris.target# 使用决策树模型
model = DecisionTreeClassifier()# 创建 RFE 对象,选择 2 个特征
rfe = RFE(estimator=model, n_features_to_select=2)
rfe.fit(X, y)# 输出选择的特征
print("Selected features:", rfe.support_)
print("Feature ranking:", rfe.ranking_)

输出:

Selected features: [ True False False  True]
Feature ranking: [1 3 2 1]
  • 通过决策树选择 2 个特征,输出显示第 1 和第 4 个特征被选择。

5. 应用场景

  • 降维: RFE 可以通过递归地删除不重要的特征,减少特征维度,有助于提高模型的性能并减少过拟合。
  • 特征选择: 通过选择对目标变量最重要的特征,RFE 可以提高模型的可解释性。
  • 模型优化: 减少不必要的特征有助于加快模型的训练速度。

6. 注意事项

  • 选择合适的 estimator: RFE 依赖于 estimatorcoef_feature_importances_ 属性,因此必须选择支持这些属性的模型,如线性回归、逻辑回归、决策树、随机森林等。
  • step 参数的设置: step 参数的选择可以影响计算效率。较大的 step 可以减少迭代次数,较小的 step 可以更精细地筛选特征。

7. 与其他特征选择方法的对比

  • SelectKBest: SelectKBest 是一种一次性选择前 k 个最重要特征的方法,而 RFE 是递归消除不重要特征,逐步选择最重要的特征。
  • RFECV: RFECV 是 RFE 的增强版,通过交叉验证自动选择最佳特征数量,而 RFE 需要手动指定特征数量。

RFE 是一个强大的特征选择工具,特别适合使用线性模型或决策树模型进行递归特征选择。

相关文章:

  • 北京网站建设多少钱?
  • 辽宁网页制作哪家好_网站建设
  • 高端品牌网站建设_汉中网站制作
  • 【Linux篇】TCP/IP协议(笔记)
  • 软考中级系统集成项目管理证书好考吗
  • Java多线程(1)—线程基础
  • 【Unity3d Shader】毛玻璃效果
  • el-select组件:选择某个选项触发查询
  • 华--清--速--递
  • Python知识点:如何使用Python进行算法交易
  • 用Python实现运筹学——Day 0: 学习计划
  • Python 从入门到实战25(模块)
  • JSP(Java Server Pages)基础使用
  • D盘格式化了,数据怎么恢复?
  • 【JavaWeb】二、HTML 入门
  • 跨境专线的网速收到什么影响
  • python画图1
  • 【艾思科蓝】前端框架巅峰对决:React、Vue与Angular的全面解析与实战指南
  • 分享一款快速APP功能测试工具
  • 【JavaScript】通过闭包创建具有私有属性的实例对象
  • 0x05 Python数据分析,Anaconda八斩刀
  • Bytom交易说明(账户管理模式)
  • java架构面试锦集:开源框架+并发+数据结构+大企必备面试题
  • MyEclipse 8.0 GA 搭建 Struts2 + Spring2 + Hibernate3 (测试)
  • SQL 难点解决:记录的引用
  • 马上搞懂 GeoJSON
  • 前端临床手札——文件上传
  • 使用agvtool更改app version/build
  • 使用iElevator.js模拟segmentfault的文章标题导航
  • 算法-图和图算法
  • 小程序开发之路(一)
  • 优秀架构师必须掌握的架构思维
  • 自定义函数
  • 策略 : 一文教你成为人工智能(AI)领域专家
  • 如何用纯 CSS 创作一个货车 loader
  • #565. 查找之大编号
  • #define MODIFY_REG(REG, CLEARMASK, SETMASK)
  • #git 撤消对文件的更改
  • #周末课堂# 【Linux + JVM + Mysql高级性能优化班】(火热报名中~~~)
  • ()、[]、{}、(())、[[]]等各种括号的使用
  • (06)金属布线——为半导体注入生命的连接
  • (1)(1.8) MSP(MultiWii 串行协议)(4.1 版)
  • (21)起落架/可伸缩相机支架
  • (3) cmake编译多个cpp文件
  • (c语言)strcpy函数用法
  • (ZT)薛涌:谈贫说富
  • (多级缓存)缓存同步
  • (附源码)springboot 房产中介系统 毕业设计 312341
  • (附源码)计算机毕业设计ssm高校《大学语文》课程作业在线管理系统
  • (剑指Offer)面试题41:和为s的连续正数序列
  • (介绍与使用)物联网NodeMCUESP8266(ESP-12F)连接新版onenet mqtt协议实现上传数据(温湿度)和下发指令(控制LED灯)
  • (十七)devops持续集成开发——使用jenkins流水线pipeline方式发布一个微服务项目
  • (五)Python 垃圾回收机制
  • (转)【Hibernate总结系列】使用举例
  • (转)项目管理杂谈-我所期望的新人
  • ./configure、make、make install 命令
  • .apk 成为历史!
  • .NET C# 配置 Options